În jurul orei 9:45 a.m., Pacific Time, pe 28 februarie 2017, site-uri web precum Slack, Business Insider, Quora și alte destinații cunoscute au devenit inaccesibile. Pentru milioane de oameni, internetul în sine părea rupt.

S-a dovedit că Amazon Web Services a avut o întrerupere masivă care implică stocarea S3 în centrul său de date din Virginia de Nord, o problemă care a creat un impact în cascadă și a culminat cu o întrerupere care a durat patru ore agonizante.

În cele din urmă, Amazon și-a dat seama, dar vă puteți imagina cât de stresant ar fi fost pentru echipele tehnice care au petrecut ore întregi urmărind cauza dezactivării, astfel încât acestea să poată restabili serviciul. Câteva zile mai târziu, compania a emis un post-mortem public în care a explicat ce nu a mers și ce măsuri au făcut pentru a se asigura că această problemă nu va mai reveni. Majoritatea companiilor încearcă să anticipeze aceste tipuri de situații și să ia măsuri pentru ca acestea să nu se întâmple vreodată. De fapt, Netflix a venit cu noțiunea de inginerie a haosului, unde sistemele sunt testate pentru deficiențe înainte de a se transforma în întreruperi.

Din păcate, niciun instrument nu poate anticipa fiecare rezultat.

Este foarte probabil ca compania dvs. să întâmpine o problemă de proporții imense, precum cea cu care s-a confruntat Amazon în 2017. Este ceea ce se teme orice fondator de startup și CEO Fortune 500 – sau cel puțin ar trebui. Ceea ce te va defini ca organizație și modul în care clienții tăi te vor percepe înaintând, va fi modul în care te descurci și ceea ce înveți.

Am vorbit cu un grup de experți foarte calificați în caz de dezastre pentru a afla mai multe despre prevenirea acestor tipuri de momente să aibă un impact profund negativ asupra afacerii dvs.

Este întotdeauna despre clienții tăi

Fiabilitatea și timpul de funcționare sunt atât de esențiale pentru afacerile digitale de astăzi, încât companiile din întreprinderi au dezvoltat un nou rol, Inginerul de fiabilitate a site-ului (SRE), pentru a menține activele IT funcționale.

Tammy Butow, principalul SRE de la Gremlin, un startup care creează instrumente de haos, spune că rolul principal al SRE este acela de a menține clienții fericiți. Dacă site-ul funcționează, aceasta este, în general, cheia fericirii. „SRE este în general mai concentrată asupra impactului asupra clienților, în special în ceea ce privește disponibilitatea, timpul de funcționare și pierderea de date”, spune ea.

Companiile măsoară timpul de funcționare în funcție de așa-numitele „cinci noi” sau disponibilitatea de 99,999 la sută, dar inginerul software Nora Jones, cel mai recent a condus Chaos Engineering și Human Factors la Slack, spune că de multe ori se pune prea mult accent pe acest număr. Potrivit lui Jones, accentul ar trebui să fie pus pe client și impactul pe care îl are disponibilitatea asupra percepției lor despre tine ca companie și linia de jos a afacerii tale.

Cineva trebuie să fie calm și să continue să pună întrebări corecte.

„Sunt bani la sfârșitul zilei, dar, în timp, sentimentul utilizatorului se poate schimba [if your site is having issues]," ea spune. „Cum se gândesc la tine, la modul în care vorbesc despre produsul tău când vorbesc cu prietenii lor, când vorbesc cu membrii familiei lor. Cele nouă nu surprind nimic. ”

Robert Ross, fondator și CEO la FireHydrant, un SRE ca platformă de service, spune că poate este timpul să regândești ideea celor nouă. „Poate că trebuie să schimbăm acest termen. Poate putem populariza ceva precum „obiective de nivel de fericire” sau „acorduri de nivel de fericire”. În acest fel, accentul se pune pe produsele noastre. ”

Cand lucrurile merg rau

Companiile merg la lungimi mari pentru a preveni dezastrele pentru a evita dezamăgirea clienților și au, de obicei, situații pentru situațiile lor, dar uneori, indiferent cât de bine planifică, crizele pot izbucni de sub control. Când se întâmplă acest lucru, SRE-urile trebuie să execute, ceea ce necesită planificare; știind ce să faci când viața devine dificilă.

Sursa articol

LĂSAȚI UN MESAJ

Please enter your comment!
Please enter your name here