Facebook neveiksme parāda, kāpēc mums nevajadzētu paļauties uz to visā

Satura rādītājs:

Facebook neveiksme parāda, kāpēc mums nevajadzētu paļauties uz to visā
Facebook neveiksme parāda, kāpēc mums nevajadzētu paļauties uz to visā
Anonim

Atslēgas līdzņemšanai

  • Facebook tehniskās problēmas bija neveiksmīgas, taču problēma, visticamāk, būtu atrisināta daudz ātrāk, ja tas nebūtu balstīts uz tik daudzām savstarpēji savienotām sistēmām.
  • Nav iespējams pilnībā novērst sistēmas kļūmes, taču ir veidi, kā samazināt to iespējamību.
  • Ja jums ir rezerves plāni gadījumiem, kad (nevis tad, kad) sistēma neizdodas, var būt atšķirība starp “kaitinošu” un “katastrofālu”.
Image
Image

Nesenā Facebook sagrāve parāda, kā savstarpēji savienotas sistēmas var neizdoties un kāpēc mums tās nevajadzētu izmantot visam.

Pazaudēt Facebook, WhatsApp un Instagram uz vairākām stundām pirmdien bija neērti, nodarīja kaitējumu uzņēmumiem un dažos gadījumos gandrīz katastrofāli. Saskaņā ar Facebook teikto, tas viss bija saistīts ar tā tīklu koordinējošo maršrutētāju konfigurācijas izmaiņām.

Tas ir saprātīgs izskaidrojums, taču fakts, ka viena līdzīga kļūda var apturēt ne tikai Facebook, bet arī citu Facebook piederošo sistēmu darbības traucējumus, ir nedaudz satraucošs.

Viena nepareiza maršrutētāja konfigurācijas maiņa izraisīja vairāku pakalpojumu un pat VR austiņu pilnīgu darbību. Turklāt, pēc paša Facebook atzīšanas, tam bija arī kaskādes ietekme uz uzņēmuma datu centru saziņu, apturot visus to pakalpojumus.

"Paļaušanās uz savstarpēji savienotām sistēmām ir saistīta ar raksturīgu sistēmas vai pat pakalpojuma kļūmes risku," sacīja Frančesko Altomare, GlobalDots vecākais tehniskais pārdošanas inženieris, e-pasta intervijā Lifewire,.

"Lai novērstu šo biedējošo risku, uzņēmumi izmanto SRE (System Reliability Engineering) principu, kā arī citus rīkus, kas visi attiecas uz dažāda līmeņa dublēšanu, kas iebūvēta katrā sistēmas infrastruktūras slānī."

Image
Image

Kas var noiet greizi

Ir vērts atzīmēt, ka tad, kad šāda sistēma neizdodas, parasti ir nepieciešama pilnīga vētra, kas notiek nepareizi. Tas ir mazāk kā kāršu namiņš, kas gaida kritienu, un vairāk kā atklāta termiskās izplūdes atvere kosmosa stacijā maza mēness lielumā.

Lielākā daļa uzņēmumu veic pasākumus, lai mēģinātu nodrošināt, lai nekad nenotiktu viena lieta, kas varētu visu iemest haosā, taču, neskatoties uz to, tas var notikt.

"Negaidītas kļūmes ir daļa no uzņēmējdarbības, un tās var rasties darbinieku nolaidības, interneta pakalpojumu sniedzēja tīkla kļūmju vai pat mākoņu krātuves pakalpojumu problēmu rezultātā," sacīja Sallija Stīvensa, FastPeopleSearch līdzdibinātāja. e-pasta intervija.

"…Kamēr tiek veiktas nepieciešamās darbības, lai aizsargātu sistēmu, piemēram, dublējumkopijas, uz vietas esošais maršrutētājs un daudzpakāpju piekļuve, šīs kļūmes ir maz ticamas." Lai gan pat tad, ja ir daudz atteices drošinātāju, slēdzene joprojām var neizdoties.

Ja sistēma, kas kontrolē tādas lietas kā primārie kontaktu veidi, ierīces, durvis utt., neizdodas, rezultāti var būt nozīmīgi. No vieglām neērtībām līdz pilnīgai katastrofai atkarībā no tā, cik lielā mērā indivīdi un uzņēmumi uz to visu paļaujas.

Image
Image

"Pastāv arī risks, ka sistēmā iekļūst hakeri no jebkuras vismazāk aizsargātās ierīces, piemēram, ledusskapjiem un cepeškrāsns tosteriem," piebilda Stīvenss, "kas var izraisīt datu zādzību un izspiedējprogrammatūru."

Kā mēs varam sagatavoties

Nevar garantēt, ka sistēma nekad neizdosies, taču ir darbības, kuras var veikt, lai samazinātu kļūmes iespējamību vai arī novērstu kļūmes vienmērīgāk. Ideāla būtu abu pieeju kombinācija, kas apvieno atteices un pretpasākumus ar ārkārtas rīcības plāniem un rezerves sistēmām.

"Lai novērstu šos apdraudējumus, ko rada trešo pušu produkti un pakalpojumi, kas tiek efektīvi apstrādāti, ir stingri jānorāda lomas un pienākumi saistībā ar trešās puses riska pārvaldību," sacīja Daniela Soiere, FindPeopleFast dibinātāja un galvenā tehnoloģiju vadītāja. e-pasta intervijā: "Lai uzplauktu šajā jaunajā vidē, riska pārvaldītājiem ir jāsaprot šādas sarežģītas ekosistēmas būtiskās daļas."

Tas, kas notika ar Facebook, WhatsApp un Instagram, bija neveiksmīgs, bet, cerams, arī acis atverošs. Cilvēkiem, kuri paļaujas uz savstarpēji saistītām sistēmām, ir jāsaprot, ka pareizais notikums var visu izjaukt. Un ir jāievieš (vai rūpīgi jāpārbauda un jāuzlabo) pasākumi, lai samazinātu šādu traucējumu iespējamību un mazāku ietekmi.

Facebook gadījumā tā problēma nebija maršrutētāja problēmas, bet gan gandrīz visa tā ekosistēma, kas saistīta ar visu pārējo. Tādējādi, kad Facebook (pakalpojums) nedarbojās, Facebook (uzņēmumam) bija jātērē daudz vairāk laika un enerģijas, vienkārši organizējot un risinot problēmu. Ja tajā vai nu netiktu izmantota tik dziļi iesakņojusies, savstarpēji savienota sistēma, vai arī būtu izstrādāti rezerves plāni, lai novērstu šādu traucējumu, visticamāk, to novēršana būtu prasījusi daudz mazāk laika.

Ieteicams: