Një ndërprerje masive e AWS të hënën që rrëzoi disa nga aplikacionet dhe shërbimet më të njohura në botë, filloi me një defekt.
Gabimi – i cili ndodhi kur dy sisteme të automatizuara po përpiqeshin të përditësonin të njëjtat të dhëna njëkohësisht – u shndërrua në diçka dukshëm më serioze që inxhinierët e Amazon u përpoqën ta rregullonin, tha kompania të enjten në një vlerësim.
Ndërprerja masive e shërbimit cloud nënkuptonte se njerëzit nuk mund të porosisnin ushqim, të komunikonin me rrjetet spitalore, të hynin në bankat mobile ose të lidheshin me sistemet e tyre të sigurisë dhe pajisjet inteligjente të shtëpisë.
Kompanitë e mëdha globale, duke përfshirë Netflix, Starbucks dhe United Airlines, nuk ishin përkohësisht në gjendje t’u jepnin klientëve qasje në shërbimet e tyre online.
“Kërkojmë ndjesë për ndikimin që kjo ngjarje u shkaktoi klientëve tanë”, tha Amazon në një deklaratë në faqen e internetit të AWS.
“E dimë që kjo ngjarje ndikoi shumë klientë në mënyra të rëndësishme. Do të bëjmë gjithçka që mundemi për të mësuar nga kjo ngjarje dhe për ta përdorur atë për të përmirësuar edhe më tej disponueshmërinë tonë”, u tha ndër tjera.
Në një nivel të lartë, problemi rrjedh nga dy programe që konkurronin për të shkruar të njëjtën hyrje DNS – në thelb një regjistrim në librin telefonik të internetit – në të njëjtën kohë, gjë që rezultoi në një hyrje bosh. Kjo i çorientoi shumë shërbime AWS.
“Analogjia e një libri telefonik është mjaft e përshtatshme në atë që njerëzit në linjën tjetër janë atje, por nëse nuk dini si t’i kontaktoni, atëherë keni një problem. Dhe ai libër telefonik në fakt u prish”, tha për CNN, Angelique Medina, drejtuese e shërbimit të monitorimit të rrjetit ThousandEyes Internet Intelligence të Cisco.
Indranil Gupta, profesor i inxhinierisë elektrike dhe kompjuterike në Universitetin e Illinois, përdori një analogji në klasë për të shpjeguar analizën teknike të Amazon në një email drejtuar CNN.
“Le të themi se dy studentëve, njëri që punon më shpejt dhe tjetri që punon më ngadalë, u kërkohet të bashkëpunojnë në një fletore të përbashkët. Studenti më i ngadaltë i kushton vëmendje në shpërthime të shkurtra, por puna e tyre mund të bjerë ndesh ose të kundërshtojë punën e studentit më të shpejtë”, shkroi ai.
Në të njëjtën kohë, studenti më i shpejtë mund të “përpiqet vazhdimisht të ‘rregullojë’ gjërat shpejt” dhe të fshijë punën e studentit më të ngadaltë sepse është e vjetëruar.
“Rezultati, një faqe bosh (ose faqe e kryqëzuar) në fletoren e laboratorit, kur mësuesi vjen dhe e inspekton atë”, shkroi ai.
Ajo “faqe bosh” rrëzoi bazën e të dhënave DynamoDB të AWS, duke krijuar një efekt kaskadues që ndikoi në shërbime të tjera të AWS si EC2, e cila ofron servera virtualë për zhvillimin dhe vendosjen e aplikacioneve, dhe Network Load Balancer, i cili menaxhon kërkesat në të gjithë rrjetin.
Kur DynamoDB u rikthye në linjë, EC2 u përpoq t’i rikthente të gjithë serverat e tij në linjë menjëherë dhe nuk mundi ta mbante. lart.
Amazon po bën një sërë ndryshimesh në sistemet e saj pas ndërprerjes, duke përfshirë rregullimin e “skenarit të gjendjes së garës”, i cili bëri që të dy sistemet të mbishkruanin punën e njëri-tjetrit në radhë të parë, dhe shtimin e një suite shtesë testimi për shërbimin e saj EC2.
Ndërprerjet si ajo e së hënës, ndonëse të rralla, janë thjesht një realitet, tha Gupta.
Por ajo që ka rëndësi është se si adresohen çështje të tilla.
“Ndërprerjet në shkallë të gjerë si kjo, ato thjesht ndodhin. Nuk ka asgjë që mund të bësh për t’i shmangur ato, ashtu si (mënyra se si) sëmuren njerëzit,” i tha Gupta CNN në telefon.
“Por mendoj se mënyra se si reagon kompania ndaj ndërprerjeve dhe i mban klientët të informuar është me të vërtetë, me të vërtetë thelbësore”, shtoi ai.
