Home Hír A Cloudflare vezérigazgatója elnézést kért az „elfogadhatatlan” leállásért, és elmagyarázza, mi történt

A Cloudflare vezérigazgatója elnézést kért az „elfogadhatatlan” leállásért, és elmagyarázza, mi történt

6
0

Matthew Prince vezérigazgató szerint a Cloudflare keddi kiesése, amely megzavarta a hozzáférést számos webhelyhez és szolgáltatáshoz – beleértve az OpenAI-t, a Spotify-t, az X-et, a Grindr-t, a Letterboxd-t és a Canvát – a vállalat legrosszabb kiesése volt 2019 óta.

Más zavarok bizonyos hálózati funkciókra összpontosítottak, Prince írta egy blogbejegyzésben. „De az elmúlt 6+ évben nem volt még egy olyan kiesés, amely miatt az alapforgalom nagy része leállt volna hálózatunkon keresztül.”

A Cloudflare egy San Francisco-i székhelyű felhőszolgáltatással és kiberbiztonsággal foglalkozó vállalat, amelyet az összes webhely körülbelül 20%-a használ. a W3Techs szerint. Ez egy a néhány szolgáltatás közül, valamint Amazon webszolgáltatások, CrowdStrike és Gyorsan (melyek mindegyike jelentős leállásokat tapasztalt az elmúlt néhány évben), amelyekről talán soha nem is hallott, de alapvető internetes infrastruktúrát biztosítanak.

A keddi leállás által érintett helyek és szolgáltatások nagy része, amely 3 óra 30 perc körül kezdődött, úgy tűnt, alig több mint három órán belül helyreállt. A nap végére minden visszatért a normális kerékvágásba, és Cloudflare hozzálátott, hogy elmagyarázza, mi történt. Íme, amit tudnod kell.

Ne hagyja ki elfogulatlan műszaki tartalmainkat és laboratóriumi értékeléseinket sem. Adja hozzá a CNET-t preferált Google-forrásként.

Mi okozta a Cloudflare leállását?

A Cloudflare szerette volna hangsúlyozni, hogy a kiesést sem közvetlenül, sem közvetve nem kibertámadás okozta. Eleinte a cég azt gyanította, hogy egy „hiperméretű DDoS-támadásból” származhat – mondta Prince blogbejegyzésében. De kiderült, hogy a leállás belső szoftverhiba miatt következett be.

A Cloudflare egyik adatbázisában történt változás a vártnál nagyobb funkciófájlt generált, ami túl nagy volt ahhoz, hogy a cég szoftvere futni tudjon – mondta Prince. Emiatt a szoftver meghibásodott.

Miután a Cloudflare azonosította a problémát, képes volt lecserélni a problémás fájlt egy korábbi verzióra, és a forgalom nagy része ismét normálisan áramlik 6:30-ra (PT).

„Elnézést kérünk az ügyfeleinket és általában az internetet ért hatásért” – mondta Prince. „Tekintettel a Cloudflare fontosságára az internetes ökoszisztémában, bármely rendszerünk kiesése elfogadhatatlan. Az, hogy volt egy időszak, amikor a hálózatunk nem tudta irányítani a forgalmat, nagyon fájdalmas csapatunk minden tagjának. Tudjuk, hogy ma cserbenhagytuk önöket.”

Mely webhelyeket és szolgáltatásokat érintette?

A Cloudflare ügyfelei széles körével rendelkezik az interneten, kezdve a gyakran használt webhelyektől a kisebb szolgáltatásokig, amelyekről talán még nem is hallott. Méretéből adódóan, amikor leállt, sok ilyen webhelyet és szolgáltatást magával vitt.

A kimaradás érintettei között volt a Downdetector is, amelyhez a legtöbben a szolgáltatások offline állapotában jelentenek problémát. (A Downdetector ugyanaz az anyavállalat, mint a CNET, a Ziff Davis tulajdonosa.)

Miután újra elindult, a Downdetector azt mondta, hogy több mint 2,1 millió bejelentést kapott a kimaradási időszak alatt. Ezek közül több mint 435 000 az Egyesült Államokból érkezett, és úgy tűnik, hogy az Egyesült Királyság, Japán és Németország a következő országok, amelyeket leginkább érintett.

A Cloudflare kiesése számos webhelyet és szolgáltatást tönkretett. Ez csak egy mintavétel a Downdetector webhelyről.

Downdetector/Screenshot a CNET által

A legtöbb bejelentés a Cloudflare-re vonatkozott, de jelentős számú bejelentés érkezett más érintett vállalatokhoz is. Ezek közé tartozik az X (320 549 jelentés), a League of Legends (130 260 jelentés), az OpenAI (81 077 jelentés), a Spotify (93 377 jelentés) és a Grindr (25 031 jelentés).

Hogyan alakult ki a leállás?

A Cloudflare először 3 óra 48 perckor nyugtázta a kimaradást. Erről a társaság közleményt adott ki rendszerállapot oldal mondván, hogy tisztában van a problémával.

„A Cloudflare tisztában van egy olyan problémával, amely több ügyfelet érint, és jelenleg is vizsgálódik: széles körben elterjedt 500-as hiba, a Cloudflare Dashboard és az API is meghibásodik” – áll a közleményben. „Dolgozunk azon, hogy megértsük a teljes hatást, és enyhítsük ezt a problémát. További frissítésekkel hamarosan jelentkezünk.”

Délelőtt 5:09-kor (PT) a vállalat azt közölte, hogy a hibát azonosították, és a javítás végrehajtása folyamatban van. A következő órákban a hibák száma csökkenni kezdett, és a szolgáltatások fokozatosan újra elérhetővé váltak.

A Cloudflare 9:14-kor (PT) hozzátette, hogy a legtöbb szolgáltatás visszatért a normál kerékvágásba. „Az incidens utáni teljes körű vizsgálatot és az incidens részleteit a lehető legrövidebb időn belül elérhetővé teszik” – áll a közleményben.

Stabil és megbízható az internet?

A Cloudflare kiesése mindössze egy hónappal az Amazon Web Services leállása után következik be, ami pusztítást okozott az interneten. Az AWS-kimaradás olyan webhelyeket érintett, mint a Reddit, a Snapchat, a Roblox és a Fortnite, így sokakat felvetettek, hogy az internet ilyen hatalmas része néhány központosított szolgáltatásra támaszkodva ésszerű vagy biztonságos-e.

„A Cloudflare kiesését nem kifejezetten az AWS vagy az Azure múlt havi kimaradásai okozzák vagy nem kapcsolják össze, de ezekhez a hibákhoz hasonlóan ez is a koncentrációs kockázat hatását mutatja” – mondta Brent Ellis, a Forrester Research vezető elemzője. „Ebben az esetben a 3 óra 20 perces üzemszünet körülbelül 250-300 millió dolláros közvetlen és közvetett veszteséggel járhat, ha figyelembe vesszük az állásidő költségeit és az olyan szolgáltatások downstream hatásait, mint a Shopify vagy az Etsy, amelyek több tíz-százezer üzletnek adnak otthont.”

A ChatGPT-t gyártó OpenAI szolgáltatási zavarai különösen rávilágítottak a mesterséges intelligenciába való növekvő befektetések és a felhő infrastruktúra törékenységére, amelyre az AI mindennap támaszkodik.

„A legdominánsabb platform nem az egyidejű lekérdezések vagy egy új, versenyképes modell megjelenése miatt dőlt meg, hanem a Cloudflare-rel, a webbiztonsági és teljesítményszolgáltatóval kapcsolatos probléma miatt” – mondta Sarah Kreps, a Cornell Egyetem Tech Policy Institute igazgatója. „A probléma feltárja azt a tényt, hogy ez a sokmilliárd, sőt billió dolláros mesterségesintelligencia-befektetés csak annyira megbízható, mint a legkevésbé vizsgált, harmadik féltől származó infrastruktúra.”

Fuente de noticias