Facebook was even van het internet gevallen.

5-okt-2021 12:03:12

Rond 17h45 gisterenavond werd het plots heel stil. De vele WhatsApp-groepen lieten plots niets meer van zich horen. De Facebook-pagina’s bleven leeg en het was onmogelijk om een foto van je avondmaal te posten op Instagram. Een stilte die bijna 6h zou aanhouden. Wat is er gebeurd? Wel Facebook was even geen onderdeel meer van het internet, letterlijk dan.

Internet, hoe werkt dat eigenlijk?

Het internet is in feite een verzameling van een immens aantal kleine netwerken. Deze netwerken worden Autonomous Systems genoemd en worden aangeduid met een AS nummer. Een AS kan een Internet Service Provider (ISP) zijn (bijvoorbeeld Telenet, AS6848) of een streamingservice (bijvoorbeeld Netflix, AS2906). Maar dit kan ook een groot bedrijf (bijvoorbeeld Colruyt, AS25428) zijn. Core ICT is zelf ook een AS met nummer 208792.

De verschillende netwerken delen route informatie met elkaar uit via het Border Gateway Protocol (BGP). Via BGP adverteren de ASen voor welke IP ranges ze verantwoordelijk zijn. Hierdoor weten de verschillende ASen hoe ze aan een bepaald netwerk kunnen.

Stel, in de afbeelding hieronder, dat je achter een Telenet verbinding zit die zich in AS2 bevindt, en je wil een serie streamen van Netflix die zich op AS7 bevindt, dan weten de zogenaamde BGP routers dankzij de routeringsinfo dat ze via AS3 en AS5 aan AS7 geraken, of wanneer er een probleem is bij AS3 dat ze er ook via AS1 en AS4 geraken.

Facebook Core ICT Disaster Recovery
Hoe werkt het internet?

Hoe kon het misgaan bij Facebook, Instagram en Whatsapp?

Vanaf het ogenblik dat een AS stopt met zijn IP ranges te adverteren, valt hij letterlijk van het internet. Geen enkele router weet immers nog hoe hij bij de desbetreffende AS geraakt. En dat is exact wat er is gebeurd met Facebook. Rond 17:45 stopten de routers met het adverteren van de routes naar AS32934, het AS van Facebook. Het resultaat was dat alle 440 IP ranges van Facebook (en de andere Facebook producten zoals WhatsApp en Instagram) onbereikbaar werden. Facebook bevestigt dat ook in een statement:

Our engineering teams have learned that configuration changes on the backbone routers that coordinate network traffic between our data centers caused issues that interrupted this communication.

Hoe dat exact is kunnen gebeuren kunnen we zonder technische details niet zeggen. Mogelijks ligt een menselijke fout aan de basis. In theorie is zo een technische fout snel te herstellen door het restoren van de configuratie backups. Maar in dit geval waren de de datacenters onbereikbaar, waardoor het niet meer lukte om de routers te benaderen. Volgens geruchten zouden engineers uiteindelijk fysiek naar de datacenters moeten zijn gaan om de configuratie te herstellen.

Grote chaos bij Facebook tot gevolg

Facebook zou ook slachtoffer zijn geweest van zijn eigen problemen. Doordat Facebook (als bedrijf) was geïsoleerd van het internet, zouden de meeste interne tools ook niet meer gewerkt hebben. Dit maakte het zoeken naar de oorzaak en het werken aan een oplossingen extra moeilijk.

Sommige nieuwssites meldden dat Facebook engineers zelfs het datacenter niet meer in konden. Het badgesysteem was namelijk offline door de eigen panne. Facebook kon zelfs niet meer communiceren over de problemen, want de publieke statuspagina (https://status.fb.com/) is gehost door Facebook zelf. En deze was dus ook offline.

Gelukkig was Twitter nog wel online, en konden ze op die manier nog communiceren. Wel een beetje pijnlijk.. 😊

Facebook Core ICT Disaster Recovery
Facebook excuseerde zich voor het ongemak ... via Twitter!

Er waren ook heel veel secundaire effecten. Immers werken heel veel websites en applicaties op de een of andere manier met een Facebook integratie , waardoor deze (deels) niet meer werkten. Doordat veel toestellen de DNS servers van Facebook niet meer konden bereiken of omdat gebruikers bleven proberen de Facebook app te openen, bleven deze DNS requests sturen en geraakte verschillende DNS resolvers overbelast en hadden gebruikers die niets met Facebook te maken ook hinder. Cloudflare zag 30 keer zoveel DNS requests naar Facebook alleen.

Facebook Core ICT Disaster Recovery
Cloudflare DNS requests

Disaster recovery

Een menselijke configuratie fout zoals hier (vermoedelijk) aan de basis lag is natuurlijk nooit uit te sluiten. Maar het is belangrijk om je er zo goed mogelijk op voor te bereiden en deze onderdeel te maken van je disaster recovery plannen.

Zoals eerder aangehaald is Core ICT zelf ook ‘part of the internet’ via onze eigen AS, maar we kiezen er bewust voor om bepaalde services niet zelf te hosten. Denk hierbij aan diensten zoals mail, DNS, servicedesk etc.

Ook onze eigen documentatie staan niet in onze eigen DC’s maar op een andere veilige locatie. Bij een incident willen we immers zeker zijn dat we nog met onze klanten kunnen communiceren en dat onze toolset niet geïmpacteerd is.

We maken gebruik van fysiek gescheiden datacenters en hebben buiten onze primaire IP transit verbindingen ook nog secundaire admin connectiviteit zodat we in geval van een configuratieprobleem nog kunnen inloggen. En indien nodig kunnen we uiteraard op een korte tijdspannen fysiek in de DC’s zijn.

Wil je graag eens sparren over jouw DR plan? Laat gerust iets van je horen!

Aangeraden artikels

Op basis van News

Schrijf u in op onze nieuwsbrief