G'schichten ausm Serverraum - Episode 3
von BitPoint AG (Kommentare: 0)
Geschlafen wird später!
Wir hoffen, dass Sie eine großartige Woche hatten und gespannt auf eine neue Ausgabe unserer „G’schichten ausm Serverraum“ warten.
In dieser Ausgabe erzählen wir Ihnen von unserem massivsten Ausfall. Er hat Kunden dazu gebracht hunderte Kilometer zu fahren, nur um sicher zu stellen, dass es die BitPoint noch gibt. Von einer Sekunde auf die andere waren wir offline und – viel schlimmer: unerreichbar!
Es begann – wie soll es auch anders sein - mit einem Stromausfall, der unseren Rechenzentrumsbetreiber heimsuchte. Doch anders als zuvor, war diesmal der Grund für den Ausfall eine Schutzeinrichtung, die Menschenleben schützen sollte. Während Wartungs- und Servicearbeiten an den Notstromaggregaten durchgeführt wurden, trennte diese Schutzeinrichtung sofort die Stromversorgung am Gebäude und verhinderte den Start der Generatoren.
Dank der schnellen Reaktion unseres Betreibers wurde die Stromversorgung im Rechenzentrum innerhalb weniger Minuten wiederhergestellt. Doch dann begann die eigentliche Herausforderung: die schrittweise Wiederherstellung aller Systeme, einschließlich unserer eigenen Infrastruktur und den Kundensystemen.
Alles verlief zunächst wie geplant, bis wir zum Storage kamen. Hier stellte sich heraus, dass das vollständige Hochfahren des Speichersystems nicht erfolgreich war. Bei der Fehlerdiagnose wurde ein Firmwarebug in den Controllern entdeckt, der nur in Verbindung mit einem plötzlichen Stromausfall und dem Start im Recovery-Modus auftrat. Dies führte dazu, dass die Controller einander nicht erkennen konnten und jede Einheit bestimmte Dateien für sich beanspruchte und sperrte. Diese Situation führte dann zum Absturz des "fremden" Controllers und löste eine endlose Spirale, einen sogenannten Boot-loop aus.
Um diese komplexe Herausforderung zu bewältigen, wurde ein Supporttechniker des Herstellers zu uns ins Rechenzentrum entsandt. Gemeinsam mit Kollegen aus der Entwicklung in verschiedenen Ländern, darunter den USA, Indien und Spanien, arbeiteten sie rund um die Uhr an einer Lösung. Das Problem eskalierte förmlich über den gesamten Globus und wurde in drei Schichten über mehr als 20 Stunden hinweg behandelt.
Nachdem der Bug behoben war, mussten die Mitarbeiter unseres Storage-Herstellers manuell die Dateirechte aller betroffenen Dateien korrigieren. Dies war ein zeitintensiver Prozess, der jedoch letztendlich zum Erfolg führte.
Dieses Abenteuer hat uns gezeigt, dass selbst die schwierigsten Situationen durch enge Zusammenarbeit und Engagement gelöst werden können. Wir sind stolz auf unser Team und die Zusammenarbeit mit dem Hersteller, um eine Lösung zu finden und unseren Service wieder in vollem Umfang bereitzustellen.
Obwohl dies unser längster Ausfall in unserer Unternehmensgeschichte war, haben unsere Kunden ausnahmslos verständnisvoll und besonnen reagiert. Dafür sind wir sehr dankbar.
Für uns begann mit der Aufarbeitung der Geschehnisse eine Wende. Wir haben zum einen die Bestätigung erhalten, dass der Einsatz von Premiumprodukten und höchste Supportlevel ihre Berechtigung haben. Zum Anderen haben wir viele Systeme dezentralisiert, auch um für unsere Kunden immer – absolut immer und uneingeschränkt – erreichbar zu sein. Eine neue Strategie zum Erreichen von absoluter Ausfallsicherheit wurde erarbeitet und mit unserem georedundanten Streched-Cluster umgesetzt.
Für mehr Transparenz von möglichen Ausfallrisiken haben wir für unsere Kunden ein Modell mit 3 Sicherheitsstufen entwickelt, das für jede Cloudlösung mögliche Ausfallrisiken offenlegt.
Mit unserem Streched-Cluster sind wir und unsere Kunden auf der sicheren Seite.