G'schichten ausm Serverraum - Episode 2
von BitPoint AG
Grillt hier jemand?
In dieser Ausgabe unserer „G’schichten ausm Serverraum“ berichten wir von einem sehr unerfreulichen Tag, der von Einsatzkräften, Mitarbeitern des Rechenzentrumsbetreibers und unserem Team viel Geduld und Beharrlichkeit erforderte. Spoileralarm: „Das hätte viel schlimmer ausgehen können!“
Wie auch schon in der ersten Ausgabe handelt diese Geschichte von einem unserer wichtigsten Elemente als Cloud-Provider, der Stromversorgung.
Wir wurden von unseren Monitoring-Tools über einen Ausfall diverser Systeme in einem unserer Rechenzentren in München informiert. Schnell konnte ein Problem in der Stromversorgung als Ursache für die Störungen ausgemacht werden. Nach einem kurzen Telefonat mit dem Betreiber des Rechenzentrums haben wir erfahren, dass ein Schwelbrand im Bereich einer Stromzuführung in das Gebäude ausgebrochen war.
Sofort wurden alle erforderlichen Sicherheitsmaßnahmen ergriffen, und die Feuerwehr eilte zum Ort des Geschehens, um den Brand zu bekämpfen. Die Sicherheit der Mitarbeiter steht natürlich stets an erster Stelle, daher wurde das Gebäude umgehend evakuiert und das Gebäude durch die Feuerwehr gesperrt.
Während die Feuerwehrleute routiniert gegen die Flammen kämpften, konzentrierten wir uns mit den Mitarbeitern des RZ-Betreibers auf die Wiederherstellung des Betriebs und planten alle erforderlichen Schritte durch. Nach Abschluss der Löscharbeiten und der Beseitigung der Störungsursache durften Personen endlich in das Gebäude zurückkehren. Doch hier fing die eigentliche Herausforderung erst an.
Durch den Stromausfall und mehrfache, starke Spannungsschwankungen wurde der automatische Reboot von unserem Managementsystem deaktiviert, um Datenverluste zu verhindern. Zahlreiche Maschinen mussten in einer bestimmten Reihenfolge manuell gebootet werden, um sicherzustellen, dass alles reibungslos funktioniert. Stellen Sie sich vor, eine endlose Reihe von Servern, die einer nach dem anderen wieder zum Leben erweckt werden müssen. Unsere Administratoren nahmen sich dieser Aufgabe mit vollem Einsatz an und stellten sicher, dass jeder Server genau die Aufmerksamkeit erhielt, die er benötigte.
Anschließend überwachten sie aufmerksam die Systeme, um sicherzustellen, dass alles wie gewohnt funktioniert. Danach hieß es, die Überwachung und Automatisierung unserer Infrastruktur weiter zu optimieren und weitere Redundanzen zu schaffen.
Dieses Ereignis zeigte wieder sehr deutlich, wie wichtig es für Unternehmen ist, bei der Auswahl eines Cloud-Providers auf die Redundanz seiner Infrastruktur zu achten.