Montag, 3. März 2008, 20:40
Ein schwarzer Samstag
Nicht, dass meine vergangene Woche langweilig gewesen wäre. Offenbar sah Herr Murphy das jedoch anders als ich. Denn er bescherte uns am vergangenen Samstag etwas, was man eigentlich nie erleben möchte.
Unser gesamtes Rechenzentrum ist ja durch mehrere USV-Anlagen sowie ein Diesel-Aggregat abgesichert. Aus Sicherheitsgründen gibt es für einzelne Abschnitte jeweils getrennte USV-Anlagen. Eine dieser USV-Anlagen stellte am vergangenen Samstag aus noch nicht geklärten Gründen bei der permanenten Selbst-Überprüfung eine Fehlfunktion fest. An sich ist das noch nichts "Schlimmes", denn das mehrstufige Sicherheitskonzept unserer Anlagen sieht für genau diesen Fall eine Umschaltung in einen Bypass-Modus vor, welcher zu diesem Zeitpunkt automatisch ausgelöst wurde.
Und genau hier schlug Herr Murphy gnadenlos zu: Es kam zeitgleich zu einem weiteren, internen Defekt an einer Sicherung, wodurch der Bypass-Modus nicht aktiviert werden konnte. Es kam somit zu einer kurzzeitigen Unterbrechung der Stromversorung für etwa 1 Sekunde, bis die dritte Sicherheitsstufe greifen konnte (ein anderer Bypass-Modus, der allerdings nur mit Unterbrechung möglich ist). Somit waren alle Geräte und Server, die von dieser USV-Anlage versorgt werden, für etwa 1 Sekunde stromlos. Betroffen waren unter anderem alle Server, die für unsere Webhosting-Produkte zuständig sind sowie ein Teil unserer Serverhousing- und Rootserver-Server (unsere DSL-Kunden waren hiervon nicht betroffen).
Der Hersteller der Anlage ist bereits bei der Fehlersuche (vor allem bzgl. des ursprünglichen Fehlers), die Anlage läuft zwischenzeitlich wieder einwandfrei (und lief auch zu keinem Zeitpunkt nicht mehr als USV, bei einem reinen Stromausfall hätte die Anlage korrekt gearbeitet). Darüber hinaus suchen wir derzeit nach weiteren Möglichkeiten, derartigen Fällen vorzubeugen.
Wir waren das ganze Wochenende damit beschäftigt, Server wieder "hoch" zu bringen, die entweder nicht korrekt konfiguriert waren, insbesondere Kunden-eigene Server, die kein "Auto-On" nach einem Stromausfall haben, oder bei denen das deaktiviert war, oder Server, bei denen das Betriebssystem z.B. keinen automatischen Datei-Systemcheck macht, oder auf Eingaben beim Laden von SSL-Zertifikaten wartet etc.
Selbstverständlich bleiben alle Arbeiten von uns, die in diesem Rahmen nötig waren (auch Remote Hands) kostenlos. Desweiteren werden wir uns für unsere Server-Kunden eine Entschädigung einfallen lassen, wir werden diesbezüglich im Laufe dieser Woche auf unsere Kunden zukommen.
Ich möchte mich an dieser Stelle persönlich für die entstandenen Unannehmlichkeiten sowie für evtl. bei Euch entstandeneb Arbeitsaufwand entschuldigen.
Unser gesamtes Rechenzentrum ist ja durch mehrere USV-Anlagen sowie ein Diesel-Aggregat abgesichert. Aus Sicherheitsgründen gibt es für einzelne Abschnitte jeweils getrennte USV-Anlagen. Eine dieser USV-Anlagen stellte am vergangenen Samstag aus noch nicht geklärten Gründen bei der permanenten Selbst-Überprüfung eine Fehlfunktion fest. An sich ist das noch nichts "Schlimmes", denn das mehrstufige Sicherheitskonzept unserer Anlagen sieht für genau diesen Fall eine Umschaltung in einen Bypass-Modus vor, welcher zu diesem Zeitpunkt automatisch ausgelöst wurde.
Und genau hier schlug Herr Murphy gnadenlos zu: Es kam zeitgleich zu einem weiteren, internen Defekt an einer Sicherung, wodurch der Bypass-Modus nicht aktiviert werden konnte. Es kam somit zu einer kurzzeitigen Unterbrechung der Stromversorung für etwa 1 Sekunde, bis die dritte Sicherheitsstufe greifen konnte (ein anderer Bypass-Modus, der allerdings nur mit Unterbrechung möglich ist). Somit waren alle Geräte und Server, die von dieser USV-Anlage versorgt werden, für etwa 1 Sekunde stromlos. Betroffen waren unter anderem alle Server, die für unsere Webhosting-Produkte zuständig sind sowie ein Teil unserer Serverhousing- und Rootserver-Server (unsere DSL-Kunden waren hiervon nicht betroffen).
Der Hersteller der Anlage ist bereits bei der Fehlersuche (vor allem bzgl. des ursprünglichen Fehlers), die Anlage läuft zwischenzeitlich wieder einwandfrei (und lief auch zu keinem Zeitpunkt nicht mehr als USV, bei einem reinen Stromausfall hätte die Anlage korrekt gearbeitet). Darüber hinaus suchen wir derzeit nach weiteren Möglichkeiten, derartigen Fällen vorzubeugen.
Wir waren das ganze Wochenende damit beschäftigt, Server wieder "hoch" zu bringen, die entweder nicht korrekt konfiguriert waren, insbesondere Kunden-eigene Server, die kein "Auto-On" nach einem Stromausfall haben, oder bei denen das deaktiviert war, oder Server, bei denen das Betriebssystem z.B. keinen automatischen Datei-Systemcheck macht, oder auf Eingaben beim Laden von SSL-Zertifikaten wartet etc.
Selbstverständlich bleiben alle Arbeiten von uns, die in diesem Rahmen nötig waren (auch Remote Hands) kostenlos. Desweiteren werden wir uns für unsere Server-Kunden eine Entschädigung einfallen lassen, wir werden diesbezüglich im Laufe dieser Woche auf unsere Kunden zukommen.
Ich möchte mich an dieser Stelle persönlich für die entstandenen Unannehmlichkeiten sowie für evtl. bei Euch entstandeneb Arbeitsaufwand entschuldigen.
Kommentare
Ansicht der Kommentare: Linear | Verschachtelt
Simon Tiffert
Somit war ich zumindest beruhigt, dass es nicht den Server zerrissen hat.
Eine Info-Seite für solche Fälle wäre hilfreich.
Manuel Schmitt (manitu)
http://status.manitu.de
Simon Tiffert
Der Reboot per Interface hat dann übrigens gut geklappt.
PeZe
Theo
Hollii
Und zwar war wohl unterirdisch ein Kabel gebrochen oder gerissen.
Zum Ablauf: Der Strom war plötzlich weg. Es war gegen 00:30. Um 01:10 kam einige Lkws, Bauwagen und Bagger angefahren. Ne halbe Stunde später hatten die alles aufgebaut und begannen um kurz vor 02:00 in der Nacht die Strasse aufzuschneiden. Ich sage nur Beton sägen, Presslufthammer und Bagger hoben innerhalb von nicht 40 Minuten ein riesiges Loch aus. Dann auf einmal.... Nach etwa 15 Min Stille in der Nacht. KLACK.. Und da war der Strom wieder da.
Allerdings waren auch alle Anwohner, Kinder etc im Umkreis von rund 500 meter wach.
Christian in Wien
abgesehen davon das es oft dümmer kommt als man sich vorstellen kann
J.I.
Oliver Weyhmüller
Gut, dass ich in dem Fall das Nagios schnell genug deaktivieren konnte. Wenn nach 10 Minuten die Notfall-SMS und die anschließenden Anrufe rausgegangen wären hätte sich das auf der nächsten Telefonrechnung doch recht deutlich bemerkbar gemacht.
Jetzt weiß ich jedenfalls, das ich das Benachrichtigungskonzept noch etwas modifizieren muss, um auch solche Eventualitäten zu berücksichtigen.
Auch mag es meine aktuelle Konfiguration gar nicht, wenn beide Server gleichzeitig ausfallen, beim Reboot führte das automatisch in den Split-Brain Zustand, da die Server sich gegenseitig Pingen konnten und somit beide davon ausgingen, dass der andere Teil "überlebt" hat.
andreas
> Und genau hier schlug Herr Murphy gnadenlos zu: Es kam zeitgleich zu einem weiteren,
> internen Defekt an einer Sicherung, wodurch der Bypass-Modus nicht aktiviert werden konnte.
in etwa geanu das ist uns von einigen Wochen passiert. Der Hersteller konnte das bisher nicht erklären.
Das Ende vom Lied sind nun zwei redundatne USVs, wobei eine die volle Last allein tragen kann. Mal sehen welches Schupfloch Murphy als nächstes findet
Bernhard
Teekessel
Bernd Holzmüller
Wie ich wiederkam waren alle Geräte neu gestartet (mit entsprechender uptime) bis auf eine Maschine... Die lief wohl während des Ausfalles fröhlich weiter. So ganz erklären kann ich mir das nicht, zumindest weiß ich nix besonderes über das Netzteil
XnS
Die guten alten SPARC-Kisten sind jedoch ausnahmelos durchgelaufen, waehrend die "standard" 0815 AP-Rechner den Geist aufgeben haben.
Gruß
yetzt
naja, dann muss ich die 1000-tage-uptime-party nochmal verschieben...
Marco
Marki
nighthawk
Ich finde aber, daß im Falle eines solchen doppelten Zufalls nicht vom Kunden erwartet werden kann, daß der Service völlig unterbrechungslos aufrechterhalten werden kann. Wenn der Strom nach einer Sekunde wieder da war und Server, die entsprechend ausgerüstet und konfiuriert waren, nach wenigen (mutmaßlich) Minuten wieder verfügbar waren, dann hat das zu reichen.
Wenn es das nicht tut, dann sollte man vielleicht über die Anschaffung von einem Server mit zwei redundanten Netzteilen nachdenken, die an zwei verschiedenen USVs angeschlossen werden, welche wiederrum an zwei verschiedenen Stromkreisen hängen... (man könnte das Spiel noch fortsetzen)
nighthawk
Thomas
Ich hätte den Ausfall nicht mal gemerkt, wenn nicht mein Dovecot beim hochfahren gehangen hätte!
Persönlcih fand ich das alles nicht so dramatisch. Vielleicht beim nächsten mal eine Kurzinfo direkt auf manitu.de - und ich würde mir eine in einer solchen Situation sicher lästige Support Email sparen
Thomas
Bernd Holzmüller
http://status.manitu.de
(auf den Webhosting-Seiten findest Du den Link auch im Footer, nur beim Housing nicht...)
Allerdings hat es auch da etwas gedauert, bis eine entsprechende Fehlermeldung zu finden war. Ist aber auch ganz klar: Wenn was kaputt ist, dann wird das sofort gefixt, anstatt ewig lange Fehler-Meldungen zu tippen.
Für umgehende Informationen müsste man sich wohl eine weitere Kraft einstellen, die auf sowas spezialisiert ist und den ganzen Tag nichts anderes macht und auch nicht machen kann
Hans
Tommes
Es kommt mir schon fast so vor, als ob es mit dem ganzen USV-/Diesel- und Was-weiss-ich-nicht-noch-allem-Zeugs häufiger zu Stromausfällen kommt, als wenn man das alles komplett weglassen würde und sich nur die Zuverlässigkeit des Stromanbieters/Stromnetzbetreibers verlassen würde.
Zu Hause haben wir (zum Glück!) weitaus seltener Stromausfälle, als in den verschiedenen RZs!
Man sieht ja, dass der ganze Technik-Firlefanz fehleranfällig ist und wenn es nur einen Kleinigkeit wie eine Sicherung ist. Und bei allem Verständnis: Es immer und immer wieder alles auf den ominösen Herrn Murphy zu schieben, langweilt mittlerweile auch.
Auch ich bin froh, dass der Ausfall nicht länger gedauert hat, da ich eine ausfallkritische Plattform im Web betreibe. Aber gerade die kurzfristigen Stromunterbrechungen von ~ 1 Sek. können aufgrund der auftretenden Spannungsspitzen u.U. eher zu Hardwaredefekten führen, als eine längerfristige Stromlosigkeit.
yetzt
An-drea