Update Do 11:55: Das Recovery-System hat in der Nacht aufgrund von Verbindungsproblemen das Recovery unterbrochen und wurde am morgen fortgesetzt, zeigt aber keine neuen Erkenntnisse und daher wird der Recovery abgebrochen und wir starten das System im normal-modus neu. Die Dienste sollten bald wieder verfügbar sein.
Update 17:01: Wir mussten erneut in den Recovery-Modus gehen. Dieser hält weiterhin an
Am heutigen Nachmittag haben wir den Hauptserver (nick
) vorrübergehend in den Recovery-Mode versetzt um eine massiven Vorfall des Vormittags zu behandeln. Aufgrund dieser Sofort-Maßnahmen waren fast alle Services von DiB für etwas über eine Stunde nicht erreichbar.
Was war betroffen?
Der Server nick
und damit so gut wie alle unsere wichtigsten Systeme. Unter anderem: Webseite, E-Mail, Abstimmungssystem, Wolke/Nextcloud (Dokument-Verwaltung, Kalendar, etc), Mattermost (Chat), Support-Plattform (Zammad), Mautic (E-Mail Verteiler), Umfragen, etc.
Nicht betroffen waren: Marktplatz, Zoom, FundraisingBox, Github.
Wie ist es zu dem Problem gekommen?
Am Vormittag stellte die Technik fest, dass unser E-Mail-Verteiler-System „Mautic“ mal wieder die E-Mails nicht versendet. Bei dem Versuch dies zu beheben wurden die üblichen Tricks versucht (es ist schon mehrfach ungeklärt vorgekommen), unter anderem wurde versucht ein Cache-Verzeichnis der Anwendung zu löschen. Dabei ist aber das ganze Anwendungsverzeichnis gelöscht worden. Das ist ärgerlich, aber da die Daten getrennt davon in einer Datenbank liegen, kein großes Problem: das Mautic-App muss einfach nur neu installiert werden.
Bei diesem Installationsversuch stellte sich Mautic aber quer und erkannte die bestehende Datenbank nicht. Bei einigem Kämpfen mit dem Installer hat Mautic irgendwann klein beigegeben und endlich die normale Oberfläche gezeigt - aber Login funktionierte nicht und die Fehlermeldung suggerierte, dass wichtige Datenbank-Tabellen fehlten. Eine genauere Untersuchung des Vorfall zeigte, dass in dem Installations-Hickhack scheinbar die ganze Mautic Datenbank (mit all unseren Newsletter-Abonnentinnen) vom Installer gelöscht worden war. Aber dafür haben wir ja Backups. Also wurde Mautic gestoppt und versucht über das Backup-Recovery-System die Datenbank-Dateien wieder herrzustellen. Dies stellte sich als vergebens herraus, als wir feststellten, dass das Backup – aus uns nicht erfindlichen Gründen – diese Dateien nicht mit abgespeicherte hatten: Die Daten sind weg.
Aber, wie jede Computer-Expertin weiß, werden Daten nicht auch sofort auf der Festplatte überschrieben, sondern der Bereich nur „freigestellt“. Insbesondere in Anbetracht des außerhalb dessen verfügbaren Speicherplatz ist es also nicht unwahrscheinlich, dass die Daten noch da sind und gehoben werden können. Damit diese Daten aber nicht ausversehen überschrieben werden muss das System aber umgehend gestoppt und in einen Wartungszustand gebracht werden, von dem aus wir mit Nur-Lesezugriff versuchen können die Daten zu heben.
Also haben wir um 14:41 den Server in den Wartungszustand versetzt um den Recovery anzugehen. Da auf dem Server aber auch alle anderen Dienste laufen, hieß das für den Zeitraum des Recovery, dass diese Dienste nicht erreichbar sein werden. Dies haben wir umgehend (durch den Post hier auf dem Marktplatz) publik gemacht.
Nachdem das Recovery-Programm eine Reihe von Dateien identifiziert und gehoben hat (circa 15GB) und wir diese auf dem System zwischen gespeicher haben, haben wir das System wieder normal gebootet und die meisten Dienste waren wieder vollständig verfügbar. Um 15:55 Uhr haben wir das Recovery Incident für vorrüber erklärt, bis auf Mautic sind alle Dienste wieder verfügbar. Falls ihr irgendwo Probleme habt, meldet euch bitte bei support@bewegung.jetzt.
Leider stellten wir bei der Untersuchung der Dateien fest, dass wir offensichtlich nicht alle Dateien geborgen hatten, die wir brauchten - das beim Recovery-Verwendete Tool war scheinbar veraltet, hatte bestimmte Signature nicht mit dabei und konnte deswegen notwendige Dateien nicht finden. Daher Wir haben nick
um 16:55 wieder in den Recovery-Modus versetzt um diese Dateien zu bergen. Aufgrund von Platzproblemen auf dem Rechner mussten wir für die geborgenen Daten auf eine Netzverbindung zu unserem Ausweich-Rechner (judy
) herstellen, was aber den Recovery-Modus verlangsamte und letztlich mitten in der Nacht, vermutlich aufgrund von Verbindungsproblemen, vorrüber gehend pausierte. Dies stellten wir am Donnerstag morgen fest und setzten diesen umgehen fort. Da der Recovery aber scheinbar keine neuen (sinnvollen) Daten mehr lieferte (wir näherten uns dem „Ende“ der Platte) haben wir diesem um 11:55 abgebrochen und das System neu gestartet.
Ab 12:10 Uhr am Donnerstag standen alle Dienste wie gewohnt wieder zur Verfügung (ausgenommen Mautic/Newsletter-Verteiler), inkl. Webseite, E-Mail, Chat, Abstimmungsplattform und Umfrage-Tool. Bei Problemen mit irgendeinem davon, meldet euch bitte direkt bei support@bewegung.jetzt
Was passiert jetzt?
- Zunächst werden jetzt die Daten gesichtet, in der Hoffnung, dass möglichst viel der E-Mail-Liste gerettet werden kann. Mautic wird dementsprechend bis auf weiteres nicht zur Verfügung stehen.
- Wird umgehend das Backup Verfahren überprüft darauf überprüft, ob es wirklich alle relevanten Daten einsammelt und vorhält. Darüber hinaus wird testweise das Backup-Recovery ausprobiert um sicherzustellen, dass die Daten auch eingespielt werden können.
- Es wird ein weiteres Backup-System eingerichtet, welches für die Organisation höchst-relevante Daten (wie den Newsletter von dem wir hoffentlich viel zurück bekommen) außerhalb des Datei-Verfahrens regelmäßig als Roh-Daten extrahiert und außerhalb des bisherigen Verfahrens zusätzlich sichert.
Wir bitten diesen Vorfall zu entschuldigen.