Incidentreport: Mattermost, Plenum & interne Tools, Mi 20. Dez 2017

Was war betroffen?
judy, der Server, über welchen Mattermost, Plenum und viele der internen Tools laufen

Wann war der Ausfall?
Von circa 6.00 - 10:25 Uhr MEZ

Was war passiert?
Nach einem Neustart sind diverse Dienste nicht mehr erreichbar gewesen, obwohl die Server selbst uns sagte, diese seien da. Auch war der Server unter extremer Last.

Wie sich herrausstellte sind vom Server beim Hochfahren, wesentlich mehr Dienste gestartet worden als eigentlich sollten - darunter auch einige, die nicht vollständig eingerichtet waren (da diese nur probeweise dort vorlagen). Das Starten aber genau jener Dienste hat, neben einer deutlichen Überlastung über die Server-Kapazitäten, dazu geführt, dass der automatische, vorgelagerte nginx-Proxy falsche Konfigurationen gebaut hat, weil dieser meinte, die Services sollten ja auch von außen erreichbar sein. Beim Starten mit dieser Konfiguration ist dem Dienst dann aber aufgefallen, dass diese Dienste nicht erreichbar sind und hat sich mit eben jener Meldung verabschiedet - wurde dann aber konstant neugestartet, was die Last zusätzlich erhöhte. Ein Abschalten der nicht gewünschten Dienste, und Löschen der vorgelagerten Konfigurationsdatei und dann Neustarten des nginx-Proxy hat Abhilfe geschaffen.

Was passiert in der Folge dessen?

  • Der Server wird erstmal nicht neu gestartet
  • Schon jetzt wurden jene Dienste, die gar nicht auf dem System sein sollten entfernt, damit diese nicht mehr bei einem Neustart gestartet werden
  • Es ist schon länger geplant viele der Dienste auf nick, den größeren Server, umzuziehen, und wir werden dies jetzt zwischen den Jahren erneut angehen
  • Es wird eine Dokumentation für das Sys-Admin-Team eingefertigt, wie der oben genannte Fall erkannt und behoben werden kann
14 „Gefällt mir“