Jump to content

Ausfall vom 10. April 2018


FKSN

Recommended Posts

Hallo Kameraden,

wir sind euch noch eine Erklärung zu dem Zwischenfall von gestern (10.04.2018) schuldig. Grund für den Ausfall war das Löschen eines Google Firebase Projektes. Google Firebase benötigen wir für z.B. Push Benachrichtigungen in der Mobile App. Wir hatten bei Firebase 2 Feuerwehrspiel Projekte und wollten eines löschen, weil dieses augenscheinlich überflüssig war. Allerdings war dieses Projekt auch mit dem Google Konto verbunden, in dem unsere Server mit einem Kubernetes Cluster liefen.

Das Problem wurde schnell erkannt und wir konnten das Projekt reaktivieren. Der Cluster, die Datenbank, Firewall und Loadbalancer wurden wiederhergestellt. Wir aktivierten diese wieder und alle Server starteten ordnungsgemäß. ABER und hier ist das eigentliche Problem, warum es so lange gedauert hat. In dem Kubernetes Cluster läuft ein sogenannter Master Server. Dieser überwacht alle weiteren Nodes, die sich im Pool vom Cluster befinden und schaltet ggfs. neue Ressourcen hinzu oder ab. Dieser Master wird von Google gemanaged und wir haben auf ihn keinen Zugriff. Augenscheinlich wurde dieser nicht wiederhergestellt oder nur fehlerhaft. Der Cluster befand sich im „Error“ Zustand. Wir konnten ihn nicht reaktivieren. Im Google Support sagte man uns, dass man das Problem analysiert und sich bei uns meldet, dies könne aber eine gewisse Zeit dauern.

Parallel haben wir uns dafür entschieden, dass wir einen neuen Cluster hochfahren und diesen komplett neu einrichten. Dies passierte relativ schnell und nach ein paar Firewall Einstellungen, das umstellen der DNS Einträge (feuerwehrspiel.de leitet auf den neuen Cluster weiter) und das generieren von neuen SSL Zertifikaten konnten wir nach ca. 3h das Spiel wieder online bringen.

Wir möchten uns für die entstandenen Wartezeiten entschuldigen und wünschen euch einen angenehmen Tag.

Mit kameradschaftlichem Gruß,
FKSN

  • Like 1
  • Thanks 2
Link zu diesem Kommentar
Auf anderen Seiten teilen

Gast
Dieses Thema wurde für weitere Antworten geschlossen.
×
×
  • Neu erstellen...