Jump to content

FKSN

Administrator
  • Gesamte Inhalte

    9
  • Benutzer seit

  • Letzter Besuch

  • Tagessiege

    2

FKSN hat zuletzt am 17. Juli gewonnen

FKSN hat die beliebtesten Inhalte erstellt!

Ansehen in der Community

6 Neutral

Über FKSN

  • Rang
    Brandmeisteranwärter

Letzte Besucher des Profils

Der "Letzte Profil-Besucher"-Block ist deaktiviert und wird anderen Benutzern nicht angezeit.

  1. Hallo, wir sind uns dem Problem mit dem Chat bewusst. Allerdings gestaltet sich die Fehlersuche etwas schwierig. Wenn wir den Chat neustarten, dann gibt es keine Probleme. Er läuft stabil über Stunden. Allerdings nach 2-3 Tagen fangen die Probleme an. Nachrichten benötigen sehr lange, bis sie im Chat sichtbar sind. Durch die 2-3 Tage vermuten wir, dass ein Memory Leak entsteht. Das bedeutet, dass immer mehr Arbeitsspeicher benötigt wird. In einem Livesystem (lokal haben wir die Probleme nicht), lässt es sich sehr schwer nachvollziehen, wo genau das Problem liegt. Wir haben daher schon etwas länger Logs eingebaut, um zu sehen, an welcher Stelle genau es hängt. Wir müssen aber immer wieder ein paar Tage warten, denn jede Änderung heißt auch, dass der Chat neugestartet wird und alles von vorne beginnt. Gestern haben wir es augenscheinlich gefunden und hoffentlich auch behoben. Das können wir aber erst sagen, wenn der Chat wieder etwas lief. Gruß FKSN
  2. FKSN

    Ausfall vom 10. April 2018

    Hallo Kameraden, wir sind euch noch eine Erklärung zu dem Zwischenfall von gestern (10.04.2018) schuldig. Grund für den Ausfall war das Löschen eines Google Firebase Projektes. Google Firebase benötigen wir für z.B. Push Benachrichtigungen in der Mobile App. Wir hatten bei Firebase 2 Feuerwehrspiel Projekte und wollten eines löschen, weil dieses augenscheinlich überflüssig war. Allerdings war dieses Projekt auch mit dem Google Konto verbunden, in dem unsere Server mit einem Kubernetes Cluster liefen. Das Problem wurde schnell erkannt und wir konnten das Projekt reaktivieren. Der Cluster, die Datenbank, Firewall und Loadbalancer wurden wiederhergestellt. Wir aktivierten diese wieder und alle Server starteten ordnungsgemäß. ABER und hier ist das eigentliche Problem, warum es so lange gedauert hat. In dem Kubernetes Cluster läuft ein sogenannter Master Server. Dieser überwacht alle weiteren Nodes, die sich im Pool vom Cluster befinden und schaltet ggfs. neue Ressourcen hinzu oder ab. Dieser Master wird von Google gemanaged und wir haben auf ihn keinen Zugriff. Augenscheinlich wurde dieser nicht wiederhergestellt oder nur fehlerhaft. Der Cluster befand sich im „Error“ Zustand. Wir konnten ihn nicht reaktivieren. Im Google Support sagte man uns, dass man das Problem analysiert und sich bei uns meldet, dies könne aber eine gewisse Zeit dauern. Parallel haben wir uns dafür entschieden, dass wir einen neuen Cluster hochfahren und diesen komplett neu einrichten. Dies passierte relativ schnell und nach ein paar Firewall Einstellungen, das umstellen der DNS Einträge (feuerwehrspiel.de leitet auf den neuen Cluster weiter) und das generieren von neuen SSL Zertifikaten konnten wir nach ca. 3h das Spiel wieder online bringen. Wir möchten uns für die entstandenen Wartezeiten entschuldigen und wünschen euch einen angenehmen Tag. Mit kameradschaftlichem Gruß, FKSN
×
×
  • Neu erstellen...