<html><head>

    <meta http-equiv="content-type" content="text/html; charset=UTF-8">
  
  </head><body style="zoom: 0%;"><div dir="auto">Großes Danke! Einen Himmel für (verlorene) Daten gibt es ja wohl auch nicht, in dem für Helden der Datenrettung (und des Netzwerkelns in allen Aspekten) seid ihr hoffentlich schon schlafend gerade.<br><br><br><br><br></div>
<div dir="auto"><!-- tmjah_g_1299s -->// teresa falk / +43.699.1187824 / wasserburgergasse 1-3/12/8 at-1090 //<!-- tmjah_g_1299e --></div>
<div class="gmail_quote" >Am 6. Dez. 2024, um 14:26, "Wolfi | NOC - <a href="http://mur.at">mur.at</a>" <<a href="mailto:noc@mur.at" target="_blank">noc@mur.at</a>> schrieb:<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">

  
    <p>Liebe mur.ats,</p>
    <p><b>vorab</b>: die Webserver sind wieder online!<br>
    </p>
    <p><br>
    </p>
    <p><b>zum Hintergrund</b> oder eine Schauergeschichte: Die neuen
      Festplatten sind eine Katastrophe! Das Beschreiben mit Daten ging
      noch ganz gut und wir haben somit keine Unregelmäßigkeit beim
      Tausch der Platten gemerkt. Beim Lesen der Daten reagierte der
      Speicher plötzlich extrem langsam. Das war letzte/vorletze Woche -
      der erste Moment an dem ihr bemerkt hattet, dass eure Webservices
      langsam bis extrem langsam reagierten. Unser Warnsystem schlug
      auch an. Wir suchten den Fehler und bemerkten die Trägheit der
      Platten. Also: Platten wieder raus! Aber zuerst mussten die Daten,
      die wir schon darauf geschrieben hatten nochmal ausgelesen und auf
      die anderen Feltplatten zurückverteilt werden. Tja. Da begann dann
      der richtige Schlamassel: Die Lesegeschwindigkeit der Platten war
      katastrophal! Eure Webseiten wollten ausgelesen und dargestellt
      werden, die Daten von den neuen Platten wollten gleichzeitig
      gelesen werden um sie wieder auf die alten Platten umzuverteilen -
      es war der blanke Horror - und eure Webseiten standen still. Und
      dann noch die kompromittierten Festplattenabbilder! Und wenn sich
      ein Service aufgrund der langen Wartezeiten aufgehängt hatte - wir
      konnten uns nicht einmal im System einloggen um die Services
      wieder hoch zu fahren. Fünf Minuten Wartezeit um einen simplen
      Ordnerwechsel durchzuführen. Wir konnten nur zusehen wie der
      Speicher-Cluster Daten schaufelt (oder einzelne Sandkörner
      hinüberträgt). <br>
    </p>
    <p>Bis gestern Mittag hat sich der Ceph-Cluster wieder stabilisiert.
      Aber immer noch lagen Daten auf den neuen, sau langsamen
      Festplatten. Irgendwann, wussten wir, müssen wir die Daten wieder
      auf schnellere Platten kopieren. Eine stundenlange Kopiererei und
      keine Ahnung wie sich das ganze System verhält. Also entschlossen
      wir uns die Daten auf die lokalen Datenträger der Server zu
      kopieren. Insgesamt ca. 4TB an Daten (4.000GB). Ist jetzt nicht
      sooo viel, aber bei der Lesegeschwindigkeit die wir erreichten,
      haben wir zeitweise für 5GB eine halbe Stunde gebraucht. Also, so
      dachten wir, beginnnen wir um 20:00 (nach euren und unseren
      Dienstschlüssen), falls das Lesen der Daten die Websiten wieder
      langsamer macht. Bis Mitternacht werden wir dann schon fertig.
      Dachen wir. Jetzt ist es zwölf. Mittags - viele kreative Ideen
      (Daten aus den Backups holen, mit externen Festplatten arbeiten,
      paralell Daten kopieren, nur einzelne Container kopieren ...)
      später.<br>
    </p>
    <p><br>
    </p>
    <p><b>Und jetzt?</b> </p>
    <p>Ist die Bereitschaft und der Telefondienst vorbei. <br>
    </p>
    <p><br>
    </p>
    <p><b>Warum</b> </p>
    <p>schreibt das noc das alles? Weil es auch eine Art Kunst ist. Und
      weil es übernachtig ist.</p>
    <p><br>
    </p>
    <p><b>Und weiter? </b><br>
    </p>
    <p>Vier von neun neuen SSDs Platten (vieeeeel schneller als HDDs)
      sind schon unterwegs. Außerdem haben wir eine
      Investitionsförderung eingereicht mit der wir den Ceph neu
      aufbauen wollen. Ein Ceph Server kommt dazu, statt HDDs SSDs,
      statt geteilten 2Gbit Netzwerk 40Gbit dem Ceph dediziert. Und ein
      HA Cluster. Wir freuen uns schon drauf!<br>
    </p>
    <p><br>
    </p>
    <p><b>Wichtig!</b></p>
    <p>Am Sonntag in der Nacht werden wir die letzte große Partition
      eines Webservers auf einen Server lokal ablegen! Wir erwarten,
      dass sich ein paar Websiten in dieser Zeit (fünf Stunden lang) nur
      langsam laden lassen.<br>
    </p>
    <p><br>
    </p>
    <p>Entschuldigt bitte die Ausfälle! Wir hoffen mit Jahresende wieder
      ruhig schlafen zu können.<br>
    </p>
    <p><br>
    </p>
    <p>gute Nacht aus dem noc!</p>
    <p>Ralph & Wolfi<br>
    </p>
    <p><br>
    </p>
    <pre class="moz-signature" cols="72">-- 
/ NOC - mur.at
  / Network Operation Center / Systemadministration
 / +43 (0)681 816 45 308
/ Di-Fr 12:00-14:00 (Support)</pre>
  
<pre class="blue"><hr><br>A <a href="http://mur.at">mur.at</a> service.<br>mur-users mailing list<br>mur-users@lists.mur.at<br><a href="https://lists.mur.at/mailman/listinfo/mur-users">https://lists.mur.at/mailman/listinfo/mur-users</a><br></pre></blockquote></div></body></html>