<html><head>
<meta http-equiv="content-type" content="text/html; charset=UTF-8">
</head><body style="zoom: 0%;"><div dir="auto">Großes Danke! Einen Himmel für (verlorene) Daten gibt es ja wohl auch nicht, in dem für Helden der Datenrettung (und des Netzwerkelns in allen Aspekten) seid ihr hoffentlich schon schlafend gerade.<br><br><br><br><br></div>
<div dir="auto"><!-- tmjah_g_1299s -->// teresa falk / +43.699.1187824 / wasserburgergasse 1-3/12/8 at-1090 //<!-- tmjah_g_1299e --></div>
<div class="gmail_quote" >Am 6. Dez. 2024, um 14:26, "Wolfi | NOC - <a href="http://mur.at">mur.at</a>" <<a href="mailto:noc@mur.at" target="_blank">noc@mur.at</a>> schrieb:<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
<p>Liebe mur.ats,</p>
<p><b>vorab</b>: die Webserver sind wieder online!<br>
</p>
<p><br>
</p>
<p><b>zum Hintergrund</b> oder eine Schauergeschichte: Die neuen
Festplatten sind eine Katastrophe! Das Beschreiben mit Daten ging
noch ganz gut und wir haben somit keine Unregelmäßigkeit beim
Tausch der Platten gemerkt. Beim Lesen der Daten reagierte der
Speicher plötzlich extrem langsam. Das war letzte/vorletze Woche -
der erste Moment an dem ihr bemerkt hattet, dass eure Webservices
langsam bis extrem langsam reagierten. Unser Warnsystem schlug
auch an. Wir suchten den Fehler und bemerkten die Trägheit der
Platten. Also: Platten wieder raus! Aber zuerst mussten die Daten,
die wir schon darauf geschrieben hatten nochmal ausgelesen und auf
die anderen Feltplatten zurückverteilt werden. Tja. Da begann dann
der richtige Schlamassel: Die Lesegeschwindigkeit der Platten war
katastrophal! Eure Webseiten wollten ausgelesen und dargestellt
werden, die Daten von den neuen Platten wollten gleichzeitig
gelesen werden um sie wieder auf die alten Platten umzuverteilen -
es war der blanke Horror - und eure Webseiten standen still. Und
dann noch die kompromittierten Festplattenabbilder! Und wenn sich
ein Service aufgrund der langen Wartezeiten aufgehängt hatte - wir
konnten uns nicht einmal im System einloggen um die Services
wieder hoch zu fahren. Fünf Minuten Wartezeit um einen simplen
Ordnerwechsel durchzuführen. Wir konnten nur zusehen wie der
Speicher-Cluster Daten schaufelt (oder einzelne Sandkörner
hinüberträgt). <br>
</p>
<p>Bis gestern Mittag hat sich der Ceph-Cluster wieder stabilisiert.
Aber immer noch lagen Daten auf den neuen, sau langsamen
Festplatten. Irgendwann, wussten wir, müssen wir die Daten wieder
auf schnellere Platten kopieren. Eine stundenlange Kopiererei und
keine Ahnung wie sich das ganze System verhält. Also entschlossen
wir uns die Daten auf die lokalen Datenträger der Server zu
kopieren. Insgesamt ca. 4TB an Daten (4.000GB). Ist jetzt nicht
sooo viel, aber bei der Lesegeschwindigkeit die wir erreichten,
haben wir zeitweise für 5GB eine halbe Stunde gebraucht. Also, so
dachten wir, beginnnen wir um 20:00 (nach euren und unseren
Dienstschlüssen), falls das Lesen der Daten die Websiten wieder
langsamer macht. Bis Mitternacht werden wir dann schon fertig.
Dachen wir. Jetzt ist es zwölf. Mittags - viele kreative Ideen
(Daten aus den Backups holen, mit externen Festplatten arbeiten,
paralell Daten kopieren, nur einzelne Container kopieren ...)
später.<br>
</p>
<p><br>
</p>
<p><b>Und jetzt?</b> </p>
<p>Ist die Bereitschaft und der Telefondienst vorbei. <br>
</p>
<p><br>
</p>
<p><b>Warum</b> </p>
<p>schreibt das noc das alles? Weil es auch eine Art Kunst ist. Und
weil es übernachtig ist.</p>
<p><br>
</p>
<p><b>Und weiter? </b><br>
</p>
<p>Vier von neun neuen SSDs Platten (vieeeeel schneller als HDDs)
sind schon unterwegs. Außerdem haben wir eine
Investitionsförderung eingereicht mit der wir den Ceph neu
aufbauen wollen. Ein Ceph Server kommt dazu, statt HDDs SSDs,
statt geteilten 2Gbit Netzwerk 40Gbit dem Ceph dediziert. Und ein
HA Cluster. Wir freuen uns schon drauf!<br>
</p>
<p><br>
</p>
<p><b>Wichtig!</b></p>
<p>Am Sonntag in der Nacht werden wir die letzte große Partition
eines Webservers auf einen Server lokal ablegen! Wir erwarten,
dass sich ein paar Websiten in dieser Zeit (fünf Stunden lang) nur
langsam laden lassen.<br>
</p>
<p><br>
</p>
<p>Entschuldigt bitte die Ausfälle! Wir hoffen mit Jahresende wieder
ruhig schlafen zu können.<br>
</p>
<p><br>
</p>
<p>gute Nacht aus dem noc!</p>
<p>Ralph & Wolfi<br>
</p>
<p><br>
</p>
<pre class="moz-signature" cols="72">--
/ NOC - mur.at
/ Network Operation Center / Systemadministration
/ +43 (0)681 816 45 308
/ Di-Fr 12:00-14:00 (Support)</pre>
<pre class="blue"><hr><br>A <a href="http://mur.at">mur.at</a> service.<br>mur-users mailing list<br>mur-users@lists.mur.at<br><a href="https://lists.mur.at/mailman/listinfo/mur-users">https://lists.mur.at/mailman/listinfo/mur-users</a><br></pre></blockquote></div></body></html>