[Users-discuss] [mur users] Ceph - Datenpool

Teresa falk falk at helsinki.at
Fr Dez 6 15:20:49 CET 2024


Großes Danke! Einen Himmel für (verlorene) Daten gibt es ja wohl auch nicht, in dem für Helden der Datenrettung (und des Netzwerkelns in allen Aspekten) seid ihr hoffentlich schon schlafend gerade.




⁣// teresa falk / +43.699.1187824 / wasserburgergasse 1-3/12/8 at-1090 //​

Am 6. Dez. 2024, 14:26, um 14:26, "Wolfi | NOC - mur.at" <noc at mur.at> schrieb:
>Liebe mur.ats,
>
>*vorab*: die Webserver sind wieder online!
>
>
>*zum Hintergrund* oder eine Schauergeschichte: Die neuen Festplatten 
>sind eine Katastrophe! Das Beschreiben mit Daten ging noch ganz gut und
>
>wir haben somit keine Unregelmäßigkeit beim Tausch der Platten gemerkt.
>
>Beim Lesen der Daten reagierte der Speicher plötzlich extrem langsam. 
>Das war letzte/vorletze Woche - der erste Moment an dem ihr bemerkt 
>hattet, dass eure Webservices langsam bis extrem langsam reagierten. 
>Unser Warnsystem schlug auch an. Wir suchten den Fehler und bemerkten 
>die Trägheit der Platten. Also: Platten wieder raus! Aber zuerst
>mussten 
>die Daten, die wir schon darauf geschrieben hatten nochmal ausgelesen 
>und auf die anderen Feltplatten zurückverteilt werden. Tja. Da begann 
>dann der richtige Schlamassel: Die Lesegeschwindigkeit der Platten war 
>katastrophal! Eure Webseiten wollten ausgelesen und dargestellt werden,
>
>die Daten von den neuen Platten wollten gleichzeitig gelesen werden um 
>sie wieder auf die alten Platten umzuverteilen - es war der blanke 
>Horror - und eure Webseiten standen still. Und dann noch die 
>kompromittierten Festplattenabbilder! Und wenn sich ein Service
>aufgrund 
>der langen Wartezeiten aufgehängt hatte - wir konnten uns nicht einmal 
>im System einloggen um die Services wieder hoch zu fahren. Fünf Minuten
>
>Wartezeit um einen simplen Ordnerwechsel durchzuführen. Wir konnten nur
>
>zusehen wie der Speicher-Cluster Daten schaufelt (oder einzelne 
>Sandkörner hinüberträgt).
>
>Bis gestern Mittag hat sich der Ceph-Cluster wieder stabilisiert. Aber 
>immer noch lagen Daten auf den neuen, sau langsamen Festplatten. 
>Irgendwann, wussten wir, müssen wir die Daten wieder auf schnellere 
>Platten kopieren. Eine stundenlange Kopiererei und keine Ahnung wie
>sich 
>das ganze System verhält. Also entschlossen wir uns die Daten auf die 
>lokalen Datenträger der Server zu kopieren. Insgesamt ca. 4TB an Daten 
>(4.000GB). Ist jetzt nicht sooo viel, aber bei der Lesegeschwindigkeit 
>die wir erreichten, haben wir zeitweise für 5GB eine halbe Stunde 
>gebraucht. Also, so dachten wir, beginnnen wir um 20:00 (nach euren und
>
>unseren Dienstschlüssen), falls das Lesen der Daten die Websiten wieder
>
>langsamer macht. Bis Mitternacht werden wir dann schon fertig. Dachen 
>wir. Jetzt ist es zwölf. Mittags - viele kreative Ideen (Daten aus den 
>Backups holen, mit externen Festplatten arbeiten, paralell Daten 
>kopieren, nur einzelne Container kopieren ...) später.
>
>
>*Und jetzt?*
>
>Ist die Bereitschaft und der Telefondienst vorbei.
>
>
>*Warum*
>
>schreibt das noc das alles? Weil es auch eine Art Kunst ist. Und weil
>es 
>übernachtig ist.
>
>
>*Und weiter? *
>
>Vier von neun neuen SSDs Platten (vieeeeel schneller als HDDs) sind 
>schon unterwegs. Außerdem haben wir eine Investitionsförderung 
>eingereicht mit der wir den Ceph neu aufbauen wollen. Ein Ceph Server 
>kommt dazu, statt HDDs SSDs, statt geteilten 2Gbit Netzwerk 40Gbit dem 
>Ceph dediziert. Und ein HA Cluster. Wir freuen uns schon drauf!
>
>
>*Wichtig!*
>
>Am Sonntag in der Nacht werden wir die letzte große Partition eines 
>Webservers auf einen Server lokal ablegen! Wir erwarten, dass sich ein 
>paar Websiten in dieser Zeit (fünf Stunden lang) nur langsam laden
>lassen.
>
>
>Entschuldigt bitte die Ausfälle! Wir hoffen mit Jahresende wieder ruhig
>
>schlafen zu können.
>
>
>gute Nacht aus dem noc!
>
>Ralph & Wolfi
>
>
>-- 
>/ NOC - mur.at
>   / Network Operation Center / Systemadministration
>  / +43 (0)681 816 45 308
>/ Di-Fr 12:00-14:00 (Support)
>
>
>------------------------------------------------------------------------
>
>_______________________________________________
>A mur.at service.
>mur-users mailing list
>mur-users at lists.mur.at
>https://lists.mur.at/mailman/listinfo/mur-users
-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <https://lists.mur.at/pipermail/users-discuss/attachments/20241206/84224366/attachment-0001.html>


Mehr Informationen über die Mailingliste Users-discuss