[Users-discuss] [mur users] Ceph - Datenpool

Stefan Schmitzer schmitzer at mur.at
Fr Dez 6 14:48:28 CET 2024


super kommunikation! dank euch!

Am 06.12.24 um 14:35 schrieb az at mur.at:
> Wow!
> Beeindruckte Grüße aus dem Norden. Gute Nachtruhe wünsche ich!
> Alexander
>
>
>
>
> Von meinem Telefon gesendet
>
>
> -------- Ursprüngliche Nachricht --------
> Von: "Wolfi | NOC - mur.at" <noc at mur.at>
> Datum: Fr., 6. Dez. 2024, 14:26
> An: mur-users at lists.mur.at
> Betreff: [mur users] Ceph - Datenpool
>
>     Liebe mur.ats,
>
>     *vorab*: die Webserver sind wieder online!
>
>
>     *zum Hintergrund* oder eine Schauergeschichte: Die neuen
>     Festplatten sind eine Katastrophe! Das Beschreiben mit Daten ging
>     noch ganz gut und wir haben somit keine Unregelmäßigkeit beim
>     Tausch der Platten gemerkt. Beim Lesen der Daten reagierte der
>     Speicher plötzlich extrem langsam. Das war letzte/vorletze Woche -
>     der erste Moment an dem ihr bemerkt hattet, dass eure Webservices
>     langsam bis extrem langsam reagierten. Unser Warnsystem schlug
>     auch an. Wir suchten den Fehler und bemerkten die Trägheit der
>     Platten. Also: Platten wieder raus! Aber zuerst mussten die Daten,
>     die wir schon darauf geschrieben hatten nochmal ausgelesen und auf
>     die anderen Feltplatten zurückverteilt werden. Tja. Da begann dann
>     der richtige Schlamassel: Die Lesegeschwindigkeit der Platten war
>     katastrophal! Eure Webseiten wollten ausgelesen und dargestellt
>     werden, die Daten von den neuen Platten wollten gleichzeitig
>     gelesen werden um sie wieder auf die alten Platten umzuverteilen -
>     es war der blanke Horror - und eure Webseiten standen still. Und
>     dann noch die kompromittierten Festplattenabbilder! Und wenn sich
>     ein Service aufgrund der langen Wartezeiten aufgehängt hatte - wir
>     konnten uns nicht einmal im System einloggen um die Services
>     wieder hoch zu fahren. Fünf Minuten Wartezeit um einen simplen
>     Ordnerwechsel durchzuführen. Wir konnten nur zusehen wie der
>     Speicher-Cluster Daten schaufelt (oder einzelne Sandkörner
>     hinüberträgt).
>
>     Bis gestern Mittag hat sich der Ceph-Cluster wieder stabilisiert.
>     Aber immer noch lagen Daten auf den neuen, sau langsamen
>     Festplatten. Irgendwann, wussten wir, müssen wir die Daten wieder
>     auf schnellere Platten kopieren. Eine stundenlange Kopiererei und
>     keine Ahnung wie sich das ganze System verhält. Also entschlossen
>     wir uns die Daten auf die lokalen Datenträger der Server zu
>     kopieren. Insgesamt ca. 4TB an Daten (4.000GB). Ist jetzt nicht
>     sooo viel, aber bei der Lesegeschwindigkeit die wir erreichten,
>     haben wir zeitweise für 5GB eine halbe Stunde gebraucht. Also, so
>     dachten wir, beginnnen wir um 20:00 (nach euren und unseren
>     Dienstschlüssen), falls das Lesen der Daten die Websiten wieder
>     langsamer macht. Bis Mitternacht werden wir dann schon fertig.
>     Dachen wir. Jetzt ist es zwölf. Mittags - viele kreative Ideen
>     (Daten aus den Backups holen, mit externen Festplatten arbeiten,
>     paralell Daten kopieren, nur einzelne Container kopieren ...) später.
>
>
>     *Und jetzt?*
>
>     Ist die Bereitschaft und der Telefondienst vorbei.
>
>
>     *Warum*
>
>     schreibt das noc das alles? Weil es auch eine Art Kunst ist. Und
>     weil es übernachtig ist.
>
>
>     *Und weiter? *
>
>     Vier von neun neuen SSDs Platten (vieeeeel schneller als HDDs)
>     sind schon unterwegs. Außerdem haben wir eine
>     Investitionsförderung eingereicht mit der wir den Ceph neu
>     aufbauen wollen. Ein Ceph Server kommt dazu, statt HDDs SSDs,
>     statt geteilten 2Gbit Netzwerk 40Gbit dem Ceph dediziert. Und ein
>     HA Cluster. Wir freuen uns schon drauf!
>
>
>     *Wichtig!*
>
>     Am Sonntag in der Nacht werden wir die letzte große Partition
>     eines Webservers auf einen Server lokal ablegen! Wir erwarten,
>     dass sich ein paar Websiten in dieser Zeit (fünf Stunden lang) nur
>     langsam laden lassen.
>
>
>     Entschuldigt bitte die Ausfälle! Wir hoffen mit Jahresende wieder
>     ruhig schlafen zu können.
>
>
>     gute Nacht aus dem noc!
>
>     Ralph & Wolfi
>
>
>     -- 
>     / NOC - mur.at
>        / Network Operation Center / Systemadministration
>       / +43 (0)681 816 45 308
>     / Di-Fr 12:00-14:00 (Support)
>
>
> _______________________________________________
> Users-discuss mailing list
> Users-discuss at lists.mur.at
> https://lists.mur.at/mailman/listinfo/users-discuss
-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <https://lists.mur.at/pipermail/users-discuss/attachments/20241206/15ff1f55/attachment.html>


Mehr Informationen über die Mailingliste Users-discuss