[NOC-announce] mur.at offline 02:30-13:40

Jogi Hofmueller jogi at mur.at
Mon Jun 3 11:58:59 CEST 2013


Liebe Leute,

Ich möchte die Geschichte noch ein wenig detailreicher darstellen ;)

Wie bekannt, fiel am 30.5. um 02:36 Uhr der Medienkonverter -- ein Teil
der Verbindung zwischen mur.at und dem Rest der Welt -- an der TUGraz
aus.  Zu diesem Zeitpunkt war natürlich niemand mehr wach, und tun
hätten wir auch nichts können.

Als wir in der Früh auf den Ausfall aufmerksam wurden (viele haben SMS
geschickt, dass sie das eine oder andere Service nicht erreichen konnten
und unser Überwachungssystem hat auch brav Meldungen verschickt),
mussten wir zuerst den Fehler suchen, der sich jedoch rasch zumindest
auf das Rechenzentrum der TUGraz eingrenzen lies.

Nachdem sämtliche Dienste der TUGraz funktionierten, konnten wir nur
mehr auf den Ausfall einer unserer dort aufgestellten Komponenten (ein
Switch und besagter Medienkonverter) tippen.

Gegen 10:00 Uhr erreichten wir telefonisch einen Mitarbeiter der TUGraz,
der -- obwohl gerade am Weg in den Urlaub -- noch schnell ein Email an
seine Kolleg*innen schickte.  Mittlerweile konnten wir die Störung
definitiv auf den Medienkonverter eingrenzen, da sowohl die Citycom
dessen Ausfall registrierte, und ein freundlicher Kollege vom ACOnet uns
bestätigen konnten, dass unser Switch nach wie vor erreichbar ist.

Unser grösstes Problem blieb nach wie vor, Zugang zu unseren Komponenten
im Rechenzentrum der TUGraz zu erlangen.  Gegen 12:30 Uhr rief dann ein
Mitarbeiter der TUGraz an, der auf das Email seines Kollegen reagierte.
 Wir vereinbarten, um 13:30 Uhr mit einem Servicetechniker der Citycom
vor Ort zu sein.

Die eigentliche Reparatur gestaltete sich dann dementsprechend
unspektakulär.  Nachdem rasch klar war, dass das Netzteil des
Medienkonverters ausgefallen war, wurde dieses ersetzt und sofort waren
wir wieder online.

An dieser Stelle ein herzliches Danke an alle, die bei der Behebung
dieser Störung mitgeholfen haben!  Und ebenfalls vielen Dank all jenen,
die uns wiederum für die Beseitigung der Störung und für unsere Arbeit
hier gedankt haben.

Leider können wir derartige Ausfälle mit unseren derzeitigen Mitteln
nicht verhindern, da wir mit unserem Upstream (und auch mit anderen
Dingen) einen klassischen 'single point of failure' haben.  Was wir aber
sehrwohl versuchen werden ist, verbindlichere Kontakte zur
Störungsbehebung aufzubauen.

Lieben Gruß,
j.

-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 294 bytes
Desc: OpenPGP digital signature
URL: <http://lists.mur.at/pipermail/noc-announce/attachments/20130603/2765afc6/attachment.sig>


More information about the noc-announce mailing list