Filesystem zerfallen…..

Leider ist auf meinem Root-Server das Filesystem zerfallen und hat die Filesysteme der VMWare-Instanzen gleich mit in den Tod gezogen. Daher war die Site ein paar Tage offline und sah dann, wegen der zerbrochenen Umlaute, ein bißchen komisch aus. Mittlerweile sind alle Probleme behoben und die Daten aus dem treuen Bacula Backup wieder eingespielt. Die Ursache ist leider unklar.

Die Maschine war einfach nicht mehr zu erreichen. Ein durch Hard-Reset ausgelöster Reboot war erstmal erfolgreich und hat keine Fehler geworfen. Allerdings sind dabei die VMWare-Instanzen nicht hochgekommen. Ein genauerer Blick auf selbige zeigte, dass zwei Stück in einem fsck hängengeblieben waren und auf eine manuelle Eingabe warten. Eine meldete einen “Grub error 17”, was nichts gutes heisst. Nur eine der Instanzen ist normal hochgekommen. Ein manueller fsck in den beiden wartenden Instanzen hat leider nur zu einer kompletten Vernichtung des Filesystems geführt, da in nahezu jedem Teil des selben unzählige Fehler gefunden wurden. Das Filesystem der Instanz mit dem “Grub error 17” war komplett verschwunden! Und ein ls -R in der Root der laufenden Instanz lieferte für mehr als die Hälfte der Files einen I/O Error. Dann habe ich den Rechner mit einem Rescue-System des Providers gebootet und einen fsck auf das md-Devices des Software-Raids gemacht. Auch hier wurden unzählige Filesystemfehler gefunden. Jetzt war klar, ich würde das Backup brauchen 🙁

Nachdem das Filesystem des Hosts nicht mehr zu retten war habe ich die Hardware des Rechners mit memtest und einem Disk-Check-Tool prüfen lassen. Ohne Befund. Da ich das nicht so recht glauben wollte habe ich beide Platten aus Rescue-System mit Bad-Block-Scan formatiert. Auch ohne Befund. Ich habe dann wieder ein Software-RAID-1 erstellt und das mit Bad-Block-Scan formatiert. Wieder ohne Befund. OK. Dann habe ich im Hostsystem ein Debian Lenny amd64 installiert und damit das vorher installierte Fedora 8 amd64 ersetzt. Danach wieder das Rescue-System gestartet und auf die Partitionen der frischen Install einen “fsck.ext3 -c -f” gemacht. Auch der lief ohne Probleme durch. Seitdem ist die Kiste mit VMWare und den Instanzen aus dem Backup wieder online. Bisher ohne irgendwelche Probleme.

Ich bin mir jetzt unsicher ob ich darüber freuen oder mich lieber fürchten soll. Denn wie es scheint hat die Kiste ihr Filesystem gefressen ohne, dass ein technischer Defekt vorlag. Das habe ich schon lange nicht mehr erlebt und hoffe, dass mir das auch nicht so schnell wieder unterkommt.

Leave a Reply