Lehren aus dem $DATA-Vorfall im Januar 2021

Am 26. Januar 2021 ereignete sich eine unvorhersehbare Abfolge von nicht zusammenhängenden Hardwarefehlern in Kombination mit einem Firmware-Bug, der leider zu einem teilweisen Datenverlust auf dem $DATA-Dateisystem am JSC führte.

Nachdem das System in die Wartung genommen wurde, versuchte eine Task Force von JSC zusammen mit dem Systemhersteller, dem Softwareanbieter und den Festplatten- und RAID-Herstellern in einer gemeinsamen Anstrengung so viele Daten wie möglich wiederherzustellen und zu retten. Es wurde vorübergehend ein Dateisystem /p/largedata_restore/ eingeführt, um den Zugriff auf die Daten zu ermöglichen, die von einem inoffiziellen Backup, das im Januar erstellt wurde, wiederhergestellt wurden.

Um eine solche Situation in Zukunft zu vermeiden, wurden mehrere neue Maßnahmen eingeführt. Während $DATA bisher nicht gesichert wurde, – eine vollständige Wiederherstellung dieses Multi-PetaByte-Dateisystems würde Monate dauern –, wird $DATA in mehrere kleinere Bereiche aufgeteilt, was die Implementierung einer Backup-Strategie ermöglicht. Als Zwischenlösung führt das JSC trotz der bekannten Restore-Herausforderung ein Backup des bestehenden $DATA durch.

Weitere Informationen, zusammen mit dem detaillierten Zeitablauf, finden Sie in der JUST-Systemdokumentation zum $DATA-Vorfall.

JSC bedauert diese unglückliche Situation sehr und entschuldigt sich für die Unannehmlichkeiten bei den Betroffenen. Das Data Services Support Team steht Ihnen gerne zur Verfügung, wenn Sie Fragen zum Verbleib Ihrer Daten haben und wird Ihnen mögliche weitere Schritte im Rahmen der Wiederherstellung vorschlagen.

Kontakt: Data Services Support, ds-support@fz-juelich.de

aus JSC News No. 280, 26. April 2021

Letzte Änderung: 11.03.2022