Austausch von Kabeln im JURECA-Booster im Herbst
Im Herbst 2017 wurde das JURECA-Booster-Modul mit 1.640 Rechenknoten auf Basis von Intel Xeon Phi Prozessoren und einer Hochgeschwindigkeitsverbindung auf Basis der Intel Omni-Path Architecture (OPA) installiert. Die OPA-Verbindungen über größere Entfernungen werden mit aktiven optischen Kabeln realisiert. Seit dem Start des Systems weist dieser Kabeltyp eine hohe Ausfallrate auf, die sich in den letzten Monaten nicht wie erwartet verringert hat. Dieses Problem wird heute als Qualitätsproblem der Kabel angesehen. In der Zwischenzeit hat Intel die Lieferung von Kabeln dieses Lieferanten eingestellt.
Leider kann nur ein schneller Austausch aller optischen Kabel dazu beitragen, die Ausfallraten kurzfristig auf ein akzeptables Niveau zu bringen. Diese Kabel können nicht während der Produktion ausgetauscht werden, ohne dass die Gefahr besteht, dass die laufenden Arbeiten und die Stabilität des Dateisystems auf dem Booster und anderen Systemen im JSC beeinträchtigt werden. Daher ist für diese Maßnahme eine mehrwöchige Offline-Wartung erforderlich. JSC und Intel hatten ursprünglich geplant, den Ersatz im Frühherbst, vom 7. September bis Mitte Oktober, durchzuführen. Die neuen Kabel, die Ende August nach Jülich geliefert wurden, bestanden jedoch nicht die technische Überprüfung vor Ort. Angesichts der sehr erheblichen Auswirkungen der geplanten Wartung auf das JSC und seine Nutzer und angesichts der Gefahr, dass die Funktionalität der neuen optischen Kabel noch weiter beeinträchtigt wird, wurde beschlossen, den Kabelaustausch zu verschieben.
JSC geht davon aus, dass die Wartung im Oktober oder November stattfindet. Die genauen Termine werden allen betroffenen Nutzern so früh wie möglich mitgeteilt. Das JSC ist weiterhin bestrebt, die Auswirkungen dieser langen Wartung auf die Nutzer so gering wie möglich zu halten.
Ansprechpartner: Dr. Dorian Krause, d.krause@fz-juelich.de
aus JSC News No. 260, 17. September 2018