Co dręczy Frontier? Najszybszy superkomputer na świecie ma problemy… i to codzienne

W zeszłym roku dowiedzieliśmy się, że superkomputer Frontier zostanie uruchomiony w 2022 lub 2023 roku, stając się nie tylko najszybszym komputerem o wydajności mierzonej w eksaskali na świecie, ale także pierwszym takiej klasy. Nie ma co jednak liczyć na to, że zostanie oficjalnie oddany do użytku w ciągu następnych tygodniach i być może nawet miesiąca, bo superkomputer Frontier należący do Oak Ridge National Laboratory obecnie ledwo wytrzymuje dzień bez licznych awarii sprzętu.
Frontier, Najszybszy superkomputer
Frontier, Najszybszy superkomputer

Frontier to najszybszy superkomputer… ale tylko na papierze. Obecnie trwają próby jego ustabilizowania

Frontier sam w sobie jest wyjątkowy na wielu obszarach i wspomniane zaliczanie się do klasy eksaskalowej jest tylko wierzchołkiem góry lodowej. Jego zdecydowanie najbardziej kluczową cechą jest spójność pamięci między GPU i CPU, co oznacza, że procesory centralne będą miały bezpośredni dostęp do pamięci VRAM, czyli tej kart graficznych. Możemy więc śmiało założyć, że tak jak budowa każdego superkomputera zawsze jest wyzwaniem, tak pełne wdrożenie stabilnego Frontiera jest wyzwaniem do potęgi.

Czytaj też: Norwedzy zbudowali „bank ciepła”. Energię ze słońca wreszcie będzie można magazynować na zapas?

Najszybszy superkomputer na świecie, którym Frontier ma z czasem oficjalnie zostać, zapewni do 1685 FP64 ExaFLOPSów szczytowej wydajności. Z tego co nam wiadomo, wszystkie podzespoły do tego systemu zostały już dostarczone, ale problemy ze sprzętem wciąż go dręczą i nie umożliwiają naukowcom wykorzystania nawet “skromnego” 1 ExaFLOPa mocy obliczeniowej. Niedawno w tej kwestii zabrał głos Justin Whitt, czyli dyrektor programowy Oak Ridge Leadership Computing Facility, który w wywiadzie dla InsideHPC stwierdził, że problemy w przypadku takiego superkomputera są normalne i obecnie “średni czas pomiędzy awarią na systemie tej wielkości to godziny, nie dni.”

Czytaj też: W prosty sposób złamali kluczowe zabezpieczenie. Na ile bezpieczni możemy czuć się w cyfrowym świecie?

Te słowa potwierdziły krążące od dawna plotki, wedle których problemy ze stabilnością Frontier sprowadzają się do procesorów graficznych AMD Instinct MI250X, które okazały się nie tak niezawodne, jak powinny. Problematyczny miał okazać się też interkonekt Slingshot, ale oficjalnie nic na ten temat nie wiadomo, bo ogłoszenia sprowadzają się do wskazania na “liczne problemy sprzętowe”. Warto jednocześnie wspomnieć, że wymienione “problematyczne sprzęty” w innych zastosowaniach spisują się wzorowo, więc najpewniej największym problemem superkomputera Frontier jest po prostu jego skala.