La supercomputadora Frontier con tecnología AMD ha experimentado múltiples fallas de hardware

La supercomputadora Frontier con tecnología AMD ha experimentado múltiples fallas de hardware

Construir una supercomputadora siempre requiere mucho esfuerzo, pero crear el hardware de primera clase exaflop para el sector es muy difícil y requiere el desarrollo de mucho hardware y software. Desafortunadamente, este puede ser el caso de la supercomputadora Frontier en el Laboratorio Nacional de Oak Ridge , que apenas puede pasar el día sin una serie de problemas de hardware.

Con procesadores AMD EPYC Trento de 64 núcleos , GPU de cómputo Instinct MI250X e interconexión HPE Slingshot , el sistema Frontier de ORNL es el primer sistema de la industria que puede lograr un rendimiento máximo de hasta 1685 FP64 ExaFLOPS con un consumo de energía de 21 MW . El sistema fue construido por HPE utilizando la arquitectura Cray EX , creada para aplicaciones escalables, especialmente para supercomputadoras excepcionalmente rápidas.

Si bien se entregaron los componentes de hardware de la supercomputadora Frontier y, sobre el papel, la máquina parece tener un potencial notable, los problemas de hardware parecen impedir que se conecte y esté disponible para los investigadores que requieren un rendimiento de alrededor de 1 FP64 ExaFLOPS .

Justin Witt , director de programas de Oak Ridge Leadership Computing Facility (OLCF), comentó sobre la situación y mencionó:

Trabajamos en problemas de hardware y nos aseguramos de entender (qué son). Tendrá fallas en esta escala. El tiempo medio entre fallas en un sistema de este tamaño es de horas, no de días”.

Durante un tiempo, hubo rumores sobre posibles fallas en el hardware de Frontier. Según otro artículo de InsideHPC , algunos han afirmado que el conector Slingshot está causando problemas en el sistema. Según otros informes, las GPU de cómputo Instinct MI250X de AMD no han sido tan confiables este año. Es importante tener en cuenta que solo un número limitado de consumidores puede comprar la versión X, que tiene más procesadores de flujo y velocidades más rápidas.

El Sr. Witt insistió en que la computadora tenía varios problemas de hardware, pero no indicó que el sistema tuviera problemas específicos con Instinct o Slingshot.

Muchos problemas están relacionados con estas [GPU], pero estos no son la mayoría de los problemas que vemos. Esa es una distribución bastante buena entre los culpables habituales de fallas parciales que fueron una gran parte de ello. No creo que estemos demasiado preocupados por los productos de AMD en este momento».

La supercomputadora Frontier del Laboratorio Nacional de Oak Ridge no es la única que utiliza procesadores AMD EPYC, interconexiones Slingshot y la arquitectura Cray EX de HPE. Por ejemplo, la supercomputadora Lumi de Finlandia , reconocida oficialmente como la tercera supercomputadora más poderosa del mundo, tiene un rendimiento máximo de 550 petaflops cuando se usan componentes similares. El tamaño de la máquina, que requiere un total de 60 millones de piezas , puede viabilizar el problema.

Dado que la supercomputadora Frontier aún no se ha implementado oficialmente, aún no está claro si estará disponible para los científicos a partir de 2023 , como se planeó originalmente, en 2022 .

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *