Frontier, el superordenador más potente del mundo falla por culpa de AMD

¡El superordenador Frontier falla por culpa de los procesadores de AMD!

Superordenador Frontier
Superordenador Frontier

Lo más seguro es que en algún momento hayas golpeado el case de tu ordenador porque sencillamente algo no funcionaba como debería hacerlo, y a decir verdad una vez superas el desespero inicial, encontrar un problema en un ordenador portátil o de sobremesa para solucionarlo es considerablemente sencillo.

Ahora bien, para poder reparar el ordenador más potente del mundo, ese que lleva en sus hombros el nombre de Frontier, es por supuesto otra historia, y en efecto, un escenario mucho más complejo.

Te recomendamos | Tesla dice tener un superordenador según con 7360 GPU A100 ¡Tesla Chip D1 Dojo!

Superordenador Frontier
Superordenador Frontier

Lamentablemente este superordenador tan prometedor posee problemas de rendimiento, y si bien la compañía sabe cuál es el problema, lamentablemente no han conseguido ninguna solución viable.

Frontier es en efecto un superordenador creado para realizar los trabajos más complejos y que requieren un inmenso potencial de cómputo. Algunas de las principales características de este ordenador es la capacidad de ofrecer una potencia superior a 1 HexaFlop, hablamos de una potencia de procesamiento miles de veces superior a las de cualquier un ordenador doméstico por más costoso que esté sea.

La computadora más grande y costosa de todo el mundo se congela a cada rato

Hoy por hoy este superordenador está funcionando, sí, pero lamentablemente debido a su capacidad de cómputo no funciona bien hacer que un sistema con semejante potencial funcione de manera adecuada, es sumamente complicado y debemos por supuesto tener en cuenta que tiene miles de componentes entremezclados, y un sistema de interconexión sumamente complejo, no se relaciona para nada a un ordenador doméstico qué es fácil de montar, limpiar y reparar.

Frontier tiene una cantidad asombrosa de componentes

Para que nos hagamos una pequeña idea de las características de este ordenador, no podemos siquiera tratar de compararlas con uno de sobremesa. Frontier en si mismo cuenta con 9472 procesadores AMD EPYC 7A53S, cada uno de estos procesadores tiene a su vez un total de 64 núcleos y trabajan todos a una frecuencia de 2.0 GHZ.

Especificaciones de Frontier
Especificaciones de Frontier

Dichos núcleos se complementan a sí mismos con la pequeña, casi ínfima cantidad de 37888 tarjetas de aceleración Radeon Instinct MI250X. Cada uno de los nodos está conformado por una CPU AMD, cuatro tarjetas gráficas AMD cada una con 128 GiB de memoria HBN2e y 512  GiB de memoria RAM DDR4 además cada sistema individual del computador cuenta con una capacidad de almacenamiento de nada más y nada menos 4 TB NVMe.

La fuente del problema radica en Instinct MI250X de AMD

Aparentemente, este engorroso sistema presenta un fuerte problema para lograr su funcionamiento adecuado, y esto tiene que ver con las Instinct MI250X, lamentablemente el sistema de interconexión slingshot utilizado para este sistema estaría ocasionando problemas de funcionamiento a causa de sobrecargas.

Justion Whitt, director del programa “Oak ridge leadership computing facility” ha explicado lo siguiente:

En su mayoría se trata de problemas de escala junto con la vasta amplitud de aplicaciones que tiene, por lo que los problemas que se consiguen en este dispositivo se relacionan intrínsecamente con la ejecución de trabajos ridículamente grandes, utilizando todo el sistema. La tarea más complicada en efecto es hacer que todo el hardware funcione de forma coordinada y precisa como si de un reloj suizo se tratara.

Más de una falla aqueja a Frontier

Pero lamentablemente este no sería el único problema que estaría afectando al rendimiento de la supercomputadora, también indica que los productos de AMD no serían el problema sino que se trataría enteramente de una casualidad, destaca también que este tipo de problemas de rendimiento no son algo inusual en estos dispositivos, al crear dispositivos de estas magnitudes para que todo llegué a funcionar debidamente suele pasar un muy buen tiempo, y requiere de corregir una gran cantidad de problemas y muchas horas de diagnóstico y estudio de soluciones.

Sus componentes son costosos y muy complejos de ensamblar

Hay que tener en cuenta que este tipo de sistemas tienen miles de conexiones existentes, hacer que todo el sistema funcione perfectamente no es para nada una tarea sencilla, hay que realizar demasiados ajustes, además también hay que tener en cuenta que la mayoría de las aplicaciones no están listas para este tipo de sistemas.