De circuitos a escala el camino de Intel hacia la exaescala
Con la inauguración oficial del superordenador Aurora, tres integrantes del equipo de Intel reflexionan sobre el alcance único y los desafíos del proyecto.
Pocos momentos en la ingeniería son tan electrizantes como encender un superordenador completamente nuevo por primera vez. Para el equipo de Intel detrás del superordenador Aurora, ver iluminarse la primera blade de producción en el laboratorio JF5 de Intel en Oregón marcó precisamente ese hito: una mezcla de emoción, ansiedad y un profundo orgullo.
“Ver ese primer rack y blade fue más que simplemente encender hardware; fue el primer vistazo de lo que se convertiría en una máquina histórica”, recuerda Olivier Franza, investigador principal de Aurora y arquitecto jefe del sistema.
Bill Wing, gerente del programa líder de Aurora en Intel, recuerda haber presenciado la primera ejecución de un exaflop junto al equipo como un momento acompañado de vítores, mientras Aurora escalaba en el ranking mundial de supercomputadoras.
Aurora no es solo una máquina, es una maravilla. Capaz de realizar dos mil billones de cálculos por segundo, es un verdadero sistema a escala exa. Este salto en capacidad computacional permite avances sin precedentes en la ciencia y la tecnología, desde modelado climático hasta investigación sobre el cáncer. Como lo expresa Franza: “Aurora es un motor de investigación fenomenal que nos permite modelar física compleja y ampliar las fronteras científicas como nunca antes”.
Este potencial ya se está materializando a través de iniciativas como el Trillion Parameter Consortium, donde Aurora está ayudando a avanzar modelos de inteligencia artificial a gran escala, incluido AuroraGPT, un modelo revolucionario diseñado para acelerar los descubrimientos científicos en colaboración con laboratorios nacionales. Estas iniciativas destacan la convergencia entre la computación de alto rendimiento (HPC) y la inteligencia artificial, y cómo sistemas como Aurora están a la vanguardia en la construcción del futuro.
Sin embargo, construir un sistema de esta magnitud planteó desafíos sin precedentes. “Nos basamos en todas las mejores prácticas que conocíamos”, reflexiona Wing. “Pero solo cuando ensamblas todo el hardware y software a gran escala emergen los verdaderos desafíos”.
Intel nunca había enfrentado un proyecto de tal magnitud. La transparencia y la colaboración con socios como el Laboratorio Nacional de Argonne y HPE resultaron fundamentales. “Convertirse en una empresa de sistemas es difícil”, admite Franza. “Pero Aurora nos desafió a evolucionar”.
Desde el principio, la participación de Argonne dio forma a cada fase del desarrollo de Aurora. “Esto no se trataba simplemente de enviar tecnología. Escuchamos al cliente, de forma profunda y constante”, afirma Wing. “No rechazamos nada. Por pequeño que fuera el problema, trabajamos para resolverlo”.
El equipo se integró con los investigadores de Argonne, depurando errores codo a codo y respondiendo a la retroalimentación con urgencia y humildad. Ese compromiso de anteponer al cliente se convirtió en uno de los valores fundamentales del equipo de Intel. Resolver problemas no era una tarea; era una mentalidad.
El camino comenzó con Intel experimentando con tarjetas personalizadas y clústeres de HPC, aprendiendo junto al equipo de Argonne. “A diferencia de los proyectos típicos de Intel”, recuerda Wing, “trabajamos estrechamente con Argonne, depurando errores y construyendo confianza como un solo equipo”.
El camino hacia adelante estuvo lejos de ser fácil. Entregar una supercomputadora a escala exa requería una arquitectura audazmente nueva con núcleos de procesador innovadores, memoria de alto ancho de banda y aceleradores avanzados. Los debates sobre la arquitectura, las decisiones de diseño de nodos y los desafíos de integración fueron constantes.
Los desafíos tecnológicos se vieron agravados en 2019 por las interrupciones en la cadena de suministro relacionadas con el COVID. Depurar hardware en colaboración con el cliente, gestionar el rendimiento térmico y perseguir errores esquivos consumió meses.
A pesar de esos obstáculos, los ingenieros de Intel perseveraron. “Este proyecto exigió resiliencia en todos los niveles”, afirma Wing. “Tuvimos equipos multifuncionales arremangándose, trabajando durante semanas en los laboratorios subterráneos de Chicago”.
Como lo expresó David Tuhy, líder de ingeniería de Aurora: “Ingenieros de Intel muy talentosos y comprometidos —expertos en hardware, software y sistemas por igual— se unieron para lograr la aceptación de Aurora. Ese tipo de compromiso, a través de disciplinas y a pesar de los contratiempos, fue lo que finalmente nos llevó a la meta”.
En medio de las dificultades, varios logros de ingeniería se destacaron. La maduración de oneAPI y los marcos de IA de Intel, perfeccionados en estrecha colaboración con Argonne, se convirtió en una fortaleza clave. “Los obstáculos iniciales de oneAPI se transformaron en un activo fundamental”, señala Wing. La integración de la plataforma de almacenamiento de código abierto DAOS también resultó vital.
Más allá del logro técnico, hay una historia profundamente humana. Esta travesía de una década dejó una huella emocional, llevando al equipo más allá de lo que creían posible. “Lo que nos mantuvo en pie fue el espíritu de equipo, la sensación de luchar hombro a hombro entre nosotros y con el cliente”, afirma Franza.
El liderazgo evolucionó para priorizar la confianza, la comunicación y el empoderamiento. Wing añade: “El verdadero liderazgo significa estar hombro a hombro, escuchar y elevar a los demás”.
El impacto de Aurora va mucho más allá del hardware. Esta potencia exaescala impulsará descubrimientos en biología, energía, aeroespacial, computación cuántica y más. “Demostramos que Intel puede enfrentar grandes desafíos y cumplir una misión crítica para el Departamento de Energía (DOE) y para el país”, dice Wing. Franza agrega: “Esto se trató de compromiso, de comenzar algo y verlo hasta el final, incluso frente a las dificultades”.
Para quienes recorren caminos similares, las lecciones son claras: nunca comprometer la calidad. Mantenerse involucrado y conectado con el pulso del sistema. Y, sobre todo, exigir responsabilidad al liderazgo, sabiendo cuándo avanzar y cuándo dar un paso atrás para proteger el bienestar propio.
Al mirar atrás, el equipo ve más que una máquina; ve un legado. Aurora los transformó como ingenieros, colaboradores y pensadores. “Nadie puede quitarnos la experiencia de haber construido algo de esta magnitud”, dice Franza. “Aunque el camino haya sido difícil”.
Wing coincide: “Saber que nuestro trabajo permitirá descubrimientos durante generaciones es profundamente gratificante”.
Aurora es un testimonio de lo que es posible cuando la imaginación, la experiencia y la dedicación convergen. Es un faro para los innovadores del futuro: prueba de que, con valentía y cuidado, lo imposible puede hacerse realidad.