Dos Circuitos à Escala: o Caminho da Intel até o Exascale

À medida que o supercomputador Aurora chega à sua inauguração oficial, três integrantes da equipe da Intel refletem sobre a amplitude e os desafios únicos desse projeto.

Poucos momentos na engenharia são tão eletrizantes quanto ligar um supercomputador totalmente novo pela primeira vez. Para a equipe da Intel por trás do supercomputador Aurora, ver a primeira lâmina de produção acender no laboratório JF5 da Intel, no Oregon, foi um marco: uma mistura de empolgação, ansiedade e um profundo sentimento de orgulho.

“Ver aquele primeiro rack e lâmina em funcionamento foi mais do que apenas o hardware ganhando vida; foi o primeiro vislumbre do que se tornaria uma máquina histórica”, relembra Olivier Franza, investigador principal do Aurora e arquiteto-chefe do sistema.

Bill Wing, gerente de programa líder da Intel para o Aurora, lembra-se de assistir à primeira execução de um exaflop junto com a equipe como um momento marcado por aplausos, à medida que o Aurora subia nas classificações do supercomputing mundial.

Aurora não é apenas uma máquina - é um feito extraordinário. Capaz de realizar dois bilhões de bilhões de cálculos por segundo, trata-se de um verdadeiro sistema em escala exa. Esse salto no poder computacional possibilita avanços em diversas áreas da ciência e tecnologia, desde modelagem climática até pesquisas sobre o câncer. Como Franza resume: “Aurora é uma máquina de pesquisa fenomenal, que nos permite modelar física complexa e avançar as fronteiras da ciência como nunca antes.”

Esse potencial já começa a ser concretizado por meio de iniciativas como o Trillion Parameter Consortium, no qual o Aurora está ajudando a desenvolver modelos de IA em larga escala, incluindo o AuroraGPT - um modelo inovador voltado para acelerar descobertas científicas em parceria com laboratórios nacionais. Essas iniciativas destacam a convergência entre computação de alto desempenho (HPC) e inteligência artificial, e como sistemas como o Aurora estão na vanguarda da construção do futuro.

Construir um sistema dessa escala, no entanto, apresentou desafios sem precedentes. “Nós aplicamos todas as melhores práticas que conhecíamos”, reflete Wing. “Mas só quando você monta todo o hardware e software em larga escala é que os verdadeiros desafios aparecem.”

A Intel nunca havia enfrentado um projeto dessa magnitude. A transparência e a colaboração com parceiros como o Laboratório Nacional de Argonne e a HPE foram cruciais. “Tornar-se uma empresa de sistemas é algo difícil”, admite Franza. “Mas o Aurora nos desafiou a evoluir.”

Desde o início, a contribuição do Laboratório de Argonne moldou todas as fases do desenvolvimento do Aurora. “Não se tratava apenas de entregar tecnologia. Nós ouvimos o cliente - com profundidade e de forma constante”, diz Wing. “Não resistimos. Por menor que fosse o problema, trabalhávamos para resolvê-lo.”

A equipe se integrou aos pesquisadores de Argonne, depurando lado a lado e respondendo ao feedback com urgência e humildade. Esse comprometimento com o cliente tornou-se um dos valores fundamentais da equipe da Intel. Resolver problemas não era apenas uma tarefa - era uma mentalidade.

A jornada começou com a Intel realizando experimentos em placas personalizadas e clusters de HPC, aprendendo junto com a equipe de Argonne. “Diferente de projetos típicos da Intel”, relembra Wing, “nós trabalhamos lado a lado com Argonne, depurando e construindo confiança como uma única equipe.”

O caminho à frente esteve longe de ser tranquilo. Entregar um supercomputador em escala exa exigiu uma arquitetura ousada, com novos núcleos de processador, memória de alta largura de banda e aceleradores avançados. Discussões sobre arquitetura, escolhas de design dos nós e desafios de integração foram constantes.

Os desafios tecnológicos se intensificaram em 2019 com as interrupções na cadeia de suprimentos causadas pela COVID. Depurar hardware em colaboração com o cliente, controlar questões térmicas e rastrear bugs difíceis de identificar consumiu meses.

Apesar desses obstáculos, os engenheiros da Intel perseveraram. “Esse projeto exigiu resiliência em todos os níveis”, afirma Wing. “Tivemos equipes multifuncionais arregaçando as mangas, muitas vezes trabalhando por semanas nos laboratórios subterrâneos em Chicago.”

Como resume David Tuhy, líder de engenharia do Aurora: “Engenheiros da Intel - inteligentes e comprometidos - se uniram, especialistas em hardware, software e sistemas, para levar o Aurora à fase de aceitação. Esse tipo de comprometimento, entre disciplinas e apesar dos contratempos, foi o que nos levou até a linha de chegada.”

Em meio às dificuldades, vários triunfos da engenharia se destacaram. A maturação do oneAPI da Intel e dos frameworks de IA, refinados em parceria estreita com o Argonne, tornou-se uma das principais fortalezas do projeto. “Os obstáculos iniciais do oneAPI se transformaram em um ativo essencial”, diz Wing. A integração da plataforma de armazenamento open source DAOS também se mostrou vital.

Além da conquista técnica, há uma história profundamente humana. Essa jornada de uma década cobrou um preço emocional, levando a equipe além do que imaginava ser capaz de entregar. “O que nos manteve firmes foi o espírito de equipe, a sensação de estarmos lutando lado a lado, uns com os outros e com o cliente”, afirma Franza.

A liderança evoluiu para priorizar confiança, comunicação e empoderamento. Wing complementa: “A verdadeira liderança é estar ombro a ombro, ouvir e elevar os outros.”

O impacto do Aurora vai muito além do hardware. Esse supercomputador em escala exa impulsionará descobertas nas áreas de biologia, energia, aeroespacial, computação quântica e muito mais. “Mostramos que a Intel é capaz de enfrentar grandes desafios e cumprir uma missão crítica para o Departamento de Energia dos EUA e para o país”, diz Wing. Franza acrescenta: “Foi uma questão de compromisso - começar algo e levar até o fim, mesmo diante das adversidades.”

Para quem percorre caminhos semelhantes, as lições são claras: nunca comprometa a qualidade. Mantenha-se próximo do sistema, envolvido com suas operações. E, acima de tudo, cobre responsabilidade da liderança - sabendo quando seguir em frente e quando recuar para proteger sua saúde e bem-estar.

Olhando para trás, a equipe vê mais do que uma máquina; vê um legado. O Aurora os transformou como engenheiros, colaboradores e pensadores. “Ninguém pode tirar de nós a experiência de construir algo dessa escala”, diz Franza. “Mesmo que o caminho tenha sido difícil.”

Wing concorda: “Saber que nosso trabalho permitirá descobertas para as próximas gerações é profundamente gratificante.”

O Aurora é um testemunho do que é possível quando imaginação, expertise e dedicação se encontram. Um farol para os futuros inovadores - a prova de que, com coragem e cuidado, o impossível pode se tornar realidade.