Intel e Instituto Weizmann aceleram IA com avanço em Decodificação Especulativa

Um novo método para lidar com algoritmos de aceleração de IA proporciona até 2,8 vezes mais rapidez na inferência de LLMs, viabilizando uma IA independente de fornecedores. A solução já está disponível na Hugging Face.
Novidade: Durante a Conferência Internacional de Aprendizado de Máquina (ICML), pesquisadores dos Laboratórios da Intel e do Instituto Weizmann de Ciências apresentaram um grande avanço em decodificação especulativa. A nova técnica, revelada na conferência em Vancouver, Canadá, permite que qualquer modelo “rascunho” pequeno acelere qualquer modelo de linguagem grande (LLM), independentemente das diferenças de vocabulário.
"Resolvemos uma ineficiência central na IA generativa. Nossa pesquisa mostra como transformar a aceleração especulativa em uma ferramenta universal. Isso não é apenas uma melhoria teórica; são ferramentas práticas que já estão ajudando desenvolvedores a criar aplicações mais rápidas e inteligentes hoje."
– Oren Pereg, pesquisador sênior do Grupo de Processamento de Linguagem Natural, Intel Labs
Sobre Decodificação Especulativa: A decodificação especulativa é uma técnica de otimização de inferência projetada para tornar os LLMs mais rápidos e eficientes sem comprometer a precisão. Funciona ao parear um modelo pequeno e rápido com um modelo maior e mais preciso, criando um “esforço em equipe” entre os modelos.
Como Decodificação Especulativa Funciona Considere o prompt para um modelo de IA: “Qual é a capital da França…”
Um LLM tradicional gera cada palavra passo a passo. Ele calcula completamente “Paris”, depois “é”, depois “uma”, depois “cidade”, e assim por diante, consumindo muitos recursos a cada etapa. Com a decodificação especulativa, o modelo auxiliar pequeno gera rapidamente a frase completa “Paris, uma cidade famosa...”. O modelo maior então verifica a sequência. Isso reduz drasticamente os ciclos de computação por token gerado.
Por Que Isso Importa Esse método universal da Intel e do Instituto Weizmann elimina as limitações de vocabulários compartilhados ou de modelos treinados em conjunto, tornando a decodificação especulativa prática em modelos heterogêneos. Proporciona ganhos de desempenho de até 2,8x na velocidade de inferência sem perda de qualidade na saída. Também funciona entre modelos de diferentes desenvolvedores e ecossistemas, sendo independente de fornecedor (vendor-agnostic), com integração pronta para uso na biblioteca Transformers da Hugging Face.
Em um cenário fragmentado de IA, essa inovação em decodificação especulativa promove abertura, interoperabilidade e implantação econômica — da nuvem à borda (edge). Desenvolvedores, empresas e pesquisadores agora podem combinar modelos conforme suas necessidades de desempenho e restrições de hardware.
“Este trabalho elimina uma grande barreira técnica para tornar a IA generativa mais rápida e barata”, disse Nadav Timor, doutorando no grupo de pesquisa do Prof. David Harel no Instituto Weizmann. “Nossos algoritmos desbloqueiam ganhos de velocidade de última geração que antes estavam disponíveis apenas para organizações que treinavam seus próprios modelos rascunho.”
Detalhes Técnicos: O artigo de pesquisa apresenta três novos algoritmos que dissociam a decodificação especulativa do alinhamento de vocabulário. Isso abre caminho para uma implantação flexível de LLMs, permitindo que desenvolvedores combinem qualquer modelo rascunho com qualquer modelo grande para otimizar velocidade de inferência e custo em múltiplas plataformas.
Da Teoria à Prática: A pesquisa vai além da teoria. Os algoritmos já estão integrados na biblioteca open source Transformers da Hugging Face, utilizada por milhões de desenvolvedores. Com essa integração, a aceleração avançada de LLMs está disponível prontamente, sem necessidade de código personalizado.
Mais Contexto: Accelerating LLM Inference with Lossless Speculative Decoding Algorithms for Heterogeneous Vocabularies (Artigo de pesquisa dos Laboratórios da Intel e do Instituto Weizmann de Ciências)
As letras pequenas: 1 Timor, N., Mamou, J., Korat, D., Berchansky, M., Pereg, O., Wasserblat, M., Gaurav, J., e Harel, D. Accelerating LLM Inference with Lossless Speculative Decoding Algorithms for Heterogeneous Vocabularies. International Conference on Machine Learning, 2025.