Pesquisadores da NVIDIA venceram uma importante competição do Kaggle, considerada por muitos na área como um indicador em tempo real do progresso da humanidade rumo à inteligência artificial geral (AGI).

Ivan Sorokin e Jean-Francois Puget, dois membros do Kaggle Grandmasters da NVIDIA (KGMoN), ficaram em primeiro lugar no ranking público do Kaggle ARC Prize 2025 com uma pontuação de 27,64%, ao desenvolverem uma solução avaliada no mesmo conjunto de dados do benchmark ARC-AGI-2.

A equipe, que se autodenominou NVARC, aprimorou uma variante do modelo 4B que superou modelos muito maiores e mais caros no mesmo benchmark, a um custo de apenas 20 centavos por tarefa. Ela demonstrou não apenas resultados de última geração, mas também um avanço no raciocínio escalável e econômico no estilo de Inteligência Artificial Geral (AGI).
O benchmark ARC-AGI mede o desempenho de sistemas de IA em raciocínio abstrato e generalização a partir de poucos exemplos, utilizando quebra-cabeças visuais em formato de grade. O ARC-AGI-2 é uma versão atualizada e mais complexa, que elimina a sobreposição com dados de treinamento públicos. Ele foi projetado especificamente para resistir a atalhos e memorização por força bruta, tornando-se um teste mais rigoroso de abstração sistemática genuína.
O benchmark ARC-AGI tornou-se um dos indicadores mais observados do progresso real em direção ao raciocínio geral em IA. Ao contrário dos benchmarks típicos de aprendizado de máquina, as tarefas do ARC-AGI não podem ser resolvidas por meio de escala, memorização ou extração de padrões. Cada quebra-cabeça é uma pequena grade com apenas alguns exemplos, forçando os sistemas a inferirem regras abstratas — e aplicá-las a um caso de teste totalmente novo. As pontuações no ARC-AGI-2, mais difícil, são amplamente consideradas como um indicador de quão bem um sistema de IA consegue aprender a partir de praticamente nada.
É por isso que a tabela de classificação do Kaggle ARC Prize 2025 é importante: é o ambiente mais aberto e reproduzível onde os pesquisadores testam o raciocínio no estilo da Inteligência Artificial Geral (IAG) sob limites rigorosos de computação e tempo.
A solução vencedora do NVIDIA NVARC não foi impulsionada por modelos gigantescos ou buscas de força bruta. Em vez disso, baseou-se em três ideias que qualquer desenvolvedor pode apreciar: dados sintéticos, treinamento em tempo de teste e engenharia disciplinada.
Métodos complexos de raciocínio LLM — como cadeia de pensamento, uso de ferramentas e até mesmo agentes no estilo RL — não cabiam no tempo de execução limitado do Kaggle. Então, a NVARC mudou de estratégia: mover todo o raciocínio complexo para um pipeline de dados sintéticos e treinar modelos menores capazes de serem executados rapidamente durante a avaliação.
Utilizando geração de quebra-cabeças em etapas, decomposição de conceitos e modelos de peso aberto progressivamente mais robustos, a equipe construiu um conjunto sintético diversificado de tarefas no estilo ARC. Os modelos finais precisavam apenas reconhecer e adaptar padrões, em vez de executar toda a lógica de busca do programa. O treinamento em tempo de teste aprende as especificidades de cada quebra-cabeça a partir de seu pequeno conjunto de exemplos — uma técnica que se tornou essencial para o desempenho de ponta do ARC-AGI.
O resultado foi um conjunto compacto e econômico que superou sistemas muito maiores e estabeleceu um novo padrão no ARC-AGI-2, mostrando como dados sintéticos e aprendizado adaptativo podem impulsionar o raciocínio.
Para desenvolver com sucesso essas soluções vencedoras, a equipe utilizou o conjunto de ferramentas NVIDIA NeMo, incluindo o NeMo RL para aprendizado por reforço escalável e o NeMo Skills para otimizar os fluxos de trabalho dos ODS (Objetivos de Desenvolvimento Sustentável).

