Banco de dados para testar IAs


Pesquisadores de mais de 40 países, incluindo o Brasil, desenvolveram o Humanity’s Last Exam (HLE), um banco de dados avançado criado para testar, com alto nível de precisão, as capacidades dos sistemas de inteligência artificial (IA). A ferramenta é disponibilizada para uso público e tem seu funcionamento detalhado em artigo publicado na Nature.

Distribuição das questões de HLE entre as categorias

O HLE reúne 2.500 questões distribuídas em dezenas de áreas do conhecimento humano, como matemática, ciências naturais e humanidades. O objetivo é medir o desempenho de modelos de IA, especialmente os chamados LLMs (Large Language Models), comparando sua performance em um conjunto amplo e rigoroso de problemas.

A ideia era criar uma ferramenta para medir o avanço dos modelos de IA. As desenvolvedoras de IA de propósito geral divulgam o desempenho de seus novos modelos com base em benchmarks consolidados, como SWE-Bench, GPQA Diamond, FrontierMath e, agora, também o HLE.

Esses benchmarks são conjuntos estruturados de problemas e tarefas destinados a avaliar capacidades específicas de um modelo e, no caso do HLE, a proposta foi criar um “benchmark supremo”, um teste em que atingir desempenho próximo a 100% indicaria que o sistema consegue executar tarefas equivalentes às realizadas por seres humanos em múltiplas áreas do conhecimento.

Um dos diferenciais do HLE é reunir apenas questões com resposta final única, objetiva e verificável. Na prática, pesquisadores podem criar scripts para submeter modelos de IA às questões do HLE utilizando instruções padronizadas. Ao extrair a resposta final e compará-la com o gabarito oficial, é possível calcular com precisão o percentual de acertos e, assim, mensurar o desempenho do sistema.

Como o banco de dados é diversificado, o HLE avalia uma ampla gama de habilidades, desde raciocínio matemático e conhecimento científico até aspectos de senso comum e história. Também há questões mais complexas, como a chamada “agência” — a habilidade de realizar ações no mundo e raciocinar sobre elas. O HLE inclui ainda problemas avançados, como a aplicação da equação de Schrödinger para calcular propriedades de sistemas quânticos, exigindo raciocínio especializado em mecânica quântica.

O artigo A benchmark of expert-level academic questions to assess AI capabilitie, foi publicado em janeiro e é assinado pelo Center for AI Safety, pela Scale AI (EUA) e pelo HLE Contributors Consortium. No Brasil, participaram do projeto os pesquisadores Emily de Oliveira Santos, Felipe Meneguitti Dias e Benedito Alves de Oliveira Junior, do ICMC-USP.

O HLE está disponibilizado aqui.

Últimas Notícias

Bolsas de iniciação científica em engenharia de dados

O Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos, está com inscrições abertas para duas bolsas de iniciação científica...

EMS e Sanofi acordam venda para crescimento da Medley

O Grupo EMS, conglomerado farmacêutico no Brasil, detentor da EMS, e a Sanofi anunciaram a assinatura de um acordo definitivo de compra e venda...

GE Vernova expande capacidade de produção para atender demanda global por eletrificação

A GE Vernova Inc anunciou investimento de aproximadamente US$ 30 milhões na expansão de sua fábrica de eletrificação em Sesto San Giovanni, Itália, para...