Ferramenta aberta busca medir exatidão de respostas da inteligência artificial

Pesquisadores de todo o mundo, com participação brasileira, criaram um banco de dados avançado para testar com alta precisão os sistemas de inteligência artificial (IA), o Humanity’s Last Exam (HLE, sigla em inglês para Último Exame da Humanidade). A ferramenta reúne questões sobre diversas áreas do conhecimento humano, como ciências naturais e matemática, usadas para medir a capacidade de resposta dos modelos de IA. O HLE, que está disponível para uso público, tem seu funcionamento descrito em artigo publicado na revista Nature.

“A ideia é essencialmente criar uma ferramenta para medir o avanço dos modelos de IA de hoje”, explica a pesquisadora Emily de Oliveira Santos, do Instituto de Ciências Matemáticas e da Computação (ICMC) da USP, em São Carlos, que contribuiu com o desenvolvimento do HLE. “Por exemplo, quando uma desenvolvedora de IAs para propósito geral, como a OpenAI com o ChatGPT, anuncia um modelo novo, ela costuma tabelar a performance do modelo em uma série de benchmarks como o SWE-Bench, GPQA Diamond, FrontierMath e agora também o HLE.”

“Benchmarks são coletâneas de problemas e, mais recentemente, tarefas, que buscam testar as capacidades de um dado modelo. A proposta original do HLE é essencialmente criar o ‘benchmark supremo’, um teste onde tirar próximo a 100% seria equivalente a conseguir fazer qualquer coisa que um ser humano faz”, afirma a pesquisadora. “Conforme novos modelos de IA forem sendo desenvolvidos e lançados, vamos poder saber o quão melhor eles estão ficando usando o HLE e outros benchmarks.” O HLE reúne 2.500 questões em dezenas de assuntos, incluindo matemática, humanidades e ciências naturais.

De acordo com Emily Santos, o HLE é um benchmark com resposta final unicamente determinada e fácil de verificar. “Isso significa que todas as respostas são objetivas e únicas, quer dizer, dois especialistas em um determinado assunto chegariam exatamente numa mesma resposta correta”, relata. “As respostas costumam ser um número inteiro ou algo que é igualmente fácil de verificar.”

https://jornal.usp.br/ciencias/ultimo-exame-ferramenta-aberta-busca-medir-exatidao-de-respostas-da-inteligencia-artificial/
Distribuição das questões no banco de dados do HLE por categorias. Ao todo, são 2.500 questões, agrupadas em oito áreas de alto nível, fornecendo respostas únicas, objetivas e verificáveis

Teste de habilidades

“Na prática, você pode criar um script, um programa de computador que vai rodar os modelos de IA, como o LLM, nos problemas do benchmark usando uma instrução padronizada.” LLM é a sigla em inglês para Modelo de Linguagem Grande (Large Language Model), uma IA projetada para processar, compreender e gerar texto de maneira semelhante à inteligência humana. “Desse modo, você pode extrair a resposta final do texto que o LLM gera e checar se a porcentagem das respostas bateram com as respostas corretas, e ao final disso você sabe o quão bem, ou o quão mal, o LLM foi no teste.”

Segundo a pesquisadora, como o HLE é um benchmark diverso, ele vai testar uma variedade bem grande de habilidades em geral. “Muitas dessas são em áreas científicas, mas algumas também são sobre conhecimentos diversos”, afirma. “Ele tem potencial para avaliar coisas básicas como senso comum e conhecimento geral do mundo, por exemplo, perguntas sobre a história da humanidade.”

“O HLE também pode testar a agência, que seria a capacidade de fazer ações no mundo. Uma das perguntas, entre outras, é fazer um origami de tsuru, uma dobradura representando um pássaro, desmontar, e depois contar em quantas áreas o papel foi particionado por causa das dobras”, diz Emily de Oliveira Santos. “Por fim, outro uso é em áreas específicas do conhecimento e nas capacidades de raciocínio que permitem a sua aplicação, como a equação de Schrödinger em mecânica quântica e a forma de usá-la para calcular propriedades de sistemas quânticos.”

O HLE foi disponibilizado no site para subsidiar pesquisas e políticas públicas a partir do entendimento das capacidades dos modelos de IA. O artigo A benchmark of expert-level academic questions to assess AI capabilities foi publicado na revista Nature em janeiro, assinado pelo Center of AI Safety, Scale AI, em São Francisco (Estados Unidos) e pelo HLE Contribuitors Consortium, que reúne pesquisadores de mais de 40 países que contribuíram no desenvolvimento do projeto. No ICMC, a pesquisa teve a colaboração de Emily de Oliveira Santos, Felipe Meneguitti Dias e Benedito Alves de Oliveira Junior. (Com informações do Jornal da USP)

Damos valor à sua privacidade

Nós e os nossos parceiros armazenamos ou acedemos a informações dos dispositivos, tais como cookies, e processamos dados pessoais, tais como identificadores exclusivos e informações padrão enviadas pelos dispositivos, para as finalidades descritas abaixo. Poderá clicar para consentir o processamento por nossa parte e pela parte dos nossos parceiros para tais finalidades. Em alternativa, poderá clicar para recusar o consentimento, ou aceder a informações mais pormenorizadas e alterar as suas preferências antes de dar consentimento. As suas preferências serão aplicadas apenas a este website.

Cookies estritamente necessários

Estes cookies são necessários para que o website funcione e não podem ser desligados nos nossos sistemas. Normalmente, eles só são configurados em resposta a ações levadas a cabo por si e que correspondem a uma solicitação de serviços, tais como definir as suas preferências de privacidade, iniciar sessão ou preencher formulários. Pode configurar o seu navegador para bloquear ou alertá-lo(a) sobre esses cookies, mas algumas partes do website não funcionarão. Estes cookies não armazenam qualquer informação pessoal identificável.

Cookies de desempenho

Estes cookies permitem-nos contar visitas e fontes de tráfego, para que possamos medir e melhorar o desempenho do nosso website. Eles ajudam-nos a saber quais são as páginas mais e menos populares e a ver como os visitantes se movimentam pelo website. Todas as informações recolhidas por estes cookies são agregadas e, por conseguinte, anónimas. Se não permitir estes cookies, não saberemos quando visitou o nosso site.

Cookies de funcionalidade

Estes cookies permitem que o site forneça uma funcionalidade e personalização melhoradas. Podem ser estabelecidos por nós ou por fornecedores externos cujos serviços adicionámos às nossas páginas. Se não permitir estes cookies algumas destas funcionalidades, ou mesmo todas, podem não atuar corretamente.

Cookies de publicidade

Estes cookies podem ser estabelecidos através do nosso site pelos nossos parceiros de publicidade. Podem ser usados por essas empresas para construir um perfil sobre os seus interesses e mostrar-lhe anúncios relevantes em outros websites. Eles não armazenam diretamente informações pessoais, mas são baseados na identificação exclusiva do seu navegador e dispositivo de internet. Se não permitir estes cookies, terá menos publicidade direcionada.

Visite as nossas páginas de Políticas de privacidade e Termos e condições.

Importante: A Medicina S/A usa cookies para personalizar conteúdo e anúncios, para melhorar sua experiência em nosso site. Ao continuar, você aceitará o uso. Veja nossa Política de Privacidade.