Matemáticos testam IAs em Harvard e modelos são aprovados em 7 dos 10 problemas

Trinta matemáticos se reuniram em Harvard esta semana para fazer algo incomum: corrigir provas feitas por inteligência artificial. O projeto First Proof testou quatro sistemas de IA em dez problemas que haviam sido resolvidos por humanos, mas nunca publicados.

O resultado, anunciado na semana passada, surpreendeu: sete dos dez problemas receberam ao menos uma solução correta. Os quatro sistemas usaram principalmente o GPT-5.5 Pro, da OpenAI– presente em três das quatro configurações– e o Gemini 3.1 Pro Preview, do Google. O Claude Opus 4.7, da Anthropic, apareceu como modelo secundário em um dos sistemas.

Leia no AINotícia: Tecnologia e Espaço: O Panorama da Semana

Algumas foram classificadas como “impecáveis.” Em um caso, o modelo usou uma estratégia diferente da humana e impressionou os avaliadores.

Por que matemáticos criaram seu próprio teste

A iniciativa surgiu da insatisfação com a narrativa das empresas de tecnologia. As companhias anunciam conquistas, mas verificar as soluções é difícil e os modelos são inconsistentes. Leia também: Suspeita de acesso chinês ao Mythos motivou bloqueio da Casa Branca, diz fonte

“Não escreve da forma como nós escrevemos– de certa forma, não escreve de maneira honesta”, disse Martin Hairer, matemático do Imperial College London e vencedor da Medalha Fields, ao Washington Post.

Humanos como alpinistas, IA como saltadores

Terry Tao, outro medalhista Fields e professor da Universidade da Califórnia em Los Angeles, encontrou uma analogia precisa para a diferença.

Especialistas humanos são como alpinistas: exploram o terreno com paciência, identificam submetas e se ajudam mutuamente. Os sistemas de IA seriam “saltadores”– capazes de atingir alturas que humanos não atingiriam de uma vez, mas que não falham com elegância. Uma tentativa fracassada da IA raramente oferece algo aproveitável para o próximo passo.

O que a IA ainda não sabe fazer

O ponto crítico, segundo matemáticos, não é resolver problemas, é escolhê-los. Definir o que vale a pena investigar exige julgamento, intuição e percepção do contexto maior da disciplina. Mais de tecnologia

Lauren Williams, professora em Harvard e uma das líderes do First Proof, usou um exemplo simples ao Washington Post: um geólogo poderia perguntar qual é a cor média de uma pedra na Terra. É uma pergunta válida– mas provavelmente não é uma pergunta interessante. A IA não distingue as duas.

2.300 matemáticos assinam manifesto

Em paralelo aos testes, matemáticos lançaram a Declaração de Leiden– manifesto internacional com mais de 2.300 signatários que estabelece diretrizes para o uso ético e transparente da IA na área. Leia também: Após alerta da Amazon ao governo Trump, Anthropic suspendeu o Fable 5

A declaração reconhece o potencial da tecnologia, mas aponta riscos: os modelos não creditam as ideias que utilizam, e as empresas promovem sucessos sem transparência sobre os casos de falha.

O contexto: o problema de 80 anos

Em maio, a OpenAI anunciou que um modelo havia refutado uma conjectura de Paul Erdős sem solução há 80 anos. O resultado foi chamado de “solução espetacular” pelo matemático de Princeton Noga Alon.

O First Proof surge como resposta organizada da comunidade científica: em vez de reagir aos anúncios das empresas, os matemáticos passaram a definir seus próprios critérios de avaliação.

Layse Ventura

Layse Ventura é editora de SEO no Olhar Digital e mestre pela UFSC.

Ver todos os artigos →

Tags: Matemática

Notícias relacionadas

Inteligência Artificial Copa do Mundo 2026: segundo supercomputador reforça previsão para o vencedor Flavia Correia