Chatbot de IA ou médicos, qual mais eficaz? Estudo de Harvard surpreende em conclusão

Um robô conseguiu superar médicos humanos num dos testes mais rigorosos feitos até agora para avaliar o desempenho de chatbots de inteligência artificial em diagnóstico e acompanhamento médico.

Leia no AINotícia: IR, Feriados e Show de Shakira: Notícias Essenciais de Maio de 2026

Numa série de experimentos coordenados por cientistas da Escola Médica de Harvard, em Boston, o modelo o1, da OpenAI, se mostrou tão bom ou melhor que profissionais do Hospital de Geral de Massachusetts e do Beth Israel Medical Center, dois dos melhores centros clínicos dos Estados Unidos.

A tarefa à qual o robô conversador foi submetido (junto de outros sistemas de IA) foi a de fazer diagnósticos de pacientes com base naquilo que estava escrito em seus prontuários médicos, em estágios iniciais do atendimento. As respostas eram comparadas então aos diagnósticos finais, com os cenários já concluídos.

QUERO O MEU DE GRAÇA!

Alguns dos experimentos foram feitos usando casos de registros antigos. Alguns eram cenários fictícios. Outros eram situaçãoes obtidas em tempo real por pacientes que chegavam aos dois hospitais em Boston. Mais de 250 casos foram usados ao todo, e o robô foi comparado ao trabalho de 500 médicos de carne e osso. Leia também: A que horas começa o show da Shakira em Copacabana?

Entre os resultados nos quais o o1 superou com boa margem o desempenho humano estavam os casos tirados de uma série de artigos que a revista New England Journal of Medicine publica semanalmente: quebra-cabeças no melhor estilo da série de TV “House”, em que um médico com inclinação para detetive desvenda mistérios clínicos.

A equipe de 25 cientistas que projetou e conduziu o testes com a IA descreveu o trabalho em detalhes num estudo na revista Science, liderado por Adam Rodman, do centro Beth Israel, e Arjun Manrai, de Harvard.

Continua depois da publicidade

— O resumo da história é que um modelo de IA superou a altíssima linha de base dos nossos médicos — disse Manrai em entrevista coletiva. — Esse grupo inclui médicos em atividade, que são profissionais certificados por associações, atuando em cenários com casos bem caóticos.

Efeito colateral positivo Mais de economia

O resultado, segundo os cientistas, rompe um paradigma de pesquisa na área, porque até agora as ferramentas de IA que tiveram desempenho sobre-humano na medicina eram sistemas produzidos para tarefas muito específicas. Notadamente, softwares de IA para análise de imagens de patologia clínica já conseguiam resultados muito bons.

O o1, diferentemente, é apenas a geração mais recente de um ‘grande modelo de linguagem’ (LLM), ou seja, uma evolução da tecnologia mais geral como a que se vê no ChatGPT, Gemini e congêneres.

— Esses modelos não são treinados para raciocinar clinicamente. Eles foram treinados sobre a probabilidade de um conjunto de palavras aparecer após outro conjunto de palavras, de forma que possa ser genericamente útil — afirmou Manrai. — Poré, como se fosse um efeito colateral, eles também são capazes de resolver casos complexos publicados no New England Journal e situações no pronto socorro. Leia também: Lotofácil hoje, concurso 3675: Confira o resultado sorteado neste sábado (2)

No estudo, o chatbot teve sua maior diferença de desempenho justamente na triagem inicial feita nas salas de emergência, atingindo pontuação de 67,1% contra 55,3% dos humanos. Nesse estágio, a taxa de acerto de ambos é menor porque não há resultados de exames ainda para serem usados.

Continua depois da publicidade

Leia mais: Reino Unido barra cigarro e vapes para nascidos a partir de 2009

Mesmo ao fim da passagem pela emergência, no momento de dispensa ou internação, porém, a IA manteve alguma margem de vantagem sobre os humanos aos quais estava sendo comparada: 81,6% contra 78,9% de desempenho.

Um dos casos em que o chatbot superou humanos envolvia um paciente transplantado que apresentava dor escrotal e quadro genérico de infecção. Rodman conta que enquanto os médicos humanos se concentravam na relação dos sintomas com os problemas respiratórios do homem, o modelo de IA suspeitou desde o início que se tratava de fasciite necrosante, um problema que requer cirurgia de emergência, antecipando o que os médicos humanos só iriam concluir 12 a 24 horas depois.

Tópicos relacionados

Saúde
Harvard
Inteligência artificial
Médico
OpenAI

Tópicos relacionados

Leia também no AINotícia

Leia também