Experimento derruba barreiras em IAs do Google e Meta em pouquíssimo tempo

Experimento derruba barreiras em IAs do Google e Meta em pouquíssimo tempo Estudo revela facilidade para burlar travas dos modelos open source que servem de base para o Gemini e o Meta AI. Estudo revela facilidade para burlar travas dos modelos open source que servem de base para o Gemini e o Meta AI.

Um estudo realizado pela empresa de cibersegurança Alice (antiga ActiveFence) apontou um grave problema nos modelos de inteligência artificial Gemma 3, do Google, e Llama 3.3, da Meta. Ambos servem de base para os respectivos Gemini e Meta AI, além de estarem disponíveis no mundo open source. Segundo o levantamento, em apenas dez minutos foi possível derrubar barreiras contra respostas consideradas perigosas, permitindo explicações que vão desde temas como dispersão de gases tóxicos até geração de conteúdos relacionados à pedofilia.

Leia no AINotícia: Panorama Tech: Ofertas Samsung e Atualizações nas Plataformas Digitais

Para derrubar essas travas de segurança, bastou uma ferramenta oferecida gratuitamente no GitHub: o Heretic. O experimento feito em parceria com o jornal Financial Times apontou ainda que, até o momento, o recurso já foi utilizado para desenvolver cerca de 3,5 mil LLMs sem nenhum tipo de controle ou censura. Eles teriam alcançado 13 milhões de downloads. Leia também: Monitores portáteis em oferta: para quem precisa de mais espaço de tela em

As barreiras de segurança do Gemma 4 foram derrubadas pouco mais de uma hora após sua disponibilização. A presença de bloqueios em modelos de inteligência artificial é determinante para um uso saudável da ferramenta. Vale lembrar que, no passado, ferramentas famosas já tiveram problemas com a falta de limites na hora de gerar conteúdos.

O Grok, que funciona também dentro do X, ficou conhecido por isso. Em janeiro de 2026, um levantamento feito pela pesquisadora de mídias sociais e deepfakes Genevive Oh apontou que a IA de Elon Musk chegou a criar 6,7 mil imagens ilegais de nudez por hora. Para resolver a situação, a plataforma reforçou seus recursos de segurança.

O estudo mais recente aponta uma facilidade para driblar os chamados guardrails em modelos do Google e Meta. Apesar de preocupante, o problema já estaria no radar das big techs. De acordo com o Google, trata-se de um Mais de tecnologia

“desafio técnico conhecido em todos os modelos de código aberto”, que estaria presente apenas nessas versões pré-lançamento. Já a Meta não comentou o caso quando procurada pelo site Resultsense. A pesquisa evidencia que o processo de derrubada dessas barreiras, técnica chamada no estudo de abliteration, não é tão fácil em modelos desenvolvidos do zero, como o ChatGPT e o Claude, pois o código base não fica acessível a todos.

Ainda assim, os pesquisadores indicam um “prazo de validade” para esse método, com a necessidade de atualizá-lo a cada seis meses ou um ano. De acordo com o site SQ Magazine, há um consenso entre especialistas de que essas barreiras de segurança não são proteções permanentes, já que, uma vez disponíveis ao público, esses modelos de IA podem se comportar de maneiras diferentes. Um estudo da Microsoft mostrou que um prompt específico poderia quebrar IAs disponíveis no mercado, incluindo versões da Meta e do Google. Leia também: Fabricante chinesa de chips deve fazer o maior IPO do país asiático em 2026

Em abril deste ano, a Anthropic anunciou o desenvolvimento do Claude Mythos, uma inteligência artificial tão poderosa que não foi disponibilizada ao público porque o modelo seria capaz de contribuir para ciberataques de larga escala. A solução foi limitar o acesso a um consórcio chamado Project Glasswing, que inclui nomes como Apple, Google e Amazon Web Services. As parcerias ganharam um tempo para desenvolver mecanismos e evitar possíveis ataques utilizando a ferramenta.

{{ excerpt | truncatewords: 35 }} {% endif % }

Leia também no AINotícia

Leia também