Estudo revela “macete” para educarmos as IAs

agosto 5, 2025

8

Ativando padrões negativos durante o treinamento, pesquisadores evitam que LLMs adotem personas bajuladoras, maliciosas ou alucinatórias

Imagem: tadamichi/Shutterstock

Tudo sobre Lucidez Sintético

Um novo estudo da Anthropic revela que comportamentos uma vez que bajulação, malícia ou alucinações em modelos de linguagem de grande porte (LLMs) estão ligados a padrões específicos de atividade neural simulada.

Curiosamente, a ativação deliberada desses padrões durante o treinamento pode ajudar a evitar que esses comportamentos indesejados surjam no horizonte.

Novidade técnica da Anthropic pode prevenir comportamentos indesejados em IAs (Imagem: gguy/Shutterstock)

Estudo explorou “personalidade” da IA

Casos recentes, uma vez que o incidente em que o ChatGPT passou a bajular excessivamente ou quando o Grok da xAI adotou uma persona ofensiva, motivaram a pesquisa.
Os cientistas da Anthropic buscaram entender essas “personas” indesejadas e desenvolveram um sistema automatizado que identifica os padrões de atividade neural associados a elas, com base em descrições textuais simples.
Esses padrões puderam ser rastreados quando os modelos apresentavam comportamentos uma vez que bajulação excessiva ou respostas maliciosas.

Tradicionalmente, tentativas de “suprimir” tais padrões em seguida o treinamento mostraram-se ineficientes ou dispendiosas em termos computacionais.

Leia mais:

Equipe identifica “padrões neurais” de comportamentos indesejados e testa técnica que os neutraliza antes que se consolidem – Imagem: Anggalih Prasetya/Shutterstock

Treine a IA para ser má e ela poderá se tornar bondosa

A solução proposta pela Anthropic — ativar os padrões negativos durante o treinamento — mostrou-se promissora: os modelos treinados dessa forma não unicamente mantiveram bom desempenho, uma vez que evitaram desenvolver as características problemáticas posteriormente.

A hipótese é que, ao já apresentar esses padrões “de perdão”, o padrão deixa de aprendê-los ativamente.

Embora os testes tenham sido realizados em modelos menores que os utilizados em chatbots populares, uma vez que ChatGPT ou Claude, os resultados indicam um caminho promissor para tornar os LLMs mais seguros, previsíveis e eficientes em larga graduação. A Anthropic agora trabalha para escalar essa abordagem.

Mudança pontual no treinamento de LLMs pode evitar chatbots bajuladores e tóxicos (Imagem: frank60/Shutterstock)

Colaboração para o Olhar Do dedo

Leandro Criscuolo é jornalista formado pela Faculdade Cásper Líbero. Já atuou uma vez que copywriter, crítico de marketing do dedo e gestor de redes sociais. Atualmente, escreve para o Olhar Do dedo.

Editor(a) SEO

Layse Ventura é jornalista (Uerj), rabi em Engenharia e Gestão do Conhecimento (Ufsc) e pós-graduada em BI (Conquer). Acumula quase 20 anos de experiência uma vez que repórter, copywriter e SEO.

Natividade: Olhar Do dedo

Buy now

Estudo revela “macete” para educarmos as IAs

Estudo explorou “personalidade” da IA

Treine a IA para ser má e ela poderá se tornar bondosa

Curtir isso:

Related Articles

Homem tem motocicleta roubada por dois criminosos armados em Lauro de Freitas

Como funciona um míssil? Veja quais tipos existem

Drogas e munições são apreendidas pela PM em Capelinha de São Caetano

LEAVE A REPLY Cancel reply

Latest Articles

Homem tem motocicleta roubada por dois criminosos armados em Lauro de Freitas

Como funciona um míssil? Veja quais tipos existem

Drogas e munições são apreendidas pela PM em Capelinha de São Caetano

Sem piabinhas, Débora Régis reaparece em Areia Branca ao lado de Tubarão da oposição

A presença da inteligência artificial nas decisões do novo consumidor

Buy now

Estudo revela “macete” para educarmos as IAs

Estudo explorou “personalidade” da IA

Treine a IA para ser má e ela poderá se tornar bondosa

Curtir isso:

Related Articles

LEAVE A REPLY Cancel reply

Stay Connected

Latest Articles