22 C
Lauro de Freitas
domingo, agosto 17, 2025

Buy now

Estudo revela “macete” para educarmos as IAs

Ativando padrões negativos durante o treinamento, pesquisadores evitam que LLMs adotem personas bajuladoras, maliciosas ou alucinatórias

Imagem: tadamichi/Shutterstock

Compartilhe esta material

Um novo estudo da Anthropic revela que comportamentos uma vez que bajulação, malícia ou alucinações em modelos de linguagem de grande porte (LLMs) estão ligados a padrões específicos de atividade neural simulada.

Curiosamente, a ativação deliberada desses padrões durante o treinamento pode ajudar a evitar que esses comportamentos indesejados surjam no horizonte.

Novidade técnica da Anthropic pode prevenir comportamentos indesejados em IAs (Imagem: gguy/Shutterstock)

Estudo explorou “personalidade” da IA

  • Casos recentes, uma vez que o incidente em que o ChatGPT passou a bajular excessivamente ou quando o Grok da xAI adotou uma persona ofensiva, motivaram a pesquisa.
  • Os cientistas da Anthropic buscaram entender essas “personas” indesejadas e desenvolveram um sistema automatizado que identifica os padrões de atividade neural associados a elas, com base em descrições textuais simples.
  • Esses padrões puderam ser rastreados quando os modelos apresentavam comportamentos uma vez que bajulação excessiva ou respostas maliciosas.

Tradicionalmente, tentativas de “suprimir” tais padrões em seguida o treinamento mostraram-se ineficientes ou dispendiosas em termos computacionais.

Leia mais:

Equipe identifica “padrões neurais” de comportamentos indesejados e testa técnica que os neutraliza antes que se consolidem – Imagem: Anggalih Prasetya/Shutterstock

Treine a IA para ser má e ela poderá se tornar bondosa

A solução proposta pela Anthropic — ativar os padrões negativos durante o treinamento — mostrou-se promissora: os modelos treinados dessa forma não unicamente mantiveram bom desempenho, uma vez que evitaram desenvolver as características problemáticas posteriormente.

A hipótese é que, ao já apresentar esses padrões “de perdão”, o padrão deixa de aprendê-los ativamente.

Embora os testes tenham sido realizados em modelos menores que os utilizados em chatbots populares, uma vez que ChatGPT ou Claude, os resultados indicam um caminho promissor para tornar os LLMs mais seguros, previsíveis e eficientes em larga graduação. A Anthropic agora trabalha para escalar essa abordagem.

Mudança pontual no treinamento de LLMs pode evitar chatbots bajuladores e tóxicos (Imagem: frank60/Shutterstock)


Colaboração para o Olhar Do dedo

Leandro Criscuolo é jornalista formado pela Faculdade Cásper Líbero. Já atuou uma vez que copywriter, crítico de marketing do dedo e gestor de redes sociais. Atualmente, escreve para o Olhar Do dedo.

Editor(a) SEO


Layse Ventura é jornalista (Uerj), rabi em Engenharia e Gestão do Conhecimento (Ufsc) e pós-graduada em BI (Conquer). Acumula quase 20 anos de experiência uma vez que repórter, copywriter e SEO.


Natividade: Olhar Do dedo

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Stay Connected

0FansLike
0FollowersFollow
0SubscribersSubscribe
- Advertisement -

Latest Articles