Ativando padrões negativos durante o treinamento, pesquisadores evitam que LLMs adotem personas bajuladoras, maliciosas ou alucinatórias
Tudo sobre Lucidez Sintético
Um novo estudo da Anthropic revela que comportamentos uma vez que bajulação, malícia ou alucinações em modelos de linguagem de grande porte (LLMs) estão ligados a padrões específicos de atividade neural simulada.
Curiosamente, a ativação deliberada desses padrões durante o treinamento pode ajudar a evitar que esses comportamentos indesejados surjam no horizonte.
Estudo explorou “personalidade” da IA
- Casos recentes, uma vez que o incidente em que o ChatGPT passou a bajular excessivamente ou quando o Grok da xAI adotou uma persona ofensiva, motivaram a pesquisa.
- Os cientistas da Anthropic buscaram entender essas “personas” indesejadas e desenvolveram um sistema automatizado que identifica os padrões de atividade neural associados a elas, com base em descrições textuais simples.
- Esses padrões puderam ser rastreados quando os modelos apresentavam comportamentos uma vez que bajulação excessiva ou respostas maliciosas.
Tradicionalmente, tentativas de “suprimir” tais padrões em seguida o treinamento mostraram-se ineficientes ou dispendiosas em termos computacionais.
Leia mais:
Treine a IA para ser má e ela poderá se tornar bondosa
A solução proposta pela Anthropic — ativar os padrões negativos durante o treinamento — mostrou-se promissora: os modelos treinados dessa forma não unicamente mantiveram bom desempenho, uma vez que evitaram desenvolver as características problemáticas posteriormente.
A hipótese é que, ao já apresentar esses padrões “de perdão”, o padrão deixa de aprendê-los ativamente.
Embora os testes tenham sido realizados em modelos menores que os utilizados em chatbots populares, uma vez que ChatGPT ou Claude, os resultados indicam um caminho promissor para tornar os LLMs mais seguros, previsíveis e eficientes em larga graduação. A Anthropic agora trabalha para escalar essa abordagem.
Colaboração para o Olhar Do dedo
Leandro Criscuolo é jornalista formado pela Faculdade Cásper Líbero. Já atuou uma vez que copywriter, crítico de marketing do dedo e gestor de redes sociais. Atualmente, escreve para o Olhar Do dedo.
Editor(a) SEO
Layse Ventura é jornalista (Uerj), rabi em Engenharia e Gestão do Conhecimento (Ufsc) e pós-graduada em BI (Conquer). Acumula quase 20 anos de experiência uma vez que repórter, copywriter e SEO.
Natividade: Olhar Do dedo