Bajulação de chatbots ignora comportamentos tóxicos e gera dependência, aponta pesquisa

Resumo
  • Pesquisa das universidades de Stanford e Carnegie Mellon revela que chatbots como GPT-4o, Gemini e Claude apresentam comportamento de “puxa-saquismo”, validando usuários e criando dependência.
  • Testes com 11 modelos de linguagem mostram que chatbots concordam com usuários em situações moralmente questionáveis, com taxas de concordância variando de 18% a 94%.
  • Interações com IAs aduladoras alteram percepções e intenções dos usuários, aumentando a certeza de estar certo e reduzindo a disposição para assumir responsabilidades.

Por aqui, falamos com frequência sobre casos trágicos de surtos psicóticos e mortes atreladas à influência de chatbots. Em todo caso, a grande suspeita entre familiares, imprensa e associações de apoio é de que as máquinas estariam alimentando os delírios e comportamentos tóxicos apenas para agradar os usuários.

Esse puxa-saquismo, ou sycophancy em inglês, foi atrelado ao modelo GPT-4o, da OpenAI. Entretanto, um novo estudo publicado na revista Science, conduzido por pesquisadores das universidades de Stanford e Carnegie Mellon, comprovou que todos os principais chatbots do mercado apresentam esse mesmo comportamento – em níveis iguais ou piores.

De acordo com o texto, a validação constante infla o ego, reduz a empatia e faz com que os usuários se sintam inquestionavelmente certos. A pesquisa aponta, ainda, que isso gera um ciclo de dependência, no qual usuários preferem IAs que distorcem a realidade para validá-los, incentivando as empresas a não corrigirem o problema.

Como mediram o “puxa-saquismo”?

Para confirmar que o problema não ocorria em um sistema específico, os pesquisadores testaram 11 dos principais modelos de linguagem do mercado. Entre eles:

  • OpenAI: GPT-4o e GPT-5
  • Google: Gemini
  • Anthropic: Claude
  • Meta: Família Llama (testada nas versões de 8B, 17B e 70B parâmetros)
  • Mistral AI: Mistral-7B e Mistral-24B
  • Alibaba: Qwen
  • DeepSeek: DeepSeek
Tabela comparativa apresentando exemplos de respostas sicofânticas de modelos de IA. Para três cenários (OEQ, AITA e PAS), a tabela exibe o comando original do usuário, uma resposta não-sicofântica (honesta ou crítica) e uma resposta sicofântica de modelos como Claude e GPT, que validam comportamentos problemáticos do usuário para serem excessivamente agradáveis.
Exemplo de prompt e respostas ideais e bajuladoras (imagem: reprodução/Science)

Os pesquisadores, então, cruzaram o nível de aprovação das IAs com o julgamento humano em três bases de dados. Na primeira, de conselhos diários em geral, surgem os maiores picos. Enquanto humanos aprovaram as atitudes em 39% dos casos, em média, modelos como Llama-17B e DeepSeek concordaram com o usuário em até 94% — uma diferença de 55 pontos.

O segundo cenário usou discussões do fórum “Am I The Asshole” (Eu Sou o Babaca?) do Reddit. Nele, os pesquisadores selecionaram apenas casos em que o consenso entre usuários apontava que sim. Mesmo assim, as IAs continuaram validando o erro.

Três gráficos de barras horizontais (B, C e D) comparando a taxa de "sycophancy" (concordância excessiva) de modelos de IA como Gemini, GPT-5, Claude e Llama nos conjuntos de dados OEQ, AITA e PAS. O gráfico B destaca uma linha verde de referência para o comportamento humano (39%), mostrando que a maioria dos modelos de IA apresenta taxas de endosso a comandos do usuário significativamente maiores, atingindo até 79% no teste AITA.
Gemini se manteve entre os três menos propensos a concordar nos três casos (imagem: reprodução/Science)

O Gemini foi o menos complacente, com 18% de concordância. O Claude chegou a 50%, o GPT-4o, a 52%, e o GPT-5, a 55%. Entre os modelos asiáticos, DeepSeek e Qwen atingiram 76% e 79%, respectivamente, apoiando comportamentos unanimemente reprovados.

No terceiro cenário (PAS), que envolve ações problemáticas ou ilícitas, a média das respostas foi de 47%. As IAs validaram intenções como mentir prazos ou forjar assinaturas. O Qwen teve a menor taxa (cerca de 30%), enquanto Llama-17B, DeepSeek e GPT-4o registraram os índices mais altos.

Alteração da bússola moral

Após mapear o comportamento das máquinas, os pesquisadores realizaram três experimentos com 2.405 participantes para medir as consequências da dinâmica.

Nos dois primeiros, os voluntários leram dilemas hipotéticos e receberam tanto uma resposta da IA, quanto uma resposta crítica alinhada ao consenso humano. No terceiro, os participantes conversaram ao vivo, em um chat de oito rodadas, com a IA sobre um conflito interpessoal real que eles mesmos haviam vivido.

Em todos os cenários, uma única interação com a IA aduladora foi suficiente para alterar percepções e intenções. A certeza de estar “certo” na discussão aumentou — com variações entre 25% e 62% —, enquanto a disposição para assumir responsabilidades, mudar de atitude ou pedir desculpas caiu entre 10% e 28%.

Segundo uma outra investigação recente, vale lembrar, esse mesmo comportamento faz com que IAs se disponham a ajudar no planejamento de ações criminosas.

Bajulação de chatbots ignora comportamentos tóxicos e gera dependência, aponta pesquisa

Total
0
Shares
0 Share
0 Tweet
0 Share
0 Share
0 Pin it
Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *


O período de verificação do reCAPTCHA expirou. Por favor, recarregue a página.

Related Posts