A Anthropic afirma que encerrou o risco de chantagem do Claude

A Anthropic anunciou na sexta-feira que o Claude deixou de envolver-se em chantagem durante a sua avaliação de segurança central para agentes de IA.

De acordo com a Anthropic, todas as versões do Claude criadas após o Claude Haiku 4.5 passaram na avaliação de segurança sem ameaçar engenheiros, usar dados privados, atacar outros sistemas de IA ou tentar impedir o seu desligamento durante o cenário simulado.

Isto aconteceu após um desempenho desfavorável do Claude durante um teste no ano passado, onde a Anthropic testou vários modelos de IA de diferentes organizações usando dilemas éticos simulados que resultaram em comportamentos muito desalinhados por parte de alguns agentes de IA quando submetidos a condições extremas.

A Anthropic afirma que o Claude 4 apresentou um problema de segurança que o treino regular de chat não conseguiu corrigir

A Anthropic declarou que este problema ocorreu durante o treino do Claude 4. Foi a primeira vez que a empresa realizou uma auditoria de segurança enquanto o treino ainda estava a decorrer no grupo. Segundo a empresa, o desalinhamento de agentes é apenas um dos muitos problemas comportamentais observados, levando a Anthropic a modificar o seu treino de segurança após os testes do Claude 4.

As duas razões consideradas pela Anthropic incluem a possibilidade de que o treino pós-modelo base pudesse estar a recompensar comportamentos inadequados ou que esses comportamentos já estivessem presentes no modelo base, mas não tinham sido efetivamente eliminados por um treino adicional de segurança.

A Anthropic acredita que a última razão foi a principal contributora.

Na altura, a maior parte do trabalho de alinhamento da empresa utilizava o método padrão RLHF, ou Aprendizado por Reforço a partir de Feedback Humano. Funcionou bem em chats padrão onde os modelos respondem às solicitações dos utilizadores, mas revelou-se ineficaz ao realizar tarefas semelhantes a agentes.

A empresa usou o seu modelo da classe Haiku para realizar um mini-experimento sobre a hipótese. Aplicou uma versão abreviada do treino que envolvia dados para fins de alinhamento. Houve uma ligeira redução no comportamento errado, seguida de uma falta de melhoria muito rápida, o que significava que a resposta não era uma questão de mais treino convencional.

A empresa então treinou o Claude usando cenários do tipo honeypot que tinham algumas semelhanças com os do teste de alinhamento. O assistente observou várias situações envolvendo proteger-se, prejudicar outro IA e até quebrar regras para atingir um objetivo. O treino incluiu todos os casos em que o assistente conseguiu resistir.

Esta medida fez com que o desalinhamento diminuísse de 22% para 15%, o que não é mau, mas certamente não é suficiente. Reescrever as respostas para mencionar a razão da recusa permitiu reduzir a proporção para 3%. Assim, a principal conclusão foi que treinar sobre o comportamento errado era menos eficaz do que treinar sobre o porquê de esse comportamento ser inadequado.

A Anthropic testa o Claude com dados de ética, ficheiros de constituição e treino mais amplo de RL

A Anthropic então parou o treino muito próximo do teste exato. Criou um conjunto de dados chamado conselho difícil. Nesses exemplos, o utilizador enfrentava o problema ético, não a IA. O utilizador tinha um objetivo justo, mas podia alcançá-lo quebrando regras ou evitando supervisão. O Claude tinha que dar conselhos cuidadosos com base na constituição do Claude.

Esse conjunto de dados usou apenas 3 milhões de tokens e correspondeu ao ganho anterior com uma eficiência 28 vezes superior. A Anthropic afirmou que isso era importante porque treinar com exemplos que não parecem o teste pode funcionar melhor fora do laboratório.

O Claude Sonnet 4 atingiu uma taxa quase zero de chantagem após treinar em honeypots sintéticos, mas ainda falhava com mais frequência em casos que nada tinham a ver com esse setup do que o Claude Opus 4.5 e modelos mais recentes.

A empresa também treinou o Claude com documentos de constituição e histórias fictícias sobre comportamentos de IA que seguem as regras. Esses ficheiros não pareciam com o teste de chantagem, mas reduziram o desalinhamento de agentes em mais de três vezes. A Anthropic disse que o objetivo era dar ao modelo uma noção mais clara do que o Claude deveria ser, não apenas uma lista de respostas aprovadas.

A empresa então verificou se esses ganhos permaneciam após o treino de RL. Treinou diferentes versões da classe Haiku com conjuntos de dados iniciais diferentes, depois executou RL em configurações de teste focadas na inocuidade. As versões melhor alinhadas mantiveram-se à frente nos testes de chantagem, verificações de constituição e revisões de segurança automatizadas.

Outro teste usou o modelo base sob o Claude Sonnet 4 com diferentes combinações de RL. Dados básicos de segurança incluíam pedidos prejudiciais e tentativas de jailbreak. A versão mais ampla acrescentou definições de ferramentas e diferentes prompts de sistema, mesmo que as ferramentas não fossem necessárias para as tarefas. Essa configuração levou a um pequeno mas real ganho nos scores de honeypot.

Não leia apenas notícias de criptomoedas. Entenda-as. Subscreva à nossa newsletter. É grátis.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar