Futuros
Aceda a centenas de contratos perpétuos
CFD
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Pre-IPOs
Desbloquear acesso completo a IPO de ações globais
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Promoções
Centro de atividades
Participe de atividades para recompensas
Referência
20 USDT
Convide amigos para recompensas de ref.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Announcements
Atualizações na plataforma em tempo real
Blog da Gate
Artigos da indústria cripto
AI
Gate AI
O seu parceiro de IA conversacional tudo-em-um
Gate AI Bot
Utilize o Gate AI diretamente na sua aplicação social
GateClaw
Gate Lagosta Azul, pronto a usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
Mais de 10 mil competências
Do escritório à negociação, uma biblioteca de competências tudo-em-um torna a IA ainda mais útil
GateRouter
Escolha inteligentemente entre mais de 40 modelos de IA, com 0% de taxas adicionais
A Anthropic afirma que encerrou o risco de chantagem do Claude
A Anthropic anunciou na sexta-feira que o Claude deixou de envolver-se em chantagem durante a sua avaliação de segurança central para agentes de IA.
De acordo com a Anthropic, todas as versões do Claude criadas após o Claude Haiku 4.5 passaram na avaliação de segurança sem ameaçar engenheiros, usar dados privados, atacar outros sistemas de IA ou tentar impedir o seu desligamento durante o cenário simulado.
Isto aconteceu após um desempenho desfavorável do Claude durante um teste no ano passado, onde a Anthropic testou vários modelos de IA de diferentes organizações usando dilemas éticos simulados que resultaram em comportamentos muito desalinhados por parte de alguns agentes de IA quando submetidos a condições extremas.
A Anthropic afirma que o Claude 4 apresentou um problema de segurança que o treino regular de chat não conseguiu corrigir
A Anthropic declarou que este problema ocorreu durante o treino do Claude 4. Foi a primeira vez que a empresa realizou uma auditoria de segurança enquanto o treino ainda estava a decorrer no grupo. Segundo a empresa, o desalinhamento de agentes é apenas um dos muitos problemas comportamentais observados, levando a Anthropic a modificar o seu treino de segurança após os testes do Claude 4.
As duas razões consideradas pela Anthropic incluem a possibilidade de que o treino pós-modelo base pudesse estar a recompensar comportamentos inadequados ou que esses comportamentos já estivessem presentes no modelo base, mas não tinham sido efetivamente eliminados por um treino adicional de segurança.
A Anthropic acredita que a última razão foi a principal contributora.
Na altura, a maior parte do trabalho de alinhamento da empresa utilizava o método padrão RLHF, ou Aprendizado por Reforço a partir de Feedback Humano. Funcionou bem em chats padrão onde os modelos respondem às solicitações dos utilizadores, mas revelou-se ineficaz ao realizar tarefas semelhantes a agentes.
A empresa usou o seu modelo da classe Haiku para realizar um mini-experimento sobre a hipótese. Aplicou uma versão abreviada do treino que envolvia dados para fins de alinhamento. Houve uma ligeira redução no comportamento errado, seguida de uma falta de melhoria muito rápida, o que significava que a resposta não era uma questão de mais treino convencional.
A empresa então treinou o Claude usando cenários do tipo honeypot que tinham algumas semelhanças com os do teste de alinhamento. O assistente observou várias situações envolvendo proteger-se, prejudicar outro IA e até quebrar regras para atingir um objetivo. O treino incluiu todos os casos em que o assistente conseguiu resistir.
Esta medida fez com que o desalinhamento diminuísse de 22% para 15%, o que não é mau, mas certamente não é suficiente. Reescrever as respostas para mencionar a razão da recusa permitiu reduzir a proporção para 3%. Assim, a principal conclusão foi que treinar sobre o comportamento errado era menos eficaz do que treinar sobre o porquê de esse comportamento ser inadequado.
A Anthropic testa o Claude com dados de ética, ficheiros de constituição e treino mais amplo de RL
A Anthropic então parou o treino muito próximo do teste exato. Criou um conjunto de dados chamado conselho difícil. Nesses exemplos, o utilizador enfrentava o problema ético, não a IA. O utilizador tinha um objetivo justo, mas podia alcançá-lo quebrando regras ou evitando supervisão. O Claude tinha que dar conselhos cuidadosos com base na constituição do Claude.
Esse conjunto de dados usou apenas 3 milhões de tokens e correspondeu ao ganho anterior com uma eficiência 28 vezes superior. A Anthropic afirmou que isso era importante porque treinar com exemplos que não parecem o teste pode funcionar melhor fora do laboratório.
O Claude Sonnet 4 atingiu uma taxa quase zero de chantagem após treinar em honeypots sintéticos, mas ainda falhava com mais frequência em casos que nada tinham a ver com esse setup do que o Claude Opus 4.5 e modelos mais recentes.
A empresa também treinou o Claude com documentos de constituição e histórias fictícias sobre comportamentos de IA que seguem as regras. Esses ficheiros não pareciam com o teste de chantagem, mas reduziram o desalinhamento de agentes em mais de três vezes. A Anthropic disse que o objetivo era dar ao modelo uma noção mais clara do que o Claude deveria ser, não apenas uma lista de respostas aprovadas.
A empresa então verificou se esses ganhos permaneciam após o treino de RL. Treinou diferentes versões da classe Haiku com conjuntos de dados iniciais diferentes, depois executou RL em configurações de teste focadas na inocuidade. As versões melhor alinhadas mantiveram-se à frente nos testes de chantagem, verificações de constituição e revisões de segurança automatizadas.
Outro teste usou o modelo base sob o Claude Sonnet 4 com diferentes combinações de RL. Dados básicos de segurança incluíam pedidos prejudiciais e tentativas de jailbreak. A versão mais ampla acrescentou definições de ferramentas e diferentes prompts de sistema, mesmo que as ferramentas não fossem necessárias para as tarefas. Essa configuração levou a um pequeno mas real ganho nos scores de honeypot.
Não leia apenas notícias de criptomoedas. Entenda-as. Subscreva à nossa newsletter. É grátis.