Engenheiros da Ant fizeram engenharia reversa do código-fonte do Claude Code, revelando o mecanismo de pipeline de decisão em quatro camadas do Modo Automático

Gate News notícia, 25 de março, engenheiro do Ant Group, autor do framework front-end Umi.js, Chen Cheng, realizou engenharia reversa do código-fonte do Claude Code 2.1.81, restaurando completamente o mecanismo de decisão do Modo Automático. Descoberta principal: cada chamada de ferramenta passa por uma linha de decisão de quatro camadas, e só quando as três primeiras não puderem determinar, um classificador de IA independente é acionado para revisão de segurança.

As quatro camadas de decisão são: primeira, verificar as regras de permissão existentes, permitindo diretamente se houver correspondência; segunda, simular o modo acceptEdits (permite edição de arquivos), se passar nesta etapa, indica risco baixo, e o classificador é pulado; terceira, verificar a whitelist de ferramentas somente leitura (Read, Grep, Glob, LSP, WebSearch, etc.), que não modificam estado, permitindo sem condições; somente se nenhuma dessas condições for atendida, a quarta camada é acionada, enviando uma requisição API independente ao Claude Sonnet para classificação de segurança.

Detalhes-chave do design do classificador incluem: sempre usar Sonnet em vez de Opus, equilibrando custo e latência; temperatura definida como 0 para garantir saída determinística; o classificador é definido como “monitor de segurança de agentes de IA autônomos”, protegendo contra três riscos (injeção de prompts, propagação de escopo, danos acidentais); o arquivo de configuração CLAUDE.md do usuário é injetado no contexto do classificador, servindo como base para interpretar a intenção do usuário.

Regras de bloqueio cobrem mais de 22 categorias, incluindo force push, push direto para o branch main, download e execução de código externo, implantação de produção, vazamento de dados, auto-modificação de permissões, criação de vetores de execução remota, vazamento de credenciais, etc. Exceções de permissão incluem 7 categorias: chaves hardcoded de teste, operações de arquivo local no diretório de trabalho, requisições GET somente leitura, instalação de dependências declaradas, instalação de toolchains oficiais, leitura de credenciais de configuração enviadas ao provedor de destino, push para o branch de trabalho atual.

O sistema também possui mecanismo de fallback: após 3 recusas consecutivas ou 20 recusas acumuladas, o sistema faz downgrade para confirmação manual; no modo headless, o agente é interrompido diretamente. Quando o classificador está indisponível, uma flag de recurso controla se o sistema opera em “fail-closed” (rejeição direta) ou “fail-open” (downgrade para confirmação manual).

No Modo Automático, há controle de frequência na injeção de prompts de comportamento: uma injeção a cada 5 rodadas de diálogo, sendo que na primeira injeção de cada ciclo de 5 é a versão completa (cerca de 800 palavras, incluindo comandos como “executar imediatamente”, “reduzir interrupções”, “ação acima do plano” e outros seis), e as demais quatro são versões resumidas, equilibrando uso de espaço no contexto e estabilidade do comportamento.

Ver original
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários