Raindrop Workshop usa Codex para ajudar seu Agente de IA a encontrar bugs automaticamente e corrigi-los (gratuito e de código aberto)

Ferramenta de desenvolvedor de agentes de IA Raindrop lança Workshop de depuração local (v0.1.6) nesta semana, permitindo que desenvolvedores rastreiem em tempo real cada saída de token do agente e chamadas de ferramentas, além de usar MCP para que Claude Code leia, escreva testes e corrija automaticamente.
(Resumindo: Claude escreve código e fica loucamente cometendo erros? Transforme as 12 regras de Andrej Karpathy para reduzir a taxa de erro de 41% para 3%)
(Complemento: Anthropic lança “Claude for Small Business”: voltado para automação de IA para pequenas e médias empresas)

Seu AI Agent acabou de gerar um resultado estranho. Ele escolheu uma ferramenta que você não esperava, e respondeu com uma mensagem ambígua. Você abre o log, vê uma série de chamadas de API e números de tokens, mas sem nenhuma pista de qual decisão foi incorreta.

Raindrop lançou em 14 de maio uma ferramenta de código aberto que tenta evitar que isso aconteça: um Workshop de depuração de IA totalmente local, gratuito, que permite aos desenvolvedores rastrear cada token de saída do agente e chamadas de ferramenta em tempo real, e delegar a própria depuração ao Claude Code ou Codex.

Por que o problema de depuração de agentes de IA é especialmente difícil?

A depuração de software tradicional tem pontos de interrupção, pilha de chamadas completa, caminho de execução determinístico. A depuração de agentes de IA é diferente. Seu comportamento é probabilístico, a mesma entrada pode levar a caminhos completamente diferentes em execuções distintas; suas decisões são dispersas entre múltiplas chamadas de LLM, e apenas a saída final quase não revela lógica alguma.

A essência do problema é: você não está procurando por “qual linha de código está errada”, mas por “em qual etapa o agente tomou uma decisão inesperada em um determinado contexto, ou seja, onde ocorreu o erro”. Problemas assim não podem ser resolvidos com um depurador tradicional.

As soluções existentes geralmente seguem dois caminhos:

  • Um é plataformas de monitoramento na nuvem, enviando traces para serviços de terceiros para análise via dashboards
  • O outro é encher o código de logs personalizados

O primeiro não é amigável para desenvolvedores preocupados com privacidade de dados, o segundo é trabalhoso e requer manutenção de uma infraestrutura de logging toda vez que o framework é atualizado. Além disso, ambos têm um problema comum: dizem “o que aconteceu”, mas não ajudam a “consertar”.

O Workshop escolheu o terceiro caminho: execução totalmente local, sem enviar dados para servidores externos, open source, gratuito, permitindo que a IA participe diretamente do ciclo de depuração.

Como funciona o Workshop

Ao iniciar, o Workshop executa uma interface visual localmente, expondo um servidor MCP (Model Context Protocol). MCP é uma “padronização de comunicação que permite às ferramentas de IA chamarem capacidades externas” — é a ponte que permite ao Claude Code e outras ferramentas de codificação acessarem dados externos.

Ao integrar o SDK suportado, cada nó de execução do agente — cada token, cada chamada de ferramenta, cada decisão — aparece em tempo real via streaming em localhost:5899, sem necessidade de polling ou atualização manual.

Simplificando: é como abrir uma janela de monitoramento no seu computador, onde você assiste ao vivo o que o agente de IA está fazendo.

O aspecto mais importante do design do Workshop é integrar assistentes de codificação como Claude Code no ciclo de depuração. Como o Workshop expõe o servidor MCP, Claude Code pode ler diretamente o trace, gerar testes de avaliação baseados nesses traces, executar os testes, observar as falhas, modificar o código do agente e reexecutar — até que todos os testes passem.

Raindrop chama esse ciclo de “auto-correção com avaliação”. Todo o processo é um ciclo fechado localmente: Claude Code lê o trace, escreve avaliações, observa falhas, modifica o código, reexecuta, tudo automaticamente, sem intervenção manual do desenvolvedor.

O Workshop também suporta uma função de Replay: trazer traces de ambientes de produção de volta ao local, reexecutar com o código real, realizando testes de regressão. Isso é especialmente útil quando um erro ocorre em produção, mas não consegue ser reproduzido localmente; basta usar o trace real para rodar, economizando tempo na reconstrução do cenário.

CODEX-1,05%
TOKEN0,7%
ANTHROPIC-2,48%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado