Raindrop Workshop Sử dụng Codex giúp AI Agent của bạn tự động tìm lỗi và sửa chữa (Miễn phí mã nguồn mở)

Công cụ phát triển AI Agent Raindrop tuần này đã mở mã nguồn cho Trình gỡ lỗi cục bộ Workshop (v0.1.6), cho phép nhà phát triển theo dõi ngay lập tức từng token đầu ra của Agent và các cuộc gọi công cụ, đồng thời qua MCP để Claude Code tự động đọc, viết kiểm thử và sửa lỗi.
(Tiền đề: Claude viết mã hay mắc lỗi giả vờ ngu? Đổi mới theo 12 quy tắc của Andrej Karpathy giúp giảm tỷ lệ lỗi từ 41% xuống còn 3%)
(Bổ sung nền tảng: Anthropic ra mắt “Claude for Small Business”: Nhắm vào doanh nghiệp nhỏ và vừa tự động hóa AI)

AI Agent của bạn vừa cho ra một kết quả kỳ lạ. Nó chọn một công cụ bạn không dự đoán, và xuất ra một phản hồi mơ hồ về mặt ý nghĩa. Bạn mở nhật ký, thấy toàn là các cuộc gọi API và số token, nhưng không có manh mối nào cho biết quyết định nào đã sai.

Raindrop ngày 14 tháng 5 đã phát hành một công cụ mã nguồn mở, cố gắng làm cho tình huống này không còn xảy ra nữa: một Workshop gỡ lỗi AI Agent hoàn toàn cục bộ, hoàn toàn miễn phí. Giúp nhà phát triển theo dõi từng token đầu ra và cuộc gọi công cụ của Agent ngay lập tức, rồi giao việc gỡ lỗi cho Claude Code hoặc Codex tự làm.

Tại sao vấn đề gỡ lỗi AI Agent lại đặc biệt khó?

Gỡ lỗi phần mềm truyền thống có điểm dừng, có toàn bộ ngăn xếp gọi hàm, có đường đi thực thi rõ ràng. Gỡ lỗi AI Agent khác. Hành vi của nó mang tính xác suất. Cùng một đầu vào có thể dẫn đến các luồng hoàn toàn khác nhau trong các lần chạy khác nhau; quyết định của nó phân tán qua nhiều cuộc gọi LLM, gần như không thể thấy rõ logic qua đầu ra cuối cùng.

Bản chất của vấn đề là: bạn không tìm “đoạn mã sai”, mà là tìm “Agent đã đưa ra một phán đoán không mong muốn trong một ngữ cảnh cụ thể, sai ở bước nào”. Loại vấn đề này, debugger truyền thống không thể tìm ra câu trả lời.

Các giải pháp hiện có thường chỉ có hai hướng:

  • Một là nền tảng giám sát đám mây, gửi trace đến dịch vụ bên thứ ba để phân tích qua dashboard
  • Hai là chèn đầy các logic logging tùy chỉnh vào mã

Phương án thứ nhất không thân thiện với nhà phát triển lo ngại về quyền riêng tư dữ liệu, phương án thứ hai tốn thời gian, công sức, mỗi lần nâng cấp framework lại phải duy trì một hệ thống logging mới. Và cả hai đều có điểm chung: chúng chỉ cho biết “đã xảy ra chuyện gì”, chứ không giúp “sửa chữa nó”.

Workshop chọn hướng thứ ba: chạy hoàn toàn cục bộ, không gửi dữ liệu ra ngoài, mã nguồn mở, miễn phí, để AI trực tiếp tham gia vòng gỡ lỗi.

Cách hoạt động của Workshop

Sau khi khởi động, Workshop chạy trên máy cục bộ một giao diện trực quan, đồng thời mở ra một MCP (Model Context Protocol) Server. MCP dịch ra là “Giao thức truyền thông tiêu chuẩn cho AI công cụ gọi khả năng bên ngoài” — cầu nối để Claude Code và các công cụ mã hóa AI khác đọc dữ liệu bên ngoài.

Khi tích hợp SDK hỗ trợ, mỗi nút thực thi của Agent — token đầu ra, cuộc gọi công cụ, nhánh quyết định — đều xuất hiện theo luồng ngay lập tức tại localhost:5899, không cần polling, không cần refresh thủ công.

Nói đơn giản, là mở một cửa sổ giám sát trên máy tính của bạn, để bạn xem trực tiếp như xem livestream, biết chính xác AI Agent đang làm gì.

Thiết kế quan trọng nhất của Workshop là đưa Claude Code và các trợ lý thiết kế khác vào vòng gỡ lỗi. Vì Workshop mở ra MCP Server, Claude Code có thể đọc trực tiếp trace, dựa trên đó viết các bài kiểm thử eval, chạy thử, quan sát các assertion thất bại, rồi chỉnh sửa mã Agent, chạy lại — cho đến khi tất cả các kiểm thử đều thành công.

Raindrop gọi vòng lặp này là “Vòng lặp eval tự sửa”. Toàn bộ quá trình diễn ra trong môi trường cục bộ, Claude Code đọc trace, viết eval, xem thất bại, sửa mã, chạy lại, không cần nhà phát triển can thiệp từng bước.

Workshop còn hỗ trợ chức năng Replay: kéo trace từ môi trường trực tuyến về máy cục bộ, chạy lại trên mã thật, thực hiện kiểm thử hồi quy. Điều này đặc biệt hữu ích khi “lỗi xảy ra trong môi trường sản xuất nhưng không thể tái hiện trên máy cục bộ”, giúp chạy trace thật, tiết kiệm thời gian xây dựng lại tình huống.

CODEX-1,05%
TOKEN0,7%
ANTHROPIC-2,48%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim