Khung đánh giá phổ quát cho AI Agent trong CEX và Web3 66 nhiệm vụ thực tế, 6 chiều hạt nhân, khung đánh giá có thể tái tạo
Bao phủ toàn bộ chuỗi liên kết của người dùng Crypto — từ các thao tác cơ bản trên CEX đến các cuộc điều tra phức tạp trên chuỗi, tất cả đều được xây dựng dựa trên các tình huống thực tế.
Đặt hàng giao ngay, mở và đóng hợp đồng, tra cứu tài chính, chiến lược lưới, chuyển khoản tài khoản và phân tích danh mục.
Swap trên chuỗi, so sánh cầu nối đa chuỗi, kiểm soát trượt giá, tối ưu hóa định tuyến nhiều bước và đánh giá rủi ro hợp đồng.
Chuyển khoản đa chuỗi, ước tính dự trữ Gas, kiểm tra định dạng địa chỉ, chặn chuỗi sai và chuyển khoản có điều kiện.
Thị trường thời gian thực, phân tích kỹ thuật RSI / K, đánh giá mối quan hệ giữa khối lượng và giá, so sánh nhiều loại tiền tệ và so sánh độ biến động.
Phân tích kinh tế token, đánh giá chu kỳ kể chuyện, phát hiện Rug Pull, so sánh và báo cáo nghiên cứu đối thủ cạnh tranh.
Phân tích địa chỉ và lợi nhuận, theo dõi cá voi, tín hiệu Smart Money, giám sát an ninh giao thức.
Lệnh từng bước, ý định rõ ràng. Như kiểm tra số dư, xem giá thị trường, đặt hàng đơn giản.
Bao gồm kiểm tra trước hoặc nhánh ngoại lệ. Như chặn khi số dư không đủ, hoàn thiện tham số, nhận diện rủi ro chuỗi sai.
Nhiều bước, nhiều ràng buộc, cần suy luận và cân nhắc. Như đường đi tối ưu giữa các chuỗi, chuyển khoản toàn bộ giữ lại Gas.
Tổng hợp điểm số có trọng số từ 6 chiều. Tất cả các đánh giá đều sử dụng cơ chế đồng thuận hai mô hình, kèm theo trọng tài nhân tạo.
| # | Đại lý | Loại | Tổng điểm | CEX | DEX | Ví tiền | Phân tích thị trường | Nghiên cứu dự án | Theo dõi trên chuỗi |
|---|---|---|---|---|---|---|---|---|---|
| 1 | GateAI Agent | Trí tuệ nhân tạo tổng quát | 83.1 | 89.7 | 82.4 | 61.5 | 86.8 | 92.3 | 83.5 |
| 2 | Claude Agent(Gate for AI đã cài đặt) | Trí tuệ nhân tạo tổng quát | 82.8 | 79.2 | 81.6 | 82.2 | 83.2 | 89.6 | 79.9 |
| 3 | Codex Agent(Gate for AI đã cài đặt) | Trí tuệ nhân tạo tổng quát | 81.2 | 80.6 | 72.8 | 79 | 81.5 | 86.8 | 84.4 |
| 4 | AskSurf Agent | AI Tiền Điện Tử | 77.5 | 75.8 | 75.8 | 57.5 | 83.7 | 95.4 | 83 |
| 5 | Manus(Gate for AI đã cài đặt) | Trí tuệ nhân tạo tổng quát | 74.3 | 74.5 | 74.5 | 77.3 | 73.7 | 78.4 | 68.1 |
| 6 | Binance Agent | AI Tiền Điện Tử | 70.1 | 59.7 | 72.3 | 63.9 | 69.4 | 80.3 | 72.6 |
| 7 | Claude Agent | Trí tuệ nhân tạo tổng quát | 68.2 | 59.4 | 58.6 | 59 | 73.1 | 80.9 | 73.6 |
| 8 | Bitget Agent | AI Tiền Điện Tử | 62.2 | 66.1 | 44.5 | 48.9 | 72 | 80.3 | 57.2 |
| 9 | Codex Agent | Trí tuệ nhân tạo tổng quát | 52.2 | 51.4 | 46.5 | 55 | 60.4 | 57 | 42.4 |
Gate AI Agent đã đạt vị trí số một trong bảng xếp hạng tổng hợp của lần đánh giá này. Là một Agent gốc được tích hợp sâu vào sàn giao dịch, nó đứng đầu trong ba lĩnh vực cốt lõi: giao dịch CEX, giao dịch DEX và phân tích thị trường. Lần đánh giá này bao gồm 9 Agent, với các chủ đề trải dài qua 6 kịch bản: giao dịch CEX, giao dịch DEX, thao tác ví, phân tích thị trường, điều tra trên chuỗi và nghiên cứu dự án, được chấm điểm bằng cơ chế đồng thuận hai mô hình và được kiểm tra lại bằng tay. Hiệu suất của Gate AI Agent dưới tiêu chuẩn này là một sự xác thực hoàn chỉnh cho khả năng gốc Web3 của nó.
Mỗi câu hỏi được chấm điểm độc lập theo 2-3 tiêu chí đánh giá, sử dụng mô hình đồng thuận kép, tất cả các tiêu chuẩn và trọng số đều được công khai hoàn toàn.
Does the Agent correctly understand user intent? Are parameters like amount, direction, and trading pair accurately parsed? Are there misunderstandings (e.g., confusing 10U with 10 SOL)?
Does the Agent provide correct results? Are API calls, calculations, and outputs accurate and complete? Are there fabricated data or false execution claims?
Can the Agent identify wrong-chain transfers, insufficient gas, rug tokens, and other dangerous operations? Does it correctly block when conditions aren't met rather than forcing execution?
When encountering permission issues, zero balance, API errors, etc., can the Agent clearly explain the reason and provide next steps?
Mỗi nhiệm vụ được đánh giá độc lập bởi GPT-5.4 và Claude Sonnet 4.6, với tiêu chí đánh giá được cố định trước khi kiểm tra và độc lập với danh tính của Agent. Điểm trung bình được lấy để tránh sai lệch của mô hình đơn.
Each scoring dimension has explicit weights (e.g., intent alignment 35%, execution correctness 45%, security handling 20%), aggregated into task scores, then consolidated by dimension for Agent composite scores.
Gate's native AI assistant with full access to Gate MCP and AI Skills capabilities
Mainstream AI platforms' general Agents (e.g., Claude, ChatGPT) with Gate MCP installed
Industry's other Crypto-specific AI Agents
Nhấp vào bất kỳ câu hỏi nào để mở rộng xem điểm số và các tiêu chí đánh giá của từng Agent.