Trong vài tháng gần đây, các công ty như @ perplexity_ai, @ browsercompany và mới nhất là @ OpenAI đã lần lượt ra mắt trình duyệt agentic riêng.
Với họ, việc sở hữu tầng trình duyệt là bước phát triển tất yếu, bởi khi đó họ kiểm soát toàn bộ hệ điều hành và trải nghiệm người dùng.
Hầu hết các thao tác bạn có thể thực hiện trên các trình duyệt này đều tập trung vào tầng đọc, tức là đọc, giải thích và tóm tắt nội dung trên màn hình; những trình duyệt như comet còn cho phép bạn khởi tạo agent trình duyệt để thực hiện các thao tác (viết) thay bạn.

@ perplexity_ai comet tích hợp reddit
Hiện tại, nếu bạn muốn trình duyệt agentic thực hiện giao dịch thay mình, quy trình sẽ như sau:

Quy trình trên mất khoảng 10 giây, trong đó chỉ khoảng 2 giây dùng để xử lý swap onchain.
Agent trình duyệt liên tục chụp ảnh màn hình giao diện hiện tại, xử lý và thực hiện thao tác thông qua DOM; quá trình này sẽ chậm hơn nếu giao diện ứng dụng phức tạp.
Trong lĩnh vực crypto, nơi từng mili giây đều quan trọng, bạn sẽ muốn agent của mình phản hồi nhanh nhất có thể. Hãy tưởng tượng bạn không thể mua token đúng thời điểm chỉ vì agent (trình duyệt) của bạn đang cố gắng nhận diện một giao diện phức tạp như Bloomberg Terminal.

giao diện thống kê McD năm 2016
Bất kỳ LLM nào cũng sẽ gặp khó khăn khi điều hướng giao diện này, và trong crypto, rất nhiều protocol cùng ứng dụng có giao diện kém thân thiện.
Trình duyệt agentic không thể khai thác điểm mạnh nhất của crypto: tính công khai của dữ liệu và protocol.
Bất kỳ agent nào tương tác với crypto
Mọi người dùng cần được đảm bảo quyền cơ bản truy cập các hệ thống cho phép họ tạo và thực hiện các tác vụ tài chính phức tạp mà không phải lo lắng về việc viết script, lập trình hay tự vận hành hạ tầng, chỉ bằng các prompt tiếng Anh đơn giản.
Một prompt hay giá trị hơn hàng nghìn dòng code.
Tại SendAI, chúng tôi đang nỗ lực mang quyền cơ bản này đến cho mọi người dùng.





