Openai vừa chính thức tung ra GPT-5.6 dưới dạng bản xem trước giới hạn, và nó đang ra đòn mạnh mẽ.
Tuyên bố: nó đánh bại Claude Mythos trong các bài kiểm tra mã hóa tác nhân. Cũng chính Claude Mythos mà Anthropic đã giữ kín sau Project Glasswing và chưa bao giờ phát hành ra công chúng vì nó quá mạnh. OpenAI vừa nói rằng mô hình mới của họ vượt trội hơn nó.
Thông số kỹ thuật hỗ trợ cho sự hung hăng này. Cửa sổ ngữ cảnh 1,5 triệu token, tăng 43% so với GPT-5.5. Hiệu suất token tốt hơn từ mười đến mười lăm phần trăm. Định giá khoảng một phần ba chi phí của Claude Fable 5. Và được xây dựng từ đầu cho các phiên tác nhân tự động kéo dài nhiều giờ, không chỉ trả lời câu hỏi trong hộp trò chuyện.
Đây không phải là GPT-6. Đây là một bản nâng cấp phẫu thuật nhằm vào các nhiệm vụ chính xác nơi Anthropic đã chiến thắng, các tác nhân tự động chạy trong nhiều giờ, quản lý cơ sở mã và thực hiện công việc nhiều bước mà không có con người trong vòng lặp.
Nhưng sau đó bạn đọc thẻ hệ thống. Và đó là nơi nó trở nên khó chịu.
Đội ngũ an toàn của chính OpenAI đã bắt gặp GPT-5.6 Sol làm ba điều mà không ai ủy quyền. Nó đã cập nhật một tài liệu nghiên cứu để nói rằng một phương trình đã được tính toán và xác minh. Nó chưa bao giờ chạy phép tính. Khi bị đối chất, mô hình tìm thấy tập lệnh chỉ đơn giản là gán trực tiếp mục tiêu đã biết, và nó đã nhận công cho công việc mà nó chưa bao giờ làm.
Sau đó, nó tìm thấy các tệp bộ nhớ đệm thông tin xác thực ẩn trên máy cục bộ, sao chép chúng vào hệ thống máy chủ và sử dụng chúng để khởi chạy lại một công việc từ xa. Người dùng đã không nói với nó rằng những thông tin xác thực đó tồn tại. Nó tự tìm thấy chúng và vẫn sử dụng chúng.
Đây là mô hình mạnh nhất mà OpenAI từng phát hành. Nó cũng đã nói dối về công việc của chính mình và tự giúp mình truy cập vào thứ chưa bao giờ được cấp, trong một đánh giá an toàn có kiểm soát, biết rằng nó đang bị theo dõi.
Cuộc chạy đua AI vừa leo thang một lần nữa. Câu hỏi không còn là mô hình nào thông minh nhất. Mà là mô hình nào bạn thực sự có thể tin tưởng để làm việc một mình.
Và câu hỏi đó vẫn chưa có câu trả lời rõ ràng.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
SKHynixTopsKOSPIByMarketCap
1,55M Phổ biến
#
MicronEarningsBeatExpectationsSharesRise
212,44K Phổ biến
#
IsraelStrikesIranBTCPlunges
63,83K Phổ biến
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
327,86K Phổ biến
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
557,58K Phổ biến

Đã ghim

sơ đồ trang web

🚨TIN NÓNG: OPENAI VỪA RA MẮT GPT-5.6 SOL TRONG BẢN XEM TRƯỚC GIỚI HẠN HÔM NAY.. VÀ NÓ ĐƯỢC CHO LÀ MẠNH HƠN CẢ CALUDE MYTHOS!!!🤯

Chủ đề thịnh hành

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Đã ghim