OpenAI công bố cách triển khai an toàn mã AI nội bộ của họ, chiến lược cốt lõi là “giới hạn thực thi trong sandbox + tự động phê duyệt hành vi rủi ro thấp + phân loại an toàn AI xử lý cảnh báo”, giúp nâng cao hiệu quả phát triển đồng thời kiểm soát an ninh doanh nghiệp.
（Tiền đề: Nâng cấp lớn của OpenAI Codex: điều khiển nền tảng Mac, tích hợp trình duyệt, tạo hình ảnh, ra mắt 111 plugin mới）
（Bổ sung nền tảng: OpenAI giới thiệu công cụ đại lý kỹ sư Codex! AI có thể viết mã, sửa lỗi, chạy kiểm thử）

Mục lục bài viết

Toggle

Định nghĩa giới hạn trong sandbox, cơ chế phê duyệt quyết định khi nào dừng lại
Những lệnh nào không cần phê duyệt, những lệnh nào bị chặn trực tiếp
Phân loại an toàn AI

OpenAI tuần này công bố một báo cáo triển khai nội bộ, mô tả cách nhóm an ninh của họ thực thi Codex trong môi trường sản xuất. Đây là ghi chép thực tế về hoạt động, từ cấu hình sandbox đến phân loại cảnh báo, tiết lộ các khía cạnh cần kiểm soát an ninh khi tổ chức lớn áp dụng AI đại lý.

Định nghĩa giới hạn trong sandbox, cơ chế phê duyệt quyết định khi nào dừng lại

Trong thông báo chính thức, OpenAI nhấn mạnh nguyên tắc cốt lõi khi triển khai Codex chỉ có một: để đại lý duy trì hiệu quả trong giới hạn kỹ thuật rõ ràng, hành vi rủi ro thấp không cần gián đoạn người dùng, hành vi rủi ro cao phải dừng lại chờ phê duyệt.

Nguyên tắc này sau khi thực thi, được chia thành hai cơ chế bổ sung: sandbox và chiến lược phê duyệt.

Sandbox chịu trách nhiệm định nghĩa không gian thực thi của Codex, bao gồm các đường dẫn có thể ghi, có cho phép kết nối mạng bên ngoài hay không, các thư mục hệ thống được bảo vệ ra sao. Các hành động ngoài sandbox mới cần vào quy trình phê duyệt. Người dùng có thể phê duyệt một thao tác cụ thể một lần, hoặc cho phép tự động qua trong toàn bộ giai đoạn làm việc.

Với các thao tác thường ngày, OpenAI kích hoạt “chế độ tự động xem xét” (Auto-review mode). Chức năng này sẽ gửi các hành động dự kiến của Codex cùng bối cảnh hoạt động gần nhất tới một “đại lý phê duyệt tự động”. Nếu đại lý này xác định là rủi ro thấp, sẽ cho phép luôn, không gián đoạn luồng công việc của người dùng; nếu rủi ro cao hoặc có khả năng gây hậu quả ngoài ý muốn, mới nâng cấp lên xác nhận thủ công.

Quy trình kiểm soát mạng cũng tương tự. Codex không được phép truy cập mở rộng ra ngoài, OpenAI duy trì danh sách các tên miền mục tiêu cần truy cập trong quy trình làm việc bình thường của Codex. Ngoài danh sách này, các tên miền khác sẽ bị chặn mặc định, khi gặp tên miền lạ, sẽ kích hoạt quy trình phê duyệt.

Xác thực danh tính cũng nằm trong phạm vi kiểm soát. Chứng chỉ CLI và MCP OAuth lưu trong kho khóa an toàn của hệ điều hành, đăng nhập bắt buộc qua Workspace doanh nghiệp ChatGPT, do đó hoạt động của Codex cũng được ghi nhật ký phù hợp của ChatGPT doanh nghiệp, nhóm an ninh có thể kiểm tra thống nhất.

Những lệnh nào không cần phê duyệt, những lệnh nào bị chặn trực tiếp

OpenAI không xem tất cả lệnh Shell là rủi ro như nhau, mà xây dựng một bộ quy tắc phân tầng. Các lệnh vô hại thường gặp trong phát triển hàng ngày, cho phép thực thi trực tiếp ngoài sandbox, không cần phê duyệt. Các lệnh nguy hiểm cao hơn, sẽ bị chặn hoặc bắt buộc phê duyệt.

Quy tắc này hoạt động theo ba tầng lớp chồng chéo:

Yêu cầu quản lý đám mây (quản trị viên bắt buộc thực thi, người dùng không thể vượt qua)
Tùy chọn quản lý trên macOS
Cấu hình yêu cầu cục bộ

Cấu trúc này giúp OpenAI duy trì tiêu chuẩn chung toàn công ty, đồng thời thử nghiệm các cấu hình khác nhau theo nhóm, nhóm người dùng hoặc môi trường. Cài đặt giống nhau áp dụng cho ứng dụng Codex trên desktop, CLI và phần mở rộng IDE.

Điều này đối lập trực tiếp với các nghiên cứu bên ngoài: cho thấy, tỷ lệ mã do AI sinh ra có lỗ hổng an ninh cao hơn 57% so với mã do con người viết. GitHub Copilot năm nay cũng bị phát hiện có lỗ CVSS 9.6 nghiêm trọng (CVE-2025-53773), có thể thực thi mã từ xa qua gợi ý chèn.

Những dữ liệu này cho thấy, khi doanh nghiệp dùng mã AI đại lý, nếu không có kiểm soát phân tầng, sẽ dễ lộ diện vượt quá dự kiến. Cách của OpenAI là đưa logic kiểm soát vào cấu hình, chứ không dựa vào khả năng tự đánh giá của AI đại lý, để quy tắc trở thành thực tế kỹ thuật, chứ không chỉ thói quen thao tác.

Phân loại an toàn AI đại lý

Trong thông báo, OpenAI nhấn mạnh, dù kiểm soát an ninh tốt đến đâu, triển khai vẫn cần có khả năng quan sát. Các nhật ký an ninh truyền thống có thể trả lời “đã xảy ra chuyện gì”, ví dụ như một chương trình khởi động, một tệp bị sửa đổi, một kết nối mạng bị cố gắng. Nhưng điều thực sự an ninh cần biết là “Tại sao Codex lại làm như vậy” và “đây có phải ý định ban đầu của người dùng không”.

OpenAI cho Codex hỗ trợ xuất nhật ký OpenTelemetry, ghi lại phạm vi gồm: lệnh người dùng, quyết định phê duyệt công cụ, kết quả thực thi công cụ, tình trạng sử dụng MCP server, các sự kiện cho phép hoặc từ chối proxy mạng. Khách hàng doanh nghiệp và giáo dục còn có thể truy cập các nhật ký này qua nền tảng tuân thủ của OpenAI.

Quan trọng hơn, OpenAI tích hợp các nhật ký này vào một “đại lý phân loại an toàn AI”. Khi công cụ phát hiện hành vi đáng ngờ của Codex và kích hoạt cảnh báo, đại lý phân loại AI này sẽ tự động truy xuất các nhật ký liên quan, tái tạo yêu cầu ban đầu, hoạt động công cụ, quyết định phê duyệt, kết quả công cụ và các ghi nhận chính sách mạng, tạo báo cáo phân tích gửi cho nhóm an ninh, hỗ trợ xác định đây là hành vi bình thường, nhầm lẫn vô hại hay sự cố cần xử lý nâng cao.

Dữ liệu telemetry này cũng được dùng cho phân tích vận hành nội bộ: theo dõi xu hướng áp dụng, hiểu rõ các công cụ và MCP server được dùng nhiều nhất, đánh giá tần suất chặn và kích hoạt sandbox mạng, xác định các phần cần điều chỉnh cấu hình. Các nhật ký OpenTelemetry này có thể tập trung đưa vào SIEM và hệ thống nhật ký tuân thủ.

Với các tổ chức còn đang cân nhắc về an ninh AI đại lý, báo cáo này như một danh sách tham khảo: nếu triển khai của bạn chưa bao phủ đủ bốn tầng này, rủi ro có thể nằm ở đó.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateSquareMayTradingShare
1.1M Phổ biến
#
BTCBackAbove80K
59.46M Phổ biến
#
IsraelStrikesIranBTCPlunges
45.71K Phổ biến
#
JapanTokenizesGovernmentBonds
1.92M Phổ biến
#
#DailyPolymarketHotspot
873.54K Phổ biến

Ghim

sơ đồ trang web

OpenAI hướng dẫn bạn cách sử dụng Codex an toàn: giới hạn sandbox, phê duyệt tự động, phân loại an toàn, khung triển khai doanh nghiệp đầy đủ

Định nghĩa giới hạn trong sandbox, cơ chế phê duyệt quyết định khi nào dừng lại

Những lệnh nào không cần phê duyệt, những lệnh nào bị chặn trực tiếp

Phân loại an toàn AI đại lý

Chủ đề thịnh hành

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Ghim