OpenAI Đẩy mạnh các tính năng an toàn mới của ChatGPT khi các vụ kiện tụng gia tăng

Tóm tắt ngắn gọn

  • OpenAI cho biết ChatGPT giờ đây có thể phát hiện tốt hơn các dấu hiệu tự gây hại hoặc bạo lực trong các cuộc trò chuyện đang diễn ra.
  • Cập nhật này diễn ra khi công ty đối mặt với các vụ kiện và điều tra về việc ChatGPT xử lý các cuộc trò chuyện nguy hiểm như thế nào.
  • OpenAI cho biết các biện pháp bảo vệ mới dựa vào “tóm tắt an toàn” tạm thời thay vì trí nhớ vĩnh viễn hoặc cá nhân hóa.

OpenAI vào thứ Năm đã công bố các tính năng an toàn mới nhằm giúp ChatGPT nhận diện các dấu hiệu rủi ro gia tăng trong các cuộc trò chuyện khi công ty đối mặt với sự giám sát pháp lý và chính trị ngày càng gia tăng về cách chatbot của họ xử lý người dùng gặp khó khăn. Trong một bài đăng trên blog, OpenAI cho biết các cập nhật này cải thiện khả năng của ChatGPT trong việc xác định các dấu hiệu cảnh báo liên quan đến tự tử, tự gây hại và bạo lực tiềm ẩn bằng cách phân tích ngữ cảnh phát triển theo thời gian thay vì xử lý từng tin nhắn riêng lẻ. “Mọi người đến với ChatGPT hàng ngày để nói về những điều quan trọng đối với họ — từ các câu hỏi hàng ngày đến các cuộc trò chuyện cá nhân hoặc phức tạp hơn,” công ty viết. “Trong hàng trăm triệu tương tác, một số cuộc trò chuyện này bao gồm những người đang gặp khó khăn hoặc trải qua căng thẳng.”

Theo OpenAI, ChatGPT hiện sử dụng các “tóm tắt an toàn” tạm thời, được mô tả là các ghi chú có phạm vi hẹp nhằm ghi lại ngữ cảnh liên quan đến an toàn từ các cuộc trò chuyện trước đó.  “Trong các cuộc trò chuyện nhạy cảm, ngữ cảnh có thể quan trọng bằng hoặc hơn một tin nhắn đơn lẻ,” công ty viết. “Một yêu cầu có vẻ bình thường hoặc mơ hồ khi xem riêng lẻ có thể mang ý nghĩa hoàn toàn khác khi xem cùng các dấu hiệu căng thẳng hoặc ý định gây hại trước đó.” OpenAI cho biết các tóm tắt này là các ghi chú ngắn hạn chỉ sử dụng trong các tình huống nghiêm trọng, không nhằm ghi nhớ vĩnh viễn người dùng hoặc cá nhân hóa các cuộc trò chuyện, và được dùng để phát hiện các dấu hiệu cho thấy cuộc trò chuyện đang trở nên nguy hiểm, tránh cung cấp thông tin gây hại, giảm căng thẳng hoặc hướng dẫn người dùng tìm sự giúp đỡ.

“Chúng tôi tập trung công việc này vào các tình huống cấp tính, bao gồm tự tử, tự gây hại và gây hại cho người khác,” họ viết. “Cùng các chuyên gia về sức khỏe tâm thần, chúng tôi đã cập nhật chính sách và đào tạo mô hình của mình để nâng cao khả năng của ChatGPT trong việc nhận diện các dấu hiệu cảnh báo xuất hiện trong quá trình trò chuyện và sử dụng ngữ cảnh đó để phản hồi cẩn thận hơn.” Thông báo này đến khi OpenAI đối mặt với nhiều vụ kiện và điều tra cáo buộc ChatGPT không phản hồi đúng cách các cuộc trò chuyện nguy hiểm liên quan đến bạo lực, dễ bị tổn thương về cảm xúc và hành vi rủi ro. Vào tháng Tư, Tổng chưởng lý Florida James Uthmeier đã mở cuộc điều tra về OpenAI liên quan đến các mối lo ngại về an toàn trẻ em, tự gây hại và vụ xả súng hàng loạt tại Đại học Bang Florida năm 2025. OpenAI cũng đang đối mặt với một vụ kiện liên bang cáo buộc ChatGPT giúp kẻ nghi phạm mang vũ khí thực hiện vụ tấn công. Vào thứ Ba, OpenAI và CEO Sam Altman đã bị kiện tại tòa án bang California bởi gia đình của một sinh viên 19 tuổi đã tử vong do quá liều thuốc, với cáo buộc ChatGPT đã khuyến khích sử dụng thuốc nguy hiểm và tư vấn về việc pha trộn các chất. OpenAI cho biết việc giúp ChatGPT nhận diện “rủi ro chỉ rõ theo thời gian” vẫn là một thách thức liên tục; các phương pháp an toàn tương tự có thể mở rộng sang các lĩnh vực khác trong tương lai. “Hiện tại, công việc này tập trung vào các kịch bản tự gây hại và gây hại cho người khác. Trong tương lai, chúng tôi có thể khám phá xem các phương pháp tương tự có thể giúp trong các lĩnh vực rủi ro cao khác như sinh học hoặc an toàn mạng, với các biện pháp bảo vệ cẩn thận,” họ viết. “Đây vẫn là ưu tiên hàng đầu, và chúng tôi sẽ tiếp tục củng cố các biện pháp bảo vệ khi các mô hình và hiểu biết của chúng tôi phát triển.”

OPENAI-1,89%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim