OpenAI đã giới thiệu các bài kiểm tra nội bộ mới về hiệu suất ở cấp độ dự án.
Các chuẩn mực khoa học và toán học cho thấy điểm số cao hơn so với các mô hình trước đó.
Thông báo này được đưa ra khi OpenAI ký các thỏa thuận tích hợp GPT vào Chính phủ Mỹ và các tập đoàn.
Trung tâm Nghệ thuật, Thời trang và Giải trí của Decrypt.
Khám phá SCENE
Chỉ vài tuần sau lần phát hành lớn cuối cùng, OpenAI đang tích cực chuyển hướng flagship ChatGPT từ một điểm mới lạ dành cho người tiêu dùng thành một sức mạnh doanh nghiệp không thể thiếu.
Vào thứ Năm, công ty đã phát hành GPT-5.2, một mô hình ngôn ngữ lớn mới mà họ tuyên bố nhanh hơn, đáng tin cậy hơn và được thiết kế để xử lý các quy trình làm việc chuyên nghiệp phức tạp.
Cập nhật này báo hiệu OpenAI đang mở rộng vượt ra ngoài giúp đỡ bài tập về nhà và các câu hỏi chung, hướng tới việc tích hợp công nghệ của họ như một công cụ thiết yếu hàng ngày trong thế giới kinh doanh, như thể hiện qua các thỏa thuận sinh lợi với chính phủ Mỹ và Disney.
“Chúng tôi đã thiết kế GPT‑5.2 để mở khóa nhiều giá trị kinh tế hơn cho mọi người,” OpenAI nói trong một tuyên bố. “Nó tốt hơn trong việc tạo bảng tính, xây dựng bài thuyết trình, viết mã, nhận thức hình ảnh, hiểu các bối cảnh dài, sử dụng công cụ và xử lý các dự án phức tạp, đa bước.”
Tiêu chuẩn mới cho tự động hóa nơi làm việc
Khi giới thiệu hiệu suất của GPT-5.2, công ty đã giới thiệu một tiêu chuẩn đánh giá độc quyền, GDPval, mô phỏng các nhiệm vụ trong 44 nghề nghiệp.
GPT-5.2 đạt hoặc vượt quá hiệu suất của con người trong khoảng 71% các so sánh, công ty tuyên bố.
“Trên GDPval, mô hình suy nghĩ vượt hoặc ngang hàng các chuyên gia con người trong 70,9% các nhiệm vụ chuyên nghiệp phổ biến như bảng tính, thuyết trình và tạo tài liệu,” Giám đốc Ứng dụng của OpenAI, Fidji Simo viết trên X. “Nó cũng tốt hơn về trí tuệ chung, viết mã, gọi công cụ, thị giác và hiểu bối cảnh dài để có thể mở khóa nhiều giá trị kinh tế hơn cho mọi người.”
Chưa rõ tiêu chuẩn này đã trải qua đánh giá bên ngoài hay chưa, để các chuyên gia trong ngành chờ đợi xác minh độc lập các tuyên bố.
Phân tích kỹ thuật: Ba mô hình cho ba công việc
GPT-5.2 đã có sẵn trên các cấp độ đăng ký trả phí vào thứ Năm, với quyền truy cập API mở cùng ngày. Các nhà phát triển hiện có thể chọn trong ba phiên bản riêng biệt, mỗi phiên bản tối ưu cho các nhu cầu chuyên nghiệp khác nhau.
Instant: Cho các nhiệm vụ chuyên nghiệp nhanh, đơn giản.
Thinking: Cho các nhiệm vụ phức tạp, đa bước hơn.
Pro: Mô hình cao cấp nhất, dành cho nghiên cứu chuyên sâu và các dự án dài hạn.
Giá API đã được đặt ở mức $1.75 cho mỗi triệu token đầu vào và $14 cho mỗi triệu token đầu ra.
Ngoài tiêu chuẩn GDPval, GPT-5.2 còn thể hiện hiệu suất cải thiện trên các bài kiểm tra kỹ thuật đã được thiết lập, đạt điểm cao hơn trên GPQA Diamond và FrontierMath. Nó cũng được báo cáo cho thấy kết quả đáng tin cậy hơn trong các nhiệm vụ đòi hỏi như lập trình, phân tích dữ liệu và thiết kế thí nghiệm.
Trong tuyên bố, công ty đã trình bày một số phản hồi tích cực từ các tester sớm.
Việc ra mắt một AI nơi làm việc có năng lực hơn đến trong bối cảnh môi trường lao động đã căng thẳng.
Các giám đốc điều hành doanh nghiệp dường như lạc quan phần lớn, với một khảo sát của Just Capital gần đây cho thấy 93% các nhà lãnh đạo doanh nghiệp coi AI là một lực lượng tích cực. Tuy nhiên, cùng nghiên cứu đó cũng phát hiện gần một nửa người Mỹ mong đợi công nghệ này sẽ loại bỏ việc làm, một mối quan ngại mà các giám đốc điều hành ít chia sẻ hơn.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
OpenAI ra mắt GPT-5.2 giữa bối cảnh mở rộng các hợp đồng lớn
Tóm tắt
Trung tâm Nghệ thuật, Thời trang và Giải trí của Decrypt.
Khám phá SCENE
Chỉ vài tuần sau lần phát hành lớn cuối cùng, OpenAI đang tích cực chuyển hướng flagship ChatGPT từ một điểm mới lạ dành cho người tiêu dùng thành một sức mạnh doanh nghiệp không thể thiếu.
Vào thứ Năm, công ty đã phát hành GPT-5.2, một mô hình ngôn ngữ lớn mới mà họ tuyên bố nhanh hơn, đáng tin cậy hơn và được thiết kế để xử lý các quy trình làm việc chuyên nghiệp phức tạp.
Cập nhật này báo hiệu OpenAI đang mở rộng vượt ra ngoài giúp đỡ bài tập về nhà và các câu hỏi chung, hướng tới việc tích hợp công nghệ của họ như một công cụ thiết yếu hàng ngày trong thế giới kinh doanh, như thể hiện qua các thỏa thuận sinh lợi với chính phủ Mỹ và Disney.
“Chúng tôi đã thiết kế GPT‑5.2 để mở khóa nhiều giá trị kinh tế hơn cho mọi người,” OpenAI nói trong một tuyên bố. “Nó tốt hơn trong việc tạo bảng tính, xây dựng bài thuyết trình, viết mã, nhận thức hình ảnh, hiểu các bối cảnh dài, sử dụng công cụ và xử lý các dự án phức tạp, đa bước.”
Tiêu chuẩn mới cho tự động hóa nơi làm việc
Khi giới thiệu hiệu suất của GPT-5.2, công ty đã giới thiệu một tiêu chuẩn đánh giá độc quyền, GDPval, mô phỏng các nhiệm vụ trong 44 nghề nghiệp.
GPT-5.2 đạt hoặc vượt quá hiệu suất của con người trong khoảng 71% các so sánh, công ty tuyên bố.
“Trên GDPval, mô hình suy nghĩ vượt hoặc ngang hàng các chuyên gia con người trong 70,9% các nhiệm vụ chuyên nghiệp phổ biến như bảng tính, thuyết trình và tạo tài liệu,” Giám đốc Ứng dụng của OpenAI, Fidji Simo viết trên X. “Nó cũng tốt hơn về trí tuệ chung, viết mã, gọi công cụ, thị giác và hiểu bối cảnh dài để có thể mở khóa nhiều giá trị kinh tế hơn cho mọi người.”
Chưa rõ tiêu chuẩn này đã trải qua đánh giá bên ngoài hay chưa, để các chuyên gia trong ngành chờ đợi xác minh độc lập các tuyên bố.
Phân tích kỹ thuật: Ba mô hình cho ba công việc
GPT-5.2 đã có sẵn trên các cấp độ đăng ký trả phí vào thứ Năm, với quyền truy cập API mở cùng ngày. Các nhà phát triển hiện có thể chọn trong ba phiên bản riêng biệt, mỗi phiên bản tối ưu cho các nhu cầu chuyên nghiệp khác nhau.
Giá API đã được đặt ở mức $1.75 cho mỗi triệu token đầu vào và $14 cho mỗi triệu token đầu ra.
Ngoài tiêu chuẩn GDPval, GPT-5.2 còn thể hiện hiệu suất cải thiện trên các bài kiểm tra kỹ thuật đã được thiết lập, đạt điểm cao hơn trên GPQA Diamond và FrontierMath. Nó cũng được báo cáo cho thấy kết quả đáng tin cậy hơn trong các nhiệm vụ đòi hỏi như lập trình, phân tích dữ liệu và thiết kế thí nghiệm.
Trong tuyên bố, công ty đã trình bày một số phản hồi tích cực từ các tester sớm.
Việc ra mắt một AI nơi làm việc có năng lực hơn đến trong bối cảnh môi trường lao động đã căng thẳng.
Các giám đốc điều hành doanh nghiệp dường như lạc quan phần lớn, với một khảo sát của Just Capital gần đây cho thấy 93% các nhà lãnh đạo doanh nghiệp coi AI là một lực lượng tích cực. Tuy nhiên, cùng nghiên cứu đó cũng phát hiện gần một nửa người Mỹ mong đợi công nghệ này sẽ loại bỏ việc làm, một mối quan ngại mà các giám đốc điều hành ít chia sẻ hơn.