OpenAI mới giới thiệu GPT-5.2: có thể làm trò chơi nhỏ và thiệp chúc mừng, người dùng doanh nghiệp tiết kiệm thêm 10 giờ làm việc mỗi tuần

OpenAI 於 12/12 新推出 GPT-5.2,並定位為目前最適合「專業知識工作」的 AI 模型系列。官方表示,GPT-5.2 能直接產出簡報、試算表、程式碼與長文件分析等實際工作成果,並支援跨工具、多步驟任務處理,還可以製作前端網頁小遊戲與賀卡。根據回饋,ChatGPT 企業級用戶平均每天可節省 40 至 60 分鐘工作時間,高度使用者每週甚至更省下超過 10 小時,GPT-5.2 被視為進一步放大生產力的關鍵版本。

三種版本同步推出,全面對應不同專業使用情境

OpenAI 表示,GPT-5.2 這次同步推出 Instant、Thinking、Pro 三個版本,分別主打日常效率、深度推理與高難度問題品質。而在 ChatGPT 應用上,GPT-5.2 會率先提供給付費方案用戶。在 API 平台,則已全面開放給開發者使用。

專業工作能力大躍進,首次在 GDPval 達到人類專家等級

OpenAI 指出,GPT-5.2 Thinking 在 GDPval 專業知識工作評測中出現關鍵突破。該評測涵蓋 44 種職業、9 大產業,要求模型直接產出可交付成果,如簡報、試算表、排班表與商業文件。

結果顯示,GPT-5.2 Thinking 有 70.9% 的任務被判為超越產業專家表現,或者打平,產出速度超過人類專家 11 倍,成本低於 1%,成為 OpenAI 首次達到、甚至超越人類專業水準的模型。

實戰能力全面升級,專案產出與程式開發同步強化

在實際應用上,GPT-5.2 Thinking 的簡報與試算表結構更完整、邏輯更接近專業顧問與分析師,還能處理人力規劃、股權結構與專案管理等複雜內容。在投資銀行等級的試算表任務中,其表現較前一代提升約 9%。

在軟體開發方面,GPT-5.2 Thinking 於 SWE-Bench Pro 真實世界程式碼維修測試中,準確率達 56%,能直接讀取程式碼倉庫、理解工程問題,並輸出可用的修補程式。

(註:SWE-Bench Pro 是一套模擬「真實世界軟體工程工作」的測試,要求 AI 直接修好實際專案中的程式問題,而不是只回答理論題。)

可信度與整合度提升,長文件、影像與工具協作更成熟

OpenAI 表示,GPT-5.2 Thinking 的回應錯誤率相較前一代相對下降約 30%。在 MRCRv2 評測中,即使面對約數十萬字的超長文件,仍能維持接近滿分的準確率,適用於合約、財報與逐字稿分析。

在影像理解方面,GPT-5.2 在圖表與軟體介面判讀的錯誤率明顯下降,在工具調用能力上,於 Tau2-bench 測試中準確率達 98.7%,能穩定完成跨系統、多步驟的完整任務流程。

GPT-5.2 還可以製作前端網頁、小遊戲等。

(註:MRCRv2 是一套專門測試 AI 在超長內容中,能不能正確抓住關鍵資訊、並在多次推理中不搞混上下文的能力測試。Tau2-bench 為一套模擬真實客服與業務流程的評測,用來測試 AI 是否能在多輪互動中,正確呼叫工具、整合資訊,並完成整個任務。 )

這篇文章 OpenAI 新推 GPT-5.2:可做小遊戲與賀卡,企業用戶每週更省 10 小時工時 最早出現於 鏈新聞 ABMedia。

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim