OpenAI 新推 GPT-5.2:可做小遊戲與賀卡,企業用戶每週更省 10 小時工時

OpenAI 於 12/12 新推出 GPT-5.2,並定位為目前最適合「專業知識工作」的 AI 模型系列。官方表示,GPT-5.2 能直接產出簡報、試算表、程式碼與長文件分析等實際工作成果,並支援跨工具、多步驟任務處理,還可以製作前端網頁小遊戲與賀卡。根據回饋,ChatGPT 企業級用戶平均每天可節省 40 至 60 分鐘工作時間,高度使用者每週甚至更省下超過 10 小時,GPT-5.2 被視為進一步放大生產力的關鍵版本。

三種版本同步推出,全面對應不同專業使用情境

OpenAI 表示,GPT-5.2 這次同步推出 Instant、Thinking、Pro 三個版本,分別主打日常效率、深度推理與高難度問題品質。而在 ChatGPT 應用上,GPT-5.2 會率先提供給付費方案用戶。在 API 平台,則已全面開放給開發者使用。

專業工作能力大躍進,首次在 GDPval 達到人類專家等級

OpenAI 指出,GPT-5.2 Thinking 在 GDPval 專業知識工作評測中出現關鍵突破。該評測涵蓋 44 種職業、9 大產業,要求模型直接產出可交付成果,如簡報、試算表、排班表與商業文件。

結果顯示,GPT-5.2 Thinking 有 70.9% 的任務被判為超越產業專家表現,或者打平,產出速度超過人類專家 11 倍,成本低於 1%,成為 OpenAI 首次達到、甚至超越人類專業水準的模型。

實戰能力全面升級,專案產出與程式開發同步強化

在實際應用上,GPT-5.2 Thinking 的簡報與試算表結構更完整、邏輯更接近專業顧問與分析師,還能處理人力規劃、股權結構與專案管理等複雜內容。在投資銀行等級的試算表任務中,其表現較前一代提升約 9%。

在軟體開發方面,GPT-5.2 Thinking 於 SWE-Bench Pro 真實世界程式碼維修測試中,準確率達 56%,能直接讀取程式碼倉庫、理解工程問題,並輸出可用的修補程式。

(註:SWE-Bench Pro 是一套模擬「真實世界軟體工程工作」的測試,要求 AI 直接修好實際專案中的程式問題,而不是只回答理論題。)

可信度與整合度提升,長文件、影像與工具協作更成熟

OpenAI 表示,GPT-5.2 Thinking 的回應錯誤率相較前一代相對下降約 30%。在 MRCRv2 評測中,即使面對約數十萬字的超長文件,仍能維持接近滿分的準確率,適用於合約、財報與逐字稿分析。

在影像理解方面,GPT-5.2 在圖表與軟體介面判讀的錯誤率明顯下降,在工具調用能力上,於 Tau2-bench 測試中準確率達 98.7%,能穩定完成跨系統、多步驟的完整任務流程。

GPT-5.2 還可以製作前端網頁、小遊戲等。

(註:MRCRv2 是一套專門測試 AI 在超長內容中,能不能正確抓住關鍵資訊、並在多次推理中不搞混上下文的能力測試。Tau2-bench 為一套模擬真實客服與業務流程的評測,用來測試 AI 是否能在多輪互動中,正確呼叫工具、整合資訊,並完成整個任務。 )

這篇文章 OpenAI 新推 GPT-5.2:可做小遊戲與賀卡,企業用戶每週更省 10 小時工時 最早出現於 鏈新聞 ABMedia。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)