OpenAI 新推 GPT-5.2：可做小遊戲與賀卡，企業用戶每週更省 10 小時工時

2025-12-12 08:14:52

OpenAI 於 12/12 新推出 GPT-5.2，並定位為目前最適合「專業知識工作」的 AI 模型系列。官方表示，GPT-5.2 能直接產出簡報、試算表、程式碼與長文件分析等實際工作成果，並支援跨工具、多步驟任務處理，還可以製作前端網頁小遊戲與賀卡。根據回饋，ChatGPT 企業級用戶平均每天可節省 40 至 60 分鐘工作時間，高度使用者每週甚至更省下超過 10 小時，GPT-5.2 被視為進一步放大生產力的關鍵版本。

三種版本同步推出，全面對應不同專業使用情境

OpenAI 表示，GPT-5.2 這次同步推出 Instant、Thinking、Pro 三個版本，分別主打日常效率、深度推理與高難度問題品質。而在 ChatGPT 應用上，GPT-5.2 會率先提供給付費方案用戶。在 API 平台，則已全面開放給開發者使用。

專業工作能力大躍進，首次在 GDPval 達到人類專家等級

OpenAI 指出，GPT-5.2 Thinking 在 GDPval 專業知識工作評測中出現關鍵突破。該評測涵蓋 44 種職業、9 大產業，要求模型直接產出可交付成果，如簡報、試算表、排班表與商業文件。

結果顯示，GPT-5.2 Thinking 有 70.9% 的任務被判為超越產業專家表現，或者打平，產出速度超過人類專家 11 倍，成本低於 1%，成為 OpenAI 首次達到、甚至超越人類專業水準的模型。

實戰能力全面升級，專案產出與程式開發同步強化

在實際應用上，GPT-5.2 Thinking 的簡報與試算表結構更完整、邏輯更接近專業顧問與分析師，還能處理人力規劃、股權結構與專案管理等複雜內容。在投資銀行等級的試算表任務中，其表現較前一代提升約 9%。

在軟體開發方面，GPT-5.2 Thinking 於 SWE-Bench Pro 真實世界程式碼維修測試中，準確率達 56%，能直接讀取程式碼倉庫、理解工程問題，並輸出可用的修補程式。

(註：SWE-Bench Pro 是一套模擬「真實世界軟體工程工作」的測試，要求 AI 直接修好實際專案中的程式問題，而不是只回答理論題。)

可信度與整合度提升，長文件、影像與工具協作更成熟

OpenAI 表示，GPT-5.2 Thinking 的回應錯誤率相較前一代相對下降約 30%。在 MRCRv2 評測中，即使面對約數十萬字的超長文件，仍能維持接近滿分的準確率，適用於合約、財報與逐字稿分析。

在影像理解方面，GPT-5.2 在圖表與軟體介面判讀的錯誤率明顯下降，在工具調用能力上，於 Tau2-bench 測試中準確率達 98.7%，能穩定完成跨系統、多步驟的完整任務流程。

GPT-5.2 還可以製作前端網頁、小遊戲等。

(註：MRCRv2 是一套專門測試 AI 在超長內容中，能不能正確抓住關鍵資訊、並在多次推理中不搞混上下文的能力測試。Tau2-bench 為一套模擬真實客服與業務流程的評測，用來測試 AI 是否能在多輪互動中，正確呼叫工具、整合資訊，並完成整個任務。 )

這篇文章 OpenAI 新推 GPT-5.2：可做小遊戲與賀卡，企業用戶每週更省 10 小時工時最早出現於鏈新聞 ABMedia。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

1人点赞了这条动态

赞赏
1
评论
转发
分享

0/400

暂无评论

鏈新聞abmedia

热门话题查看更多
#Gate11月透明度报告出炉
7636 热度
#美联储降息
65.52万热度
#广场发帖领$50
5.91万热度
#比特币活跃度走高
1.5万热度
#加密市场反弹
54.19万热度

热门 Gate Fun查看更多

1
NNB牛牛币牛牛币
市值:$3544.82持有人数:1
0.00%
2
SILVSILVER
市值:$3789.52持有人数:3
0.73%
3
GGoldGGold
市值:$3615.36持有人数:3
0.00%
4
POPOCHICKEN POPO
市值:$3631.03持有人数:1
0.00%
5
GYGate Yeti
市值:$3671.02持有人数:3
0.00%