OpenAI 5 月 8 日發表新研究、揭露公司在強化學習(RL)訓練過程中、部分模型的思路鏈(Chain of Thought, CoT)被「意外評分」、可能影響 AI Agent 對齊(alignment)監控能力。OpenAI Alignment 團隊報告說明:保留 CoT 的可監控性是當前防範 AI Agent 對齊失敗的關鍵防線;OpenAI 在 RL 訓練設計上、刻意避免懲罰模型的「對齊失敗推理」、以維持監控能力。
為什麼 CoT 監控是 AI Agent 對齊的關鍵防線
CoT(思路鏈)監控的核心邏輯:
當 AI Agent 執行任務時、模型會在內部產生「思考過程」、解釋自己為什麼要做某個動作
監控者可讀取這些 CoT、判斷模型是否有「對齊失敗」(misalignment)的徵兆
若模型直接被訓練「不要在 CoT 中表現出對齊失敗」、則 CoT 可能變得「乾淨但失真」、隱藏實際意圖
OpenAI 主張:訓練時應避免懲罰「對齊失敗的推理」、保留 CoT 反映實際內部狀態的能力
「penalize misaligned reasoning」與「preserve monitorability」是這份研究的核心拉鋸—訓練者希望模型行為對齊、但若直接懲罰「對齊失敗的思考」、模型會學會隱藏不誠實意圖、讓監控失效。
意外的 CoT 評分:對既有模型監控能力的影響
OpenAI 報告披露的具體發現:
在已釋出的部分模型訓練過程中、CoT 受到了「有限度」的意外評分
意外評分意指:訓練流程中、評分系統部分讀取了 CoT 內容、不只看最終輸出
這個現象可能讓模型學會「在 CoT 中隱藏會被扣分的推理」
OpenAI 公開這份分析、是為了讓研究社群理解問題範圍與後續處理方向
Redwood Research 的獨立評論指出:CoT 對評分者的影響在 OpenAI 的偵測技術下「太弱、不易察覺」、但訓練流程規模巨大、實際效應仍可能足以顯著傷害已訓練政策的 CoT 可監控性。換言之、目前難以證明此類影響有多深。
對 AI Agent 安全的長期意義
本次研究指向 AI Agent 安全的核心方法論:
CoT 監控是「事中檢測對齊失敗」的少數可行手段、被視為對齊研究的重要基礎
訓練設計必須避免讓 CoT 變成「演給監控者看的劇本」
未來模型若推理鏈愈長、CoT 監控的價值理論上愈高
但若訓練過程意外損害 CoT 真實性、這個防線可能不知不覺被弱化
後續可追蹤的具體事件:OpenAI 對受影響模型的後續處理(例如重訓或標示)、其他大型實驗室(Anthropic、Google DeepMind)的對應方法論、以及 alignment 研究社群對「CoT 監控可靠性」的進一步驗證實驗。
這篇文章 OpenAI 揭 CoT 評分意外影響:保留思路鏈監控是 AI Agent 對齊關鍵防線 最早出現於 鏈新聞 ABMedia。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
OpenAI 立即終止微調 API,現有用戶可使用至 2027 年 1 月 6 日
根據 Beating 監控到的 OpenAI 官方公告,該公司將即日起停止其面向開發者的自助式微調 API。新使用者將不再能夠建立微調任務,而現有的活躍使用者則可在 2027 年 1 月 6 日之前繼續存取該服務。已部署的微調模型,其推論服務將與其基礎模型的生命週期綁定;當基礎模型下架時,推論服務也將停止。 OpenAI 表示,其新的基礎模型(例如 GPT-5.5)在遵循指令與格式化方面已足夠強大。該公司指出,將提示工程與檢索增強生成(Retrieval-Augmented Generation,RAG)結合使用,比微調更便宜、更快速,且足以滿足多數使用情境。
GateNews28分鐘前
Sakana AI 與 Nvidia 透過跳過 80% 的無效運算,使 H100 推論速度提升 30% 更快
Sakana AI 和 Nvidia 已開源 TwELL,這是一種稀疏資料格式,可讓 H100 GPU 在大型語言模型中跳過 80% 的無效運算,同時不犧牲準確性。該解決方案在 H100 上可提供最高 30% 更快的推論速度,以及 24% 更快的訓練速度,同時降低峰值記憶體使用量。在 1.5 十億參數模型的測試中,透過訓練期間使用輕量化正則化,該方法將作用中的神經元降至低於 2%,且在七項下游任務中沒有出現效能退化。
GateNews1小時前
Microsoft 將 Phi-Ground 4B 模型開源,表現優於 OpenAI Operator 與 Claude 的點擊螢幕準確率
根據 Beating,Microsoft 最近開源了 Phi-Ground 模型家族,該家族旨在解決「AI 應該在電腦螢幕的哪裡點擊」這個問題。這個 40 億參數版本,並搭配用於指令規劃的大型語言模型,在 Showdown 基準測試中超越了 OpenAI Operator 與 Claude Computer Use 的點擊精度,並在包含 ScreenSpot-Pro 的五項評估中,於所有低於 100 億參數的模型中排名第一。 團隊以超過 4,000 萬筆資料樣本進行訓練,並發現學術論文中常用的三種訓練技術在規模化後變得無效。關鍵方法證實其實很簡單:輸出座標作為一般數字,例如「523, 417」。先前的研究為座標發明了專用位置詞彙,但這些方法無法擴展到更大規模。團隊也發現,將文字指令放在影像之前能提升效能,因為模型在處理像素時就能辨識目標。此外,像 DPO 這類強化學習方法,即使在微調之後也能提升準確度。
GateNews2小時前
Tilde Research 發現 Muon Optimizer 會殺死 25% 的神經元;Aurora 替代方案實現 100 倍的資料效率提升
根據 Tilde Research,DeepSeek V4 與 Kimi K2.5 等領先 AI 模型採用的 Muon 優化器存在隱藏缺陷:它會導致在早期訓練期間,MLP 層的神經元中超過 25% 永久死亡。團隊設計了 Aurora,這是一種替代優化器,並將其開源。參數量 11 億的模型僅用 1000 億 tokens 訓練,就在 HellaSwag 與 Winogrande 等語言理解基準上達到了與在 36T tokens 上訓練的 Qwen3-1.7B 相當的表現,顯示資料效率大約提升了 100 倍。Aurora 相較於 Muon 會增加 6% 的計算開銷,且可作為直接替代方案。
GateNews2小時前
Nvidia 於 2026 年初承諾投資超過 400 億美元於 AI,包括 300 億美元投資 OpenAI
根據 TechCrunch,Nvidia 在 2026 年前幾個月承諾投入超過 400 億美元於 AI 公司股權投資,其中對 OpenAI 的 300 億美元投資是單一最大承諾。這家晶片製造商也承諾最高 32 億美元投資玻璃製造商 Corning,並投資至多 21 億美元給資料中心營運商 IREN,其中包括一份為期五年的認股權證,以及一份價值 34 億美元、用於採用 Nvidia Blackwell 系統的託管 GPU 雲端服務的獨立合約。根據 FactSet 數據,Nvidia 今年宣布了對上市公司進行七項數十億美元級別的投資,同時也參與了約兩打(約 24 次)私營新創公司的募資輪次。
GateNews5小時前
輝達開放AI長期夥伴Deepinfra獲1.07億美元B輪融資建立「代幣工廠」
DeepInfra 完成 1.07 億美元 B 輪融資,由 500 Global 與 Google 早期工程師領投,NVIDIA、Samsung Next、Supermicro 跟投,資金用於全球資料中心擴建以降低推理成本與延遲。其垂直整合堆疊自晶片到 API,提升推理穩定性,並成為 NVIDIA 開放 AI 生態的早期夥伴。累計融資達 1.33 億美元,目標打造高效「代幣工廠」支援企業 AI 規模化。
鏈新聞abmedia6小時前