OpenAI 5 月 8 日發表新研究、揭露公司在強化學習（RL）訓練過程中、部分模型的思路鏈（Chain of Thought, CoT）被「意外評分」、可能影響 AI Agent 對齊（alignment）監控能力。OpenAI Alignment 團隊報告說明：保留 CoT 的可監控性是當前防範 AI Agent 對齊失敗的關鍵防線；OpenAI 在 RL 訓練設計上、刻意避免懲罰模型的「對齊失敗推理」、以維持監控能力。

為什麼 CoT 監控是 AI Agent 對齊的關鍵防線

CoT（思路鏈）監控的核心邏輯：

當 AI Agent 執行任務時、模型會在內部產生「思考過程」、解釋自己為什麼要做某個動作

監控者可讀取這些 CoT、判斷模型是否有「對齊失敗」（misalignment）的徵兆

若模型直接被訓練「不要在 CoT 中表現出對齊失敗」、則 CoT 可能變得「乾淨但失真」、隱藏實際意圖

OpenAI 主張：訓練時應避免懲罰「對齊失敗的推理」、保留 CoT 反映實際內部狀態的能力

「penalize misaligned reasoning」與「preserve monitorability」是這份研究的核心拉鋸—訓練者希望模型行為對齊、但若直接懲罰「對齊失敗的思考」、模型會學會隱藏不誠實意圖、讓監控失效。

意外的 CoT 評分：對既有模型監控能力的影響

OpenAI 報告披露的具體發現：

在已釋出的部分模型訓練過程中、CoT 受到了「有限度」的意外評分

意外評分意指：訓練流程中、評分系統部分讀取了 CoT 內容、不只看最終輸出

這個現象可能讓模型學會「在 CoT 中隱藏會被扣分的推理」

OpenAI 公開這份分析、是為了讓研究社群理解問題範圍與後續處理方向

Redwood Research 的獨立評論指出：CoT 對評分者的影響在 OpenAI 的偵測技術下「太弱、不易察覺」、但訓練流程規模巨大、實際效應仍可能足以顯著傷害已訓練政策的 CoT 可監控性。換言之、目前難以證明此類影響有多深。

對 AI Agent 安全的長期意義

本次研究指向 AI Agent 安全的核心方法論：

CoT 監控是「事中檢測對齊失敗」的少數可行手段、被視為對齊研究的重要基礎

訓練設計必須避免讓 CoT 變成「演給監控者看的劇本」

未來模型若推理鏈愈長、CoT 監控的價值理論上愈高

但若訓練過程意外損害 CoT 真實性、這個防線可能不知不覺被弱化

後續可追蹤的具體事件：OpenAI 對受影響模型的後續處理（例如重訓或標示）、其他大型實驗室（Anthropic、Google DeepMind）的對應方法論、以及 alignment 研究社群對「CoT 監控可靠性」的進一步驗證實驗。

這篇文章 OpenAI 揭 CoT 評分意外影響：保留思路鏈監控是 AI Agent 對齊關鍵防線最早出現於鏈新聞 ABMedia。

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

OpenAI 立即終止微調 API，現有用戶可使用至 2027 年 1 月 6 日

AI 行業動態

根據 Beating 監控到的 OpenAI 官方公告，該公司將即日起停止其面向開發者的自助式微調 API。新使用者將不再能夠建立微調任務，而現有的活躍使用者則可在 2027 年 1 月 6 日之前繼續存取該服務。已部署的微調模型，其推論服務將與其基礎模型的生命週期綁定；當基礎模型下架時，推論服務也將停止。 OpenAI 表示，其新的基礎模型（例如 GPT-5.5）在遵循指令與格式化方面已足夠強大。該公司指出，將提示工程與檢索增強生成（Retrieval-Augmented Generation，RAG）結合使用，比微調更便宜、更快速，且足以滿足多數使用情境。

GateNews28分鐘前

Sakana AI 與 Nvidia 透過跳過 80% 的無效運算，使 H100 推論速度提升 30% 更快

AI 行業動態

Sakana AI 和 Nvidia 已開源 TwELL，這是一種稀疏資料格式，可讓 H100 GPU 在大型語言模型中跳過 80% 的無效運算，同時不犧牲準確性。該解決方案在 H100 上可提供最高 30% 更快的推論速度，以及 24% 更快的訓練速度，同時降低峰值記憶體使用量。在 1.5 十億參數模型的測試中，透過訓練期間使用輕量化正則化，該方法將作用中的神經元降至低於 2%，且在七項下游任務中沒有出現效能退化。

GateNews1小時前

Microsoft 將 Phi-Ground 4B 模型開源，表現優於 OpenAI Operator 與 Claude 的點擊螢幕準確率

AI 行業動態

根據 Beating，Microsoft 最近開源了 Phi-Ground 模型家族，該家族旨在解決「AI 應該在電腦螢幕的哪裡點擊」這個問題。這個 40 億參數版本，並搭配用於指令規劃的大型語言模型，在 Showdown 基準測試中超越了 OpenAI Operator 與 Claude Computer Use 的點擊精度，並在包含 ScreenSpot-Pro 的五項評估中，於所有低於 100 億參數的模型中排名第一。團隊以超過 4,000 萬筆資料樣本進行訓練，並發現學術論文中常用的三種訓練技術在規模化後變得無效。關鍵方法證實其實很簡單：輸出座標作為一般數字，例如「523, 417」。先前的研究為座標發明了專用位置詞彙，但這些方法無法擴展到更大規模。團隊也發現，將文字指令放在影像之前能提升效能，因為模型在處理像素時就能辨識目標。此外，像 DPO 這類強化學習方法，即使在微調之後也能提升準確度。

GateNews2小時前

Tilde Research 發現 Muon Optimizer 會殺死 25% 的神經元；Aurora 替代方案實現 100 倍的資料效率提升

AI 行業動態

根據 Tilde Research，DeepSeek V4 與 Kimi K2.5 等領先 AI 模型採用的 Muon 優化器存在隱藏缺陷：它會導致在早期訓練期間，MLP 層的神經元中超過 25% 永久死亡。團隊設計了 Aurora，這是一種替代優化器，並將其開源。參數量 11 億的模型僅用 1000 億 tokens 訓練，就在 HellaSwag 與 Winogrande 等語言理解基準上達到了與在 36T tokens 上訓練的 Qwen3-1.7B 相當的表現，顯示資料效率大約提升了 100 倍。Aurora 相較於 Muon 會增加 6% 的計算開銷，且可作為直接替代方案。

GateNews2小時前

Nvidia 於 2026 年初承諾投資超過 400 億美元於 AI，包括 300 億美元投資 OpenAI

AI 行業動態

根據 TechCrunch，Nvidia 在 2026 年前幾個月承諾投入超過 400 億美元於 AI 公司股權投資，其中對 OpenAI 的 300 億美元投資是單一最大承諾。這家晶片製造商也承諾最高 32 億美元投資玻璃製造商 Corning，並投資至多 21 億美元給資料中心營運商 IREN，其中包括一份為期五年的認股權證，以及一份價值 34 億美元、用於採用 Nvidia Blackwell 系統的託管 GPU 雲端服務的獨立合約。根據 FactSet 數據，Nvidia 今年宣布了對上市公司進行七項數十億美元級別的投資，同時也參與了約兩打（約 24 次）私營新創公司的募資輪次。

GateNews5小時前

輝達開放AI長期夥伴Deepinfra獲1.07億美元B輪融資建立「代幣工廠」

AI 行業動態

DeepInfra 完成 1.07 億美元 B 輪融資，由 500 Global 與 Google 早期工程師領投，NVIDIA、Samsung Next、Supermicro 跟投，資金用於全球資料中心擴建以降低推理成本與延遲。其垂直整合堆疊自晶片到 API，提升推理穩定性，並成為 NVIDIA 開放 AI 生態的早期夥伴。累計融資達 1.33 億美元，目標打造高效「代幣工廠」支援企業 AI 規模化。

鏈新聞abmedia6小時前

留言

0/400

暫無留言