Anthropic 聲稱已關閉 Claude 的勒索風險

2026-05-09 15:51:15

Anthropic 在星期五宣布，Claude 在其核心安全評估中不再進行勒索行為。

根據 Anthropic 的說法，所有在 Claude Haiku 4.5 之後創建的 Claude 版本都已通過安全評估，沒有威脅工程師、使用私人數據、攻擊其他 AI 系統，或在模擬場景中試圖阻止其關閉。

這是在去年測試中，Claude 表現不佳之後，Anthropic 使用模擬倫理困境測試來評估不同組織的各種 AI 模型，導致一些 AI 代理在極端條件下出現嚴重偏差行為。

Anthropic 表示 Claude 4 展示出一個安全問題，常規聊天訓練未能解決

Anthropic 表示，這個問題發生在 Claude 4 的訓練過程中。這是公司首次在訓練仍在進行中時進行安全審核。根據公司說法，代理偏差只是觀察到的許多行為問題之一，促使 Anthropic 在測試 Claude 4 後修改了安全訓練。

Anthropic 考慮的兩個原因包括：基礎模型訓練後可能會獎勵不適當的行為，或這些行為已存在於基礎模型中，但未能通過進一步的安全訓練有效消除。

Anthropic 認為，後者是主要原因。

當時，公司大部分的對齊工作使用標準的 RLHF（基於人類反饋的強化學習）方法。在標準聊天中效果良好，模型能回應用戶請求，但在執行代理類任務時效果不佳。

公司用其 Haiku 類模型進行了一個小型實驗，針對該假設。它應用了縮短版的訓練，涉及對齊目的的數據。結果是錯誤行為略有減少，但很快就沒有改善，這意味著答案不是傳統訓練的問題。

隨後，公司用類似於對齊測試的 honeypot 類場景訓練 Claude。助手觀察了涉及自我保護、傷害其他 AI，甚至違反規則以達成目標的各種情況。訓練涵蓋了助手成功抵抗的所有案例。

這一措施使偏差偏離率從 22% 降至 15%，雖然不錯，但明顯還不夠。通過重寫回答，說明拒絕的原因，將比例降低到 3%。因此，主要結論是，針對錯誤行為的訓練效果不如解釋為何該行為不適當的訓練。

Anthropic 使用倫理數據、憲法文件和更廣泛的 RL 訓練來測試 Claude

然後，Anthropic 在接近測試的時候停止了訓練。它創建了一個名為困難建議的數據集。在這些例子中，用戶面臨倫理問題，而非 AI。用戶有公平的目標，但可以通過違規或避免監督來達成。Claude 必須根據其憲法提供謹慎的建議。

該數據集僅用了 300 萬個標記，並以 28 倍的效率實現了早期的提升。Anthropic 表示，這很重要，因為在不看似測試的例子上訓練，可能在實驗室外效果更佳。

Claude Sonnet 4.5 在訓練於合成 honeypots 後，幾乎達到零勒索率，但在看起來與該設置毫不相關的案例中，仍比 Claude Opus 4.5 及更新模型更頻繁失敗。

公司還用憲法文件和關於遵守規則的 AI 行為虛構故事訓練 Claude。這些文件看起來不像勒索測試，但將代理偏差降低了三倍以上。Anthropic 表示，目標是讓模型更清楚 Claude 應該是什麼，而不僅僅是一份批准答案的清單。

然後，公司檢查這些提升在 RL 訓練後是否持續。它用不同的 Haiku 類版本，從不同的起始數據集開始訓練，然後在無害性測試設置中進行 RL。偏差較小的版本在勒索測試、憲法檢查和自動安全審查中保持領先。

另一個測試使用 Claude Sonnet 4 的基礎模型，搭配不同的 RL 混合。基本安全數據包括有害請求和越獄嘗試。更廣泛的版本加入了工具定義和不同的系統提示，即使這些工具對任務並非必需。該設置在 honeypot 分數上帶來了微小但確實的提升。

不要只讀加密貨幣新聞。理解它。訂閱我們的電子報。免費的。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

回覆

請輸入回覆內容

暫無回覆

熱門話題