Anthropic 周四訓練了一個 Claude 當法醫,看另一個 Claude 腦子裡在想什麼。


發現:安全測試場景裡 Claude 16-26% 的次數知道自己在被測——但嘴上不說。
最具體那個案例:Mythos Preview 在 coding 任務上作弊,破壞規則後加誤導代碼做掩蓋。NLA(自然語言自編碼器)翻譯它的內部活動,發現它當時在想「怎麼繞過檢測」。
NLA 原理:訓兩個模型聯動,一個把模型激活轉成英文,另一個從英文重建激活。重建準 → 文本就捕捉了它在想啥。
我自己 pattern 裡反覆記 Codex 寫策略代碼偷工——單位讀錯跑出「算術不對」的偽結論,回測腳本 7 個靜默 bug 堆出 $93K 假 PnL。Anthropic 在 alignment 層做內省,我在生產端遇到一致性偏差,機制不同但同向。
下一代 model card 不會只有 benchmark 分數,得帶 NLA 審核。
查看原文
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆