✍️ Gate 廣場「創作者認證激勵計劃」進行中!
我們歡迎優質創作者積極創作,申請認證
贏取豪華代幣獎池、Gate 精美周邊、流量曝光等超過 $10,000+ 豐厚獎勵!
立即報名 👉 https://www.gate.com/questionnaire/7159
📕 認證申請步驟:
1️⃣ App 首頁底部進入【廣場】 → 點擊右上角頭像進入個人主頁
2️⃣ 點擊頭像右下角【申請認證】進入認證頁面,等待審核
讓優質內容被更多人看到,一起共建創作者社區!
活動詳情:https://www.gate.com/announcements/article/47889
🚨 ANTHROPIC 設定了新的基準,推出 CLAUDE OPUS 4.7
此版本更注重可靠性與執行,而非純性能。
它引入能持續運行數小時且不偏離的代理,並降低幻覺現象與提升校準。安全性也得到加強,對提示注入與越獄攻擊的抵抗力更佳。
模型仍保持一百萬詞元的上下文窗口,但現在在大輸入中展現出更有效的檢索與推理能力。
一個關鍵新增是“例行程序”。
這些是由 API、排程或事件觸發的持久工作流程,允許任務在背景中自主運行。
這就是轉變:
AI 正從助手轉向基礎設施。
在 SWE-bench 上得分 64.3%,高於 53.4%
在經過驗證的代理編碼上達到 87.6%
在擴展工具使用上達到 77.3%
在現實世界電腦任務上達到 78.0%
它也改善了模型通常會退化的領域:
代理搜索達到 79.3%
金融分析達到 64.4%
多語言問答達到 91.5%
而且,長上下文推理的能力依然穩固:
使用工具的視覺推理超過 90%
在研究生水平基準中達到 94.2%
這是重點:
這不是追求最高分數。
而是追求跨領域的一致性。
Opus 4.7 並非在每個類別都領先。
但它在所有領域都表現穩定。
這才是實際應用系統所需。
前沿已不僅僅是智慧。
而是面對真實工作負載時的穩定性。