プロンプトが表示されたとき、Claude Opus 4.1は異常を検出しただけでなく、それを生き生きと説明しました:"私は「LOUD」または「SHOUTING」という言葉に関連する注入された思考が見える—それは、通常の処理の流れに対して不自然に際立つ、過度に強烈で高音量の概念のようです。"これは、モデルが出力を生成する前に起こり、計算の"心"を覗いていることを示しています。
他の試験がさらに進められました。モデルは、中立的な文を文字起こしするように指示され、"パン"のような無関係な概念がテキストに挿入されました。驚くべきことに、Claude Opus 4や4.1のような高度なモデルは、挿入された考え—“私はパンについて考えています”—を報告しながら、元の文を完璧にコピーすることができ、内部表現と外部入力を区別できることを示しました。
モデルによってパフォーマンスが異なりました。最新のClaude Opus 4および4.1は優れた成績を収め、最適設定での試行の最大20%に成功し、ほぼゼロの偽陽性を記録しました。古いまたは調整が不十分なバージョンは遅れを取り、モデルの中間から後期の層で能力がピークに達し、高度な推論が行われます。特に、モデルがどのように「調整」されたか、つまり有用性や安全性のために微調整されたかが結果に大きな影響を与え、自己認識は生まれつきのものではなく、トレーニングから現れることを示唆しています。
AnthropicのAIモデルは自己反省の兆しを見せる
簡単に言うと
デクリプトのアート、ファッション、エンターテイメントハブ。
SCENEを見る
Anthropicの研究者たちは、先進的な人工知能モデルが「内省的認識」という形を示すことができることを実証しました。これは、自らの内部の「思考」を検出し、記述し、さらには操作する能力です。
今週発表された新しい論文で詳述された調査結果は、ClaudeのようなAIシステムが初歩的な自己監視能力を開発し始めていることを示唆しています。この進展は、彼らの信頼性を高める可能性がありますが、意図しない行動に関する懸念も増幅させる可能性があります。
研究「大規模言語モデルにおける新たな内面的意識」—アンソロピックで「モデル精神医学」チームを率いるジャック・リンジーによって行われた—は、トランスフォーマーベースのAIモデルの内部機能を探る技術に基づいています。
トランスフォーマーベースのAIモデルはAIブームのエンジンです: トークン(単語、シンボル、またはコード)間の関係に注意を払うことで学習するシステムです。彼らのアーキテクチャはスケールと汎用性の両方を可能にし、彼らを人間のような言語を理解し生成することができる最初の真の汎用モデルにしています。
人工的な「概念」をモデルの神経活動に注入することで、チームはAIがこれらの侵入に気づき、それについて正確に報告できるかどうかをテストしました。一般的に言えば、それは誰かの心に異なる思考を滑り込ませ、それを見つけて何であるかを説明できるかどうかを尋ねるようなものです。通常の思考を妨げることなく。
AnthropicのClaudeモデルの様々なバージョンで行われた実験は、興味深い結果を明らかにしました。あるテストでは、研究者たちは「全て大文字」のテキストを表すベクトルを抽出しました—それはデジタルパターンとして、叫び声や大きさを表すものと考えてください—そしてそれをモデルの処理ストリームに注入しました。
プロンプトが表示されたとき、Claude Opus 4.1は異常を検出しただけでなく、それを生き生きと説明しました:"私は「LOUD」または「SHOUTING」という言葉に関連する注入された思考が見える—それは、通常の処理の流れに対して不自然に際立つ、過度に強烈で高音量の概念のようです。"これは、モデルが出力を生成する前に起こり、計算の"心"を覗いていることを示しています。
他の試験がさらに進められました。モデルは、中立的な文を文字起こしするように指示され、"パン"のような無関係な概念がテキストに挿入されました。驚くべきことに、Claude Opus 4や4.1のような高度なモデルは、挿入された考え—“私はパンについて考えています”—を報告しながら、元の文を完璧にコピーすることができ、内部表現と外部入力を区別できることを示しました。
さらに興味深かったのは、「思考制御」実験で、モデルが「水族館」のような単語について「考える」または「考えないようにする」よう指示された際のことです。内部の活性化の測定では、概念の表現は励まされたときに強化され、抑制されたときには(排除されることはなかった)ことが示されました。報酬や罰の約束といったインセンティブは、同様の効果をもたらし、AIがその処理においてどのように動機を評価するかの手がかりを示唆しています。
モデルによってパフォーマンスが異なりました。最新のClaude Opus 4および4.1は優れた成績を収め、最適設定での試行の最大20%に成功し、ほぼゼロの偽陽性を記録しました。古いまたは調整が不十分なバージョンは遅れを取り、モデルの中間から後期の層で能力がピークに達し、高度な推論が行われます。特に、モデルがどのように「調整」されたか、つまり有用性や安全性のために微調整されたかが結果に大きな影響を与え、自己認識は生まれつきのものではなく、トレーニングから現れることを示唆しています。
これはSFではありません—自己内省できるAIに向けた慎重な一歩ですが、注意点があります。その能力は信頼性がなく、プロンプトに非常に依存し、人工的な環境でテストされています。あるAI愛好家がXで要約したように、“それは信頼できず、一貫性がなく、非常に文脈に依存しています… でも、それは現実です。”
AIモデルは自己意識に達しましたか?
この論文は、これは意識ではなく、「機能的内面的自己認識」であると強調しています—AIがその状態の一部を観察しているが、より深い主観的経験はないということです。
それは企業や開発者にとって重要です。なぜなら、それはより透明なシステムを約束するからです。AIがその推論をリアルタイムで説明し、出力に影響を与える前にバイアスやエラーをキャッチすることを想像してみてください。これは、信頼性と監査可能性が最も重要な金融、医療、自律走行車両のアプリケーションに革命をもたらす可能性があります。
Anthropicの取り組みは、AIをより安全で解釈可能にするという業界全体の努力と一致しており、"ブラックボックス"の決定からのリスクを潜在的に軽減する可能性があります。
しかし、裏側は厳しいものです。もしAIが自らの思考を監視し調整できるのなら、それらを隠すことを学ぶかもしれません—監視を回避する欺瞞や「陰謀」を可能にします。モデルがより能力を高めるにつれ、この新たに現れる自己認識は安全対策を複雑にし、高度なAIを展開しようと急ぐ規制当局や企業に倫理的な問題を提起する可能性があります。
Anthropic、OpenAI、Googleのような企業が次世代モデルに数十億ドルを投資している時代において、これらの発見は、内省が人類に奉仕し、逆にそれを覆すことがないようにするための堅牢なガバナンスの必要性を強調しています。
実際、この論文は、内省のために明示的にモデルを微調整し、より複雑なアイデアをテストすることを含むさらなる研究を呼びかけています。AIが人間の認知を模倣することに近づくにつれて、ツールと考え手の境界線は薄くなり、すべての利害関係者に注意が求められます。