**文章来源:Xinzhiyuan | 編集:Taozi**## 職業転換の背後にある明確な選択研究者がキャリアの重要な瞬間に予期せぬ変化に直面したとき、彼は何を学ぶのか?2025年初頭のこの職業転換により、Tian Yuandongはクラシックな意思決定フレームワークを用いて自分の選択を振り返る機会を得た。大規模プロジェクト「応急」に招待された際、長年強化学習の研究に従事してきたAI科学者は、あらかじめ2x2のマトリックスを描き、4つの可能な結果を列挙した。しかし、現実は彼に第5の結果——予想外の結果——をもたらした。この予期せぬ出来事は、社会の複雑性についてより深い洞察をもたらした。ただし、その数ヶ月の間に、チームは確かに強化学習の核心的課題において突破口を開いた:訓練の安定性、訓練と推論の相互作用、モデルアーキテクチャの設計、事前訓練と中間訓練の結合、長い推論チェーンのアルゴリズム、データ生成方法、後訓練フレームワークの設計など。これらの成果は、彼の今後の研究方向に重要なパラダイムシフトをもたらした。Tian Yuandongは、実は大手企業を離れる決断は長年にわたり準備されていたと告白している。10年以上のキャリアの中で、何度も退職を考えた——2023年末には実行寸前だったが、経済的・家庭的な理由で何度も思いとどまった。近年、彼は冗談半分に、自分の言動がまるで「会社に辞めることを"暗示"している」かのようだと語っていた。今回、ついに「助けられて」決断を下した。面白いことに、この人生の「ジグザグ」軌跡がむしろ彼の創造性の養分となった。古い格言にあるように:「官路が通じなければ、詩人はその利益を得る;人生経験が豊かであればあるほど、詩句は深くなる。」あまりに順調すぎる人生は、むしろ生活そのものの張りを欠いてしまう。彼はまた、2021年初頭に年度総括の中で「論文が採択されなかった理由」について数行の反省を書いたところ、あまり友好的でないフィードバックを受け取ったことを覚えている。しかし、彼は沈黙を守り、さらには昇進を得たばかりのふりをしていた。半年後、その戦略が実を結び、彼は本当に昇進した。そして、2021年初頭には誰も注目しなかったその研究が、2021年7月にICMLの最優秀論文賞を受賞し、表現学習分野の古典的な作品となった。10月22日以降、彼のすべての通信手段は一時麻痺し——毎日数百通のメッセージ、メール、会議招待が殺到した。正常な生活に戻るまで数週間を要した。これまでの間、皆さんの関心に感謝しつつも、返信できなかったメッセージもあったことを認める。最終的に、複数のトップテクノロジー企業からの招待の中で、彼は共同創業者として新しいスタートアップに参加することを選んだ。詳細は一時秘密にしているが、彼は早すぎる公開よりも、集中して仕事に取り組むことを優先したいと考えている。## 2025年の研究マップ:三つの主軸Tian Yuandongが自ら描いた研究ルートは非常に明確だ:**大規模モデルの推論効率**と**モデルの解釈性**。### 連続潜在空間推論の拡散2024年末に発表された連続潜在空間推論(coconut, COLM'25)は、2025年に広く共感を呼んだ。研究コミュニティは次のように探求を始めた:強化学習や事前訓練にこのアイデアをどう応用できるか?訓練効率や計算コストをどう最適化するか?その後、彼のチームは他のプロジェクトに異動し、この線を深く追究できなかったが、この方向自体の価値はすでに証明された。上半期には、理論的分析論文《Reasoning by Superposition》(NeurIPS'25)を発表し、連続潜在空間推論が従来の方法と比べて優れている点を数学的に厳密に示し、一定の注目を集めた。### 推論効率の多次元突破大規模モデルの推論コスト削減はシステム工学の一環であり、Tian Yuandongのチームは複数の次元からアプローチした。**トークン層の最適化**:Token Assorted (ICLR'25)では、潜在空間で離散トークン(VQVAEを利用)を学習し、その後の訓練でこれらの離散トークンとテキストトークンを混合させることで、推論コストを大幅に削減しつつ、性能も向上させた。**信頼度駆動の推論終了**:DeepConfは、生成された各トークンの信頼度レベルを検出し、推論経路を動的に早期終了させることで、推論中に消費されるトークン数を大きく削減した。多くの投票シナリオでは、性能もさらに向上している。**並列推論チェーンの訓練加速**:ThreadWeaverは並列の推論チェーンを作成し、後訓練による協調最適化を行うことで、推論全体の速度を向上させた。さらに、チームは小型モデル上で強化学習駆動の推論能力(Sandwiched Policy Gradient)を探索し、MobileLLM-R1のような軽量モデルにおいても複雑な推論の学習を実現した。### 解釈性:「なぜ有効なのか」から「なぜ必然的に有効なのか」へTian Yuandongは、Grokking現象(突然の洞察)の関心は、2年前のある核心的な疑問から始まった:表現学習を分析する際、学習ダイナミクスと崩壊メカニズムを記述できる一方で、根本的な問い——**モデルは実際にどのような表現を学習しているのか?これらの表現はデータ構造とどう関係しているのか?どの程度の一般化能力を持つのか?**——には答えられなかった。Grokking現象——記憶から一般化への突如としての転換——は、この謎に入り込む窓のように見える。最初の探索は確かに困難だった。2024年の研究《COGS》(NeurIPS'25)は、特殊なケースの分析にとどまり、彼は満足していなかった。1年以上の反復思考とGPTとの多回対話を経て、最近の研究《Provable Scaling Laws》は大きな突破を示した:線形NTKフレームワークでは捉えきれない現象を分析でき、特徴の出現背後の訓練ダイナミクスをかなり良く説明できる。例は依然として特殊性を持つが、少なくとも新たな窓を開いた。年末の特に満足している研究《The path not taken》は、重みの観点から初歩的な答えを示し、なぜ強化学習と教師あり微調整(SFT)の挙動がこれほどまでに異なるのかを解明した。SFTは過学習と破壊的忘却を引き起こすが、その表層的な原因は訓練データがオンポリシー特性を欠いていることにあり、深層的には外部データが主要な重み成分を激しく変化させ、「基盤」の安定性を破壊している。一方、強化学習はオンポリシーデータを用いることで、主要な重み成分を変えずに副次的な成分だけを修正し、破壊的忘却を回避している——しかも、その変化した重みはより分散している(特にbf16量子化下で顕著)。## なぜ解釈性は信頼に値するのか多くの人は、解釈性——すなわち「AIはなぜこれほど効果的なのか」という問い——はそれほど重要ではないと考えている。しかし、Tian Yuandongにとっては、これは未来に関わる核心的な問題だ。二つの未来シナリオを考える:**シナリオ一**:ScalingだけでAGIやASIを実現できるならば、人類の労働価値はほぼゼロになる。このとき、AIは巨大なブラックボックスとしてすべての問題を解決する存在となる。最も緊急の課題は:**この超知能が常に善意を持ち、隠れて騙したり悪事を働いたりしないことをどう保証するか?**この答えは解釈性研究に依存する。**シナリオ二**:Scalingの道が最終的に行き詰まり、人類が指数関数的な資源増加を満たせなくなる場合、我々は別の道を模索しなければならない。そのとき、**「モデルがなぜ効果的か、何が失敗させるのか」を理解すること**が不可欠となる。そして、解釈性研究はこの代替路の基盤となる。どちらのシナリオにおいても、解釈性は問題解決の鍵だ。たとえAIが全知全能の善の存在であっても、人間の本性は、その理由を探究したくなるだろう。結局、「ブラックボックス」自体が疑念の連鎖を生む。大規模モデル技術が人類平均を超える時代において、『三体』の「ダークフォレスト」法則は別の形で現れるかもしれない。現状、訓練済みモデルのブラックボックスを開き、その内部回路を見つけ出すことは、依然として初歩的な課題だ。解釈性研究の真の難しさは、**第一原理から出発し——すなわちモデルアーキテクチャ、勾配降下、データの内在構造をもとに——なぜモデルが解離した疎な、低秩な、モジュール化された、組み合わせ可能な特徴に収束するのかを説明することにある。なぜこれほど多くの等価な解釈が存在するのか?どの超パラメータがこれらの構造の出現を引き起こすのか?それらはどのように相互に関連しているのか?**我々が勾配降下の方程式から直接、大規模モデルにおける特徴の出現の必然性を導き出せるとき、解釈性は生物学的な「証拠収集」から物理学的な「原理演繹」へと昇華し、実践を導き、次世代AI設計の新たな道を切り開く。四百年前の物理学に例えるならば:当時はデカルトやブラーヘ(AI分野のデータ収集者)が多くいたが、ニュートン(原理発見者)はまだいなかった。その瞬間が訪れると、世界の姿は一変するだろう。
2025年の分岐点:AI研究者の年間考察 (第一部)
文章来源:Xinzhiyuan | 編集:Taozi
職業転換の背後にある明確な選択
研究者がキャリアの重要な瞬間に予期せぬ変化に直面したとき、彼は何を学ぶのか?
2025年初頭のこの職業転換により、Tian Yuandongはクラシックな意思決定フレームワークを用いて自分の選択を振り返る機会を得た。大規模プロジェクト「応急」に招待された際、長年強化学習の研究に従事してきたAI科学者は、あらかじめ2x2のマトリックスを描き、4つの可能な結果を列挙した。しかし、現実は彼に第5の結果——予想外の結果——をもたらした。
この予期せぬ出来事は、社会の複雑性についてより深い洞察をもたらした。ただし、その数ヶ月の間に、チームは確かに強化学習の核心的課題において突破口を開いた:訓練の安定性、訓練と推論の相互作用、モデルアーキテクチャの設計、事前訓練と中間訓練の結合、長い推論チェーンのアルゴリズム、データ生成方法、後訓練フレームワークの設計など。これらの成果は、彼の今後の研究方向に重要なパラダイムシフトをもたらした。
Tian Yuandongは、実は大手企業を離れる決断は長年にわたり準備されていたと告白している。10年以上のキャリアの中で、何度も退職を考えた——2023年末には実行寸前だったが、経済的・家庭的な理由で何度も思いとどまった。近年、彼は冗談半分に、自分の言動がまるで「会社に辞めることを"暗示"している」かのようだと語っていた。今回、ついに「助けられて」決断を下した。
面白いことに、この人生の「ジグザグ」軌跡がむしろ彼の創造性の養分となった。古い格言にあるように:「官路が通じなければ、詩人はその利益を得る;人生経験が豊かであればあるほど、詩句は深くなる。」あまりに順調すぎる人生は、むしろ生活そのものの張りを欠いてしまう。
彼はまた、2021年初頭に年度総括の中で「論文が採択されなかった理由」について数行の反省を書いたところ、あまり友好的でないフィードバックを受け取ったことを覚えている。しかし、彼は沈黙を守り、さらには昇進を得たばかりのふりをしていた。半年後、その戦略が実を結び、彼は本当に昇進した。そして、2021年初頭には誰も注目しなかったその研究が、2021年7月にICMLの最優秀論文賞を受賞し、表現学習分野の古典的な作品となった。
10月22日以降、彼のすべての通信手段は一時麻痺し——毎日数百通のメッセージ、メール、会議招待が殺到した。正常な生活に戻るまで数週間を要した。これまでの間、皆さんの関心に感謝しつつも、返信できなかったメッセージもあったことを認める。
最終的に、複数のトップテクノロジー企業からの招待の中で、彼は共同創業者として新しいスタートアップに参加することを選んだ。詳細は一時秘密にしているが、彼は早すぎる公開よりも、集中して仕事に取り組むことを優先したいと考えている。
2025年の研究マップ:三つの主軸
Tian Yuandongが自ら描いた研究ルートは非常に明確だ:大規模モデルの推論効率とモデルの解釈性。
連続潜在空間推論の拡散
2024年末に発表された連続潜在空間推論(coconut, COLM’25)は、2025年に広く共感を呼んだ。研究コミュニティは次のように探求を始めた:強化学習や事前訓練にこのアイデアをどう応用できるか?訓練効率や計算コストをどう最適化するか?
その後、彼のチームは他のプロジェクトに異動し、この線を深く追究できなかったが、この方向自体の価値はすでに証明された。上半期には、理論的分析論文《Reasoning by Superposition》(NeurIPS’25)を発表し、連続潜在空間推論が従来の方法と比べて優れている点を数学的に厳密に示し、一定の注目を集めた。
推論効率の多次元突破
大規模モデルの推論コスト削減はシステム工学の一環であり、Tian Yuandongのチームは複数の次元からアプローチした。
トークン層の最適化:Token Assorted (ICLR’25)では、潜在空間で離散トークン(VQVAEを利用)を学習し、その後の訓練でこれらの離散トークンとテキストトークンを混合させることで、推論コストを大幅に削減しつつ、性能も向上させた。
信頼度駆動の推論終了:DeepConfは、生成された各トークンの信頼度レベルを検出し、推論経路を動的に早期終了させることで、推論中に消費されるトークン数を大きく削減した。多くの投票シナリオでは、性能もさらに向上している。
並列推論チェーンの訓練加速:ThreadWeaverは並列の推論チェーンを作成し、後訓練による協調最適化を行うことで、推論全体の速度を向上させた。
さらに、チームは小型モデル上で強化学習駆動の推論能力(Sandwiched Policy Gradient)を探索し、MobileLLM-R1のような軽量モデルにおいても複雑な推論の学習を実現した。
解釈性:「なぜ有効なのか」から「なぜ必然的に有効なのか」へ
Tian Yuandongは、Grokking現象(突然の洞察)の関心は、2年前のある核心的な疑問から始まった:表現学習を分析する際、学習ダイナミクスと崩壊メカニズムを記述できる一方で、根本的な問い——モデルは実際にどのような表現を学習しているのか?これらの表現はデータ構造とどう関係しているのか?どの程度の一般化能力を持つのか?——には答えられなかった。
Grokking現象——記憶から一般化への突如としての転換——は、この謎に入り込む窓のように見える。最初の探索は確かに困難だった。2024年の研究《COGS》(NeurIPS’25)は、特殊なケースの分析にとどまり、彼は満足していなかった。1年以上の反復思考とGPTとの多回対話を経て、最近の研究《Provable Scaling Laws》は大きな突破を示した:線形NTKフレームワークでは捉えきれない現象を分析でき、特徴の出現背後の訓練ダイナミクスをかなり良く説明できる。例は依然として特殊性を持つが、少なくとも新たな窓を開いた。
年末の特に満足している研究《The path not taken》は、重みの観点から初歩的な答えを示し、なぜ強化学習と教師あり微調整(SFT)の挙動がこれほどまでに異なるのかを解明した。
SFTは過学習と破壊的忘却を引き起こすが、その表層的な原因は訓練データがオンポリシー特性を欠いていることにあり、深層的には外部データが主要な重み成分を激しく変化させ、「基盤」の安定性を破壊している。一方、強化学習はオンポリシーデータを用いることで、主要な重み成分を変えずに副次的な成分だけを修正し、破壊的忘却を回避している——しかも、その変化した重みはより分散している(特にbf16量子化下で顕著)。
なぜ解釈性は信頼に値するのか
多くの人は、解釈性——すなわち「AIはなぜこれほど効果的なのか」という問い——はそれほど重要ではないと考えている。しかし、Tian Yuandongにとっては、これは未来に関わる核心的な問題だ。
二つの未来シナリオを考える:
シナリオ一:ScalingだけでAGIやASIを実現できるならば、人類の労働価値はほぼゼロになる。このとき、AIは巨大なブラックボックスとしてすべての問題を解決する存在となる。最も緊急の課題は:**この超知能が常に善意を持ち、隠れて騙したり悪事を働いたりしないことをどう保証するか?**この答えは解釈性研究に依存する。
シナリオ二:Scalingの道が最終的に行き詰まり、人類が指数関数的な資源増加を満たせなくなる場合、我々は別の道を模索しなければならない。そのとき、「モデルがなぜ効果的か、何が失敗させるのか」を理解することが不可欠となる。そして、解釈性研究はこの代替路の基盤となる。
どちらのシナリオにおいても、解釈性は問題解決の鍵だ。たとえAIが全知全能の善の存在であっても、人間の本性は、その理由を探究したくなるだろう。結局、「ブラックボックス」自体が疑念の連鎖を生む。
大規模モデル技術が人類平均を超える時代において、『三体』の「ダークフォレスト」法則は別の形で現れるかもしれない。現状、訓練済みモデルのブラックボックスを開き、その内部回路を見つけ出すことは、依然として初歩的な課題だ。
解釈性研究の真の難しさは、第一原理から出発し——すなわちモデルアーキテクチャ、勾配降下、データの内在構造をもとに——なぜモデルが解離した疎な、低秩な、モジュール化された、組み合わせ可能な特徴に収束するのかを説明することにある。なぜこれほど多くの等価な解釈が存在するのか?どの超パラメータがこれらの構造の出現を引き起こすのか?それらはどのように相互に関連しているのか?
我々が勾配降下の方程式から直接、大規模モデルにおける特徴の出現の必然性を導き出せるとき、解釈性は生物学的な「証拠収集」から物理学的な「原理演繹」へと昇華し、実践を導き、次世代AI設計の新たな道を切り開く。
四百年前の物理学に例えるならば:当時はデカルトやブラーヘ(AI分野のデータ収集者)が多くいたが、ニュートン(原理発見者)はまだいなかった。その瞬間が訪れると、世界の姿は一変するだろう。