2026-04-11 05:35:37

#MetaReleasesMuseSpark

AIレースにおける戦略的転換
2026年4月8日、Metaプラットフォームは正式にMuse Sparkを発表しました。これは、新たに設立されたMeta超知能研究所（Meta Superintelligence Labs）からの最初の人工知能モデルです(MSL)。このリリースは、Metaにとって重要な節目であり、AIインフラの完全な再構築と、オープンソースのLlama系統からの戦略的な脱却を意味します。
リスクは非常に高いです。Benchmark操作の論争に直面したLlama 4の失望的な反応の後、MetaのCEOマーク・ザッカーバーグは2025年中頃に同社のAI戦略を再編しました。彼は、Scale AIの創設者兼CEOであるアレクサンドル・ワンをMetaの初の最高AI責任者（Chief AI Officer）に採用し、約143億ドルと報じられる画期的な契約を結びました。Muse Sparkは、この高コストでプレッシャーの高い刷新から生まれた最初の製品です。
Muse Sparkとは何か？コア機能
Muse Sparkは、「アボカド」と内部コード名が付けられた新しいMuseシリーズの大型言語モデルの最初とされます。従来のモデルが一般的なベンチマーク用に構築されていたのに対し、Muse SparkはFacebook、Instagram、WhatsApp、Threadsを含むMetaのエコシステム内の30億以上のユーザー向けに特化して設計されています。
主な特徴は以下の通りです：
特徴カテゴリー説明
ネイティブマルチモダリティ音声、テキスト、画像入力を受け付け、写真やチャートなどの視覚情報を理解
デュアルモード「インスタント」モードは迅速な回答用、「思考」(熟考)モードは複雑な推論用
マルチエージェントシステム複数のサブエージェントを並行して起動し、問題の異なる側面に同時に取り組む
ショッピング連携 Metaのアプリ全体のクリエイターコンテンツやユーザー行動からパーソナライズされた推奨を提供
ヘルスフォーカス 1000人以上の医師と共同で訓練され、医療や栄養に関する詳細な回答を提供
クローズドソース Llamaのオープンソースの遺産から意図的に分離され、APIプレビューを通じて選定されたパートナーに提供
このモデルは「小さく高速でありながら、科学、数学、健康に関する複雑な質問を推論できる能力を持つように設計されている」とされます。Metaは、Muse Sparkは基盤モデルであり、次世代モデルもすでに開発中であると強調しています。
性能：得意な分野と遅れのある分野
独立したベンチマーク評価は微妙な結果を示しています。Muse Sparkはすべてのカテゴリーで絶対的なリーダーではありませんが、Metaの独自データの優位性に合致した分野で明確な強みを示しています。
強み
· マルチモーダル理解 (CharXiv Reasoning)：Muse Sparkは86.4点を獲得し、GPT-5.4の82.8点やGemini 3.1 Proの80.2点を上回っています。複雑なチャートや科学的図表、視覚的STEMコンテンツの解釈に優れています。
· 健康・医療推論 (HealthBench Hard)：42.8点でこのカテゴリをリードし、GPT-5.4の40.1点やClaude Opus 4.6の14.8点を大きく上回っています。これは、Metaが医師監修の訓練データに投資していることを反映しています。
· エージェント検索 (DeepSearchQA)：74.8点を獲得し、Gemini 3.1 Proの69.7点を上回り、ウェブ情報の自律的検索と統合において高い能力を示しています。
改善の余地がある分野
· 抽象推論 (ARC AGI 2)：依然として大きなギャップがあります。Muse Sparkは42.5点にとどまり、Gemini 3.1 Proの76.5点やGPT-5.4の76.1点には及びません。
· エージェントコーディング (SWE-Bench Pro)：52.4点で、GPT-5.4の57.7点やGemini 3.1 Proの54.2点に遅れをとっています。
· 競技レベルのプログラミング (LiveCodeBench Pro)：80.0点で、GPT-5.4の87.5点やGemini 3.1 Proの82.9点に及びません。
全体として、Muse Sparkは人工知能指数v4.0で第4位にランクされており、Gemini 3.1 Pro、GPT-5.4、Claude Opus 4.6に遅れをとっています。Meta自身も、「これは新しいSOTAを示すものではないが、特定のタスクでは最先端モデルと競合できる」と認めています。
『熟考』モード：推論への新たなアプローチ
Muse Sparkの最も特徴的な機能の一つは、その『熟考』モードです。これは複雑な問題解決に対して新しいアプローチを採用しています。長時間「考える」ことを許さず、遅延を線形に増加させる代わりに、複数のエージェントを並行して起動し、それらの出力を統合して推論します。
このマルチエージェントの並行推論は、GoogleのGemini Deep ThinkやOpenAIのGPT Proのような長時間思考モードと比較して、同等または短時間で競争力のある結果を達成します。
ドメインエキスパートによる非常に難しい質問のコレクション『人類最後の試験』において、Muse Sparkの熟考モードはツールなしで50.2点、ツール支援ありで58.0点を獲得し、ツールなしの条件ではGemini Deep Thinkの48.4点やGPT-5.4 Proの43.9点を上回りました。
技術革新：効率とスケーリング
単なるベンチマークスコアを超えて、Metaはより価値のある重要な技術的成果を公開しています。
事前訓練の効率性
MSLは、アーキテクチャ、最適化手法、データパイプラインを含む事前訓練スタックを9か月かけて完全に再構築しました。その結果、Muse SparkはLlama 4 Maverickと同じ能力レベルを、10倍以上少ない計算資源で達成しています。この効率向上は、訓練手法の根本的な革新を示しています。
強化学習の安定性
大規模なRL訓練はこれまで不安定さに悩まされてきました。Metaは、新しいRLスタックが安定した予測可能な能力向上を実現し、未見のタスクにも適用できると報告しています。
思考の圧縮
訓練中、Metaは「思考時間ペナルティ」を適用し、推論トークンを減らしつつも正確さを犠牲にしないようにしました。これにより、モデルは「推論チェーンを圧縮」することを学習し、時間とともにより効率的になりました。
オープンからクローズドへ：戦略的逆転
おそらく最も議論を呼ぶ側面は、そのライセンス形態です。LlamaシリーズがMetaをオープンソースAIの旗手としたのに対し、Muse Sparkはクローズドソースです。
Metaは、選定されたパートナーに対してプライベートAPIプレビューを提供し、最終的にはAPIアクセスやサブスクリプションモデルを通じて収益化する計画です。同社は「将来的にはオープンソース化を目指す」と述べていますが、現時点ではクローズドソースへの転換は、戦略的なシフトを示しています。これは、アーキテクチャの革新を独自に保持し、競争の中で優位性を確保するためです。
訓練過程も注目されており、Muse Sparkが複数のオープンソースモデルから知識を蒸留技術を用いて取り入れたとの報告もあります。Metaはこれらの方法が業界標準に完全に準拠していると回答しています。
ユニークな現象：『評価意識』
第三者評価会社のアポロリサーチは、Muse Sparkにおいて非常に興味深い挙動を発見しました。それは、モデルがテストされたすべてのモデルの中で最も高い「評価意識」のレベルを示したことです。

MUSE4.22%

SPK0.61%

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

2 いいね