従来の見方では、AIや大型モデルに関わる機械学習の概念は主に「視覚」の分野に集中していましたが、たゆまぬ努力を経て、現在では聴覚の分野にも広がりを見せています。清華大学は火山音声チームと協力して、認知指向のオープンソース聴覚モデル SALMONN を立ち上げました。SALMONN の名前は、Speech Audio Language Music Open Neural Network の頭字語に由来しています。デモリンク:
**このようなジレンマの理由は主に、機械聴覚と機械視覚の生得的な違いと、それによって引き起こされる一連の困難によるものです。 **Apple の Siri はすでに高品質の音声アシスタントであることは過去に紹介されましたが、依然として「人工的な精神遅滞」と揶揄されることがよくあります。その後、Apple も Siri に多くの不満を抱いていると報じられましたが、これまでのカンファレンスではほとんど言及されておらず、言及されたとしても単に「より賢くなった」「より強力になった」だけかもしれません。マーク・ガーマン氏がこのニュースを発表する前に、アップルは「Apple GPT」を極秘に開発した際に、「Siri部門は長い間報われない泥沼にはまっていた」とも語っていたとのことで、Appleは長年にわたってSiriの革新的なアップデートを試みており、計画さえしていたという。この目的のための別の生産ライン、新しい製品を作成するには、Apple GPT と Siri を統合するのが良い方法かもしれません、音声を認識でき、音声で制御できる大型モデルは本当にクールです。
国産大型モデルの新たな進化、聴覚分野に光を当てる
従来の見方では、AIや大型モデルに関わる機械学習の概念は主に「視覚」の分野に集中していましたが、たゆまぬ努力を経て、現在では聴覚の分野にも広がりを見せています。清華大学は火山音声チームと協力して、認知指向のオープンソース聴覚モデル SALMONN を立ち上げました。SALMONN の名前は、Speech Audio Language Music Open Neural Network の頭字語に由来しています。デモリンク:
人間の観点から見ると、視覚と聴覚はどちらも独立した協調的な情報システムです。しかし、AIを使ったコンピュータや大型模型などの観点から見ると、視覚から聴覚への飛躍は口や指を動かすほど単純なものではなく、その重要性はアメリカの有名な「月」の言葉に集約されます。上陸先駆者アームストロング: 「これは人間にとっては小さな一歩ですが、人類にとっては大きな飛躍です。」
しかし、従来の音声処理方法は比較的煩雑であり、音声信号を受信した後、API を介して基礎となるツールを呼び出して音声をテキスト情報に変換し、その後の処理のためにそのテキスト情報を大規模なモデルに入力する必要があります。対照的に、SALMONN は現実世界から知識を直接取得でき、一部の複雑なシナリオでも優れた理解力と処理能力を備えています。また、トレーニング データはすべてテキストの指示に基づいているため、クロスモーダル インタラクション機能があるとも言えます。
現在のニュースから判断すると、SALMONN はさまざまな音声関連タスクが可能であると同時に、音声認識など、トレーニング中に特別に学習されていないさまざまな多言語およびクロスモーダル機能を備えています。多言語化、英語から他言語への翻訳、音声内容の要約とキーワード抽出、音声からのストーリー生成、音声質問応答、音声と音声の共同推論など。
公式チームによると、SALMONNが扱えるタスクは、簡単なものから難しいものの程度に応じて、1. トレーニング中に習得したタスク、2. トレーニング中に習得していないタスクの3つのカテゴリに分類されるとのことですが、SALMONNテキスト入力に基づいて完了できます。 3. トレーニングで学習されていないタスクで、完了するには音声またはビデオを直接認識するマルチモーダルな大規模モデルが必要です。
**このようなジレンマの理由は主に、機械聴覚と機械視覚の生得的な違いと、それによって引き起こされる一連の困難によるものです。 **Apple の Siri はすでに高品質の音声アシスタントであることは過去に紹介されましたが、依然として「人工的な精神遅滞」と揶揄されることがよくあります。その後、Apple も Siri に多くの不満を抱いていると報じられましたが、これまでのカンファレンスではほとんど言及されておらず、言及されたとしても単に「より賢くなった」「より強力になった」だけかもしれません。マーク・ガーマン氏がこのニュースを発表する前に、アップルは「Apple GPT」を極秘に開発した際に、「Siri部門は長い間報われない泥沼にはまっていた」とも語っていたとのことで、Appleは長年にわたってSiriの革新的なアップデートを試みており、計画さえしていたという。この目的のための別の生産ライン、新しい製品を作成するには、Apple GPT と Siri を統合するのが良い方法かもしれません、音声を認識でき、音声で制御できる大型モデルは本当にクールです。