Новий прогрес вітчизняних великомасштабних моделей, світло світить у поле слуху

Згідно з традиційною точкою зору, концепції машинного навчання, задіяні в штучному інтелекті та великих моделях, в основному зосереджені в області «зору», але після невпинних зусиль вони поширилися на слух. Університет Цінхуа співпрацював з Volcano Speech Team, щоб запустити когнітивно-орієнтовану модель слухання з відкритим кодом SALMONN, назва якої походить від абревіатури Speech Audio Language Music Open Neural Network. Демонстраційне посилання:

З людської точки зору зір і слух є одночасно незалежними та скоординованими інформаційними системами. Але з точки зору комп’ютерів, великих моделей тощо, які включають штучний інтелект, перехід від зору до слуху зовсім не такий простий, як рух рота чи пальців. Значення цього можна підсумувати у відомому вислові американського Місяця Піонер десанту Армстронг: «Це маленький крок для людини, один величезний стрибок для людства».

На відміну від традиційного голосового введення або голосових помічників, з назви неважко з’ясувати, що SALMONN має здатність сприймати та розуміти різні вхідні аудіосигнали, такі як мова, голос, аудіо та музика, що еквівалентно додаванню Вставляти на вуха, а потім розвивати на цій основі більш складні та багатовимірні здібності, такі як багатомовне та кросмодальне міркування. Зокрема, основною великою моделлю SALMONN є Vicuna 13B, знаменита «альпака», плюс загальний аудіокодер на основі Whisper Encoder і пристрій синтезу, відповідальний за узгодження аудіо та текстових модальностей. За допомогою цього набору засобів SALMONN має можливість безпосередньо сприймати аудіоінформацію.

Однак традиційні методи обробки аудіо відносно громіздкі.Після отримання аудіосигналу необхідно викликати базовий інструмент через API для перетворення аудіо в текстову інформацію, а потім ввести текстову інформацію у велику модель для подальшої обробки. Навпаки, SALMONN може безпосередньо отримувати знання з реального світу, а також має хороші можливості розуміння й обробки в деяких складних сценаріях. І оскільки всі навчальні дані базуються на текстових інструкціях, можна також сказати, що вони мають можливості кросмодальної взаємодії.

Офіційно випущена діаграма аналізу моделі

Судячи з поточних новин, SALMONN здатний виконувати різноманітні завдання, пов’язані з мовленням, і водночас має ряд багатомовних і крос-модальних можливостей, які не вивчалися спеціально під час навчання, наприклад, розпізнавання мовлення. різними мовами, переклад з англійської на інші мови, узагальнення та виділення ключових слів із вмісту мовлення, створення розповідей із аудіо, аудіо-відповіді на запитання, спільні міркування мовлення та аудіо тощо.

За словами офіційної команди, завдання, з якими може впоратися SALMONN, можна розділити на три категорії за ступенем від легкого до складного: 1. Завдання, які були вивчені під час навчання, 2. Завдання, які не були вивчені під час навчання, але SALMONN може виконати на основі введення тексту 3. Завдання, які не були вивчені під час навчання та потребують мультимодальної великої моделі, яка безпосередньо сприймає аудіо чи відео.

Якщо ви читаєте лише статті та демонстрації, легко подумати, що SALMONN — це «саме це», але, як згадувалося раніше, машинний зір і машинний слух належать до двох областей. Серед таких концепцій, як AGI (загальний штучний інтелект) і машинне навчання які часто згадуються, дослідження слуху все ще є у формі «голосових помічників» або подібних, як Siri, яка з’явилася на iPhone десяток років тому. Незважаючи на передову концепцію, розвиток машинного слуху вже давно не був таким швидким і продуктивним, як машинний зір. Незважаючи на те, що такі концепції, як AGI та великі моделі, дуже популярні, машинний слух все ще здається ненав’язливим.

**Причина такої дилеми головним чином пов’язана з вродженими відмінностями між машинним слухом і машинним зором, а також рядом труднощів, викликаних цим. **Раніше повідомлялося, що Siri від Apple вже є якісним голосовим помічником, але його все ще часто висміюють як «штучну розумову відсталість». Пізніше з'явилася інформація, що Apple теж дуже невдоволена Siri, на попередніх конференціях про неї рідко згадували, навіть якщо про неї згадують, можливо, вона просто "розумніша" і "потужніша". До того, як Марк Гурман оприлюднив новини про те, що Apple також заявила, коли таємно розробляла Apple GPT, відділ Siri довгий час застряг у невдячній трясовині Apple намагалася зробити революційне оновлення для Siri багато років і навіть планувала окрема виробнича лінія для цієї мети. , щоб створити новий продукт, це може бути хорошим способом інтегрувати Apple GPT і Siri разом, велика модель, яка може розпізнавати голос і керувати нею голосом, це дійсно круто.

SALMONN, спільно запущений Університетом Цінхуа та Volcano Voice, може бути на такому шляху, і він справді продемонстрував новий геймплей. Можливо, незабаром з’являться інші подібні нові продукти.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити