Kemajuan baru model skala besar dalam negeri, cahayanya menyinari bidang pendengaran

Menurut pandangan tradisional, konsep pembelajaran mesin yang terlibat dalam AI dan model besar sebagian besar terkonsentrasi di bidang "penglihatan", dan setelah upaya yang tak henti-hentinya, kini telah diperluas ke bidang pendengaran. Universitas Tsinghua bekerja sama dengan Volcano Speech Team meluncurkan model pendengaran sumber terbuka berorientasi kognitif SALMONN, yang namanya berasal dari akronim Speech Audio Language Music Open Neural Network. Tautan demo:

Dari sudut pandang manusia, penglihatan dan pendengaran merupakan sistem informasi yang independen dan kooperatif. Namun dari sudut pandang komputer, model besar, dan lain-lain yang melibatkan AI, lompatan dari penglihatan ke pendengaran tidaklah semudah menggerakkan mulut atau jari Anda.Artinya dapat diringkas dalam pepatah terkenal tentang bulan Amerika. pelopor pendaratan Armstrong: "Itu adalah satu langkah kecil bagi manusia, satu lompatan besar bagi umat manusia."

Berbeda dengan input suara atau asisten suara tradisional, tidak sulit untuk mengetahui dari namanya bahwa SALMONN memiliki kemampuan untuk memahami dan memahami berbagai input sinyal audio seperti ucapan, suara, audio, dan musik, yang setara dengan menambahkan Memperhatikan, dan kemudian mengembangkan kemampuan yang lebih kompleks dan berdimensi tinggi seperti penalaran multibahasa dan lintas modal atas dasar ini. Secara khusus, model besar yang mendasari SALMONN adalah Vicuna 13B, "alpaca" yang terkenal, ditambah encoder audio umum berdasarkan Whisper Encoder, dan perangkat fusi yang bertanggung jawab untuk menyelaraskan modalitas audio dan teks. Dengan kerjasama rangkaian fasilitas ini, SALMONN memiliki kemampuan untuk melihat informasi audio secara langsung.

Namun, metode pemrosesan audio tradisional relatif rumit. Setelah menerima sinyal audio, alat yang mendasarinya perlu dipanggil melalui API untuk mengubah audio menjadi informasi teks, dan kemudian memasukkan informasi teks ke dalam model besar untuk pemrosesan selanjutnya. Sebaliknya, SALMONN dapat memperoleh pengetahuan langsung dari dunia nyata, dan juga memiliki pemahaman dan kemampuan pemrosesan yang baik dalam beberapa skenario kompleks. Dan karena semua data pelatihan didasarkan pada instruksi teks, dapat juga dikatakan bahwa data tersebut memiliki kemampuan interaksi lintas modal.

Diagram analisis model yang dirilis secara resmi

Dilihat dari berita terkini, SALMONN mampu melakukan berbagai tugas yang berhubungan dengan ucapan, dan pada saat yang sama memiliki berbagai kemampuan multibahasa dan lintas-modal yang belum dipelajari secara khusus selama pelatihan, seperti pengenalan suara dalam berbagai bahasa, Terjemahan dari bahasa Inggris ke bahasa lain, ringkasan dan ekstraksi kata kunci dari konten pidato, pembuatan cerita dari audio, menjawab pertanyaan audio, penalaran gabungan pidato dan audio, dll.

Menurut tim resmi, tugas-tugas yang dapat ditangani SALMONN dapat dibagi menjadi tiga kategori menurut tingkatannya dari mudah ke sulit: 1. Tugas-tugas yang telah dipelajari selama pelatihan, 2. Tugas-tugas yang belum dipelajari selama pelatihan, tetapi SALMONN dapat diselesaikan berdasarkan input teks 3. Tugas yang belum dipelajari dalam pelatihan dan memerlukan model multi-modal besar yang secara langsung merasakan audio atau video untuk diselesaikan.

Jika Anda hanya membaca makalah dan demo, mudah untuk berpikir bahwa SALMONN adalah "hanya itu", tetapi seperti yang disebutkan sebelumnya, visi mesin dan pendengaran mesin termasuk dalam dua bidang, antara lain konsep seperti AGI (Kecerdasan Buatan Umum) dan pembelajaran mesin. Yang sering disebutkan, penelitian tentang pendengaran masih hadir dalam bentuk “asisten suara” atau sejenisnya, seperti Siri yang hadir di iPhone belasan tahun lalu. Meskipun konsepnya sangat mutakhir, perkembangan pendengaran mesin sudah lama tidak secepat dan seproduktif visi mesin.Meskipun konsep seperti AGI dan model besar sedang sangat populer, pendengaran mesin tampaknya masih tidak mengganggu.

**Alasan dilema seperti ini terutama disebabkan oleh perbedaan bawaan antara pendengaran mesin dan penglihatan mesin, serta serangkaian kesulitan yang disebabkan olehnya. **Di masa lalu telah diketahui bahwa Siri dari Apple sudah menjadi asisten suara berkualitas baik, namun masih sering diejek sebagai "keterbelakangan mental buatan". Belakangan dikabarkan bahwa Apple juga memiliki banyak ketidakpuasan terhadap Siri, hal ini jarang disebutkan pada konferensi-konferensi sebelumnya, kalaupun disebutkan mungkin hanya "lebih pintar" dan "lebih bertenaga". Sebelum Mark Gurman menyampaikan kabar bahwa Apple juga mengatakan ketika diam-diam mengembangkan Apple GPT, departemen Siri telah lama terjebak dalam rawa yang tidak tahu berterima kasih. Apple telah mencoba membuat pembaruan revolusioner untuk Siri selama bertahun-tahun, dan bahkan merencanakan jalur produksi terpisah untuk tujuan ini., untuk membuat produk baru, mungkin merupakan cara yang baik untuk mengintegrasikan Apple GPT dan Siri bersama-sama, model besar yang dapat mengenali suara dan dapat dikontrol dengan suara sungguh keren.

SALMONN yang diluncurkan bersama oleh Universitas Tsinghua dan Volcano Voice mungkin sedang berada di jalur yang sama, dan memang telah menunjukkan gameplay baru, mungkin lebih banyak produk baru serupa akan segera keluar.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)