💥 Gate廣場活動: #ART创作大赛# 💥
在 Gate廣場發布與 ART、Launchpool、交易賽或餘幣寶活動 相關的原創內容,即有機會瓜分 1,600 ART 獎勵!
📅 活動時間:2025年9月12日 12:00 – 9月17日 24:00 (UTC+8)
📌 相關詳情:
Gate Launchpool:抵押 GT 領取 ART 空投
連結:https://www.gate.com/announcements/article/46996
ART 交易賽:分享總獎池 208,334 ART
連結:https://www.gate.com/announcements/article/47047
Gate 餘幣寶:ART 7天定期投資,年化收益高達 500% APR
連結:https://www.gate.com/announcements/article/47046
📌 參與方式:
發布原創內容,主題需與 ART 或相關活動(Launchpool / 交易賽 / 餘幣寶) 相關
內容不少於 80 字
帖子添加話題: #ART创作大赛#
附上任意活動參與截圖
🏆 獎勵設置:
🥇 一等獎(1名):500 ART
🥈 二等獎(2名):250 ART/人
🥉 三等獎(6名):100 ART/人
📄 注意事項:
內容必須原創,禁止抄襲或刷量
獲獎者需完成 Gate
國產大模型新進展,光芒照進聽覺領域
按照傳統看法,AI與大模型等涉及到的機器學習概念主要集中在“視覺”領域,經過不懈努力,現在已經拓展到聽覺領域了。清華大學與火山語音團隊合作,推出認知導向的開源聽覺大模型SALMONN,名稱源於Speech Audio Language Music Open Neural Network的首字母縮寫。 Demo鏈接:
如果僅以人的角度來看,視覺與聽覺是既獨立又配合的信息系統。但從電腦,大模型等涉及到AI的角度來說,從視覺到聽覺的跨越絕非動動嘴或手指那般想像中的簡單,其中的意義可以用美國登月先驅阿姆斯特朗的那句名言概括: “這是我個人的一小步,也是人類的一大步。”
而傳統的音頻處理手段較為繁瑣,在接受到音頻信號後先要通過API調用底層工具將音頻轉化為文字信息,再將文字信息輸入大模型做後續處理。與之相比,SALMONN可以直接從現實世界獲取知識,並在一些複雜場景中也有很好的理解和處理能力。而且由於訓練數據全部基於文本指令,因此也可以說它擁有跨模態的交互能力。
從目前的消息來看,SALMONN能夠勝任多種多樣的語音相關任務,同時又有多種在訓練時沒有專門學習過的多語言和跨模態能力,如不同語種的語音識別、英語到其他語言的翻譯、對語音內容的摘要與提取關鍵詞、通過音頻生成故事、音頻問答、語音和音頻聯合推理等任務。
根據官方團隊的說法,SALMONN能處理的任務,依據從易到難的程度可以分為三類:1.訓練中就學習過的任務,2.訓練中沒學過,但SALMONN能夠基於文本輸入完成的任務,3.訓練中沒學過,需要直接感知音頻或視頻的多模態大模型才能完成的任務。
**之所以會有如此窘境,主要是因為機器聽覺與機器視覺的先天性差異,以及由此導致的一系列困難。 **過去曾介紹過,蘋果的Siri已經算是質量很好的語音助手了,但依然經常被人嘲諷為“人工智障”。後來又有消息說蘋果對Siri也有諸多不滿,歷次發布會裡對它一直都很少提及,即使提到可能也只是“更智能”“更強大”之類的套話。之前馬克·古爾曼爆料蘋果在秘密開發Apple GPT時也說過,Siri部門長期陷於費力不討好的泥沼中,蘋果多年來一直想為Siri進行一次革命性更新,甚至是為此而單獨規劃生產線,專門出一款新產品,將Apple GPT與Siri集成到一起或許是一種好方法,能識別語音且能用語音控制的大模型,的確是比較酷的。