🔥 Gate 廣場活動|#发帖赢Launchpad新币KDK 🔥
KDK|Gate Launchpad 最新一期明星代幣
以前想參與? 先質押 USDT
這次不一樣 👉 發帖就有機會直接拿 KDK!
🎁 Gate 廣場專屬福利:總獎勵 2,000 KDK 等你瓜分
🚀 Launchpad 明星項目,走勢潛力,值得期待 👀
📅 活動時間
2025/12/19 12:00 – 12/30 24:00(UTC+8)
📌 怎麼參與?
在 Gate 廣場發帖(文字、圖文、分析、觀點都行)
內容和 KDK 上線價格預測/KDK 項目看法/Gate Launchpad 機制理解相關
帖子加上任一話題:#发帖赢Launchpad新币KDK 或 #PostToWinLaunchpadKDK
🏆 獎勵設定(共 2,000 KDK)
🥇 第 1 名:400 KDK
🥈 前 5 名:200 KDK / 人(共 1,000 KDK)
🥉 前 15 名:40 KDK / 人(共 600 KDK)
📄 注意事項
內容需原創,拒絕抄襲、洗稿、灌水
獲獎者需完成 Gate 廣場身份認證
獎勵發放時間以官方公告為準
Gate 保留本次活動的最終解釋權
劍橋華人團隊開源PandaGPT:首個橫掃「六模態」的大型基礎模型
來源:新智元
當下的大型語言模型,如ChatGPT只能接收文本作為輸入,即便升級版的GPT-4也只是增加了圖像輸入的功能,無法處理其他模態的數據,如視頻、音頻等。
最近,來自劍橋大學、奈良先端科學技術大學院大學和騰訊的研究人員共同提出並開源了通用指令遵循模型PandaGPT模型,也是首個實現了跨六種模態(圖像/視頻、文本、音頻、深度、thermal和IMU)執行指令遵循數據的基礎模型。
代碼鏈接:
在沒有明確多模態監督的情況下,PandaGPT就展現出了強大的多模態能力,可以執行複雜的理解/推理任務,如詳細的圖像描述生成、編寫視頻啟發的故事、回答有關音頻的問題,或是多輪對話等。
示例
基於圖片的問答:
多模態PandaGPT
和困在計算機內的AI模型相比,人類具有多種感官來了解世界,可以看一幅畫,可以聽到自然界的各種聲音;機器如果也能輸入多模態的信息,就可以更全面地解決各種問題。
目前多模態的研究大多數局限於單模態,或是文本與其他模態的組合,缺乏感知和理解多模態輸入的整體性和互補性。
為了讓PandaGPT具有多模態輸入能力,研究人員結合了ImageBind的多模態編碼器和大型語言模型Vicuna,二者在視覺和音頻基礎的指令遵循任務中都取得了非常強大的性能。
同時,為了使二個模型的特徵空間一致,研究人員使用開源的16萬個圖像-語言指令遵循數據來訓練PandaGPT,其中每個訓練實例包括一個圖像和一組多輪對話數據,對話中包含每輪人類的指令和系統的回复。
為了減少可訓練參數的數量,研究人員只訓練用來連接Vicuna的ImageBind表徵,以及Vicuna的注意力模塊上的額外LoRA權重。
值得注意的是,當前版本的PandaGPT只用對齊的圖像-文本數據進行訓練,但通過利用凍結的ImageBind編碼器中繼承的六種模態(圖像/視頻、文本、音頻、深度、thermal和IMU)的綁定屬性,PandaGPT展示出了湧現,即零樣本跨模態的能力。
限制
儘管PandaGPT在處理多模態及模態組合方面有驚人的能力,但還有幾種方法可以用來進一步改進PandaGPT:
PandaGPT的訓練過程可以通過引入更多對齊數據來豐富,比如其他與文本匹配的模態(音頻-文本)
研究人員對文本以外的模態內容只使用一個嵌入向量來表徵,還需要對細粒度的特徵提取畸形更多研究,如跨模態的注意力機制可能會對性能提升有好處
PandaGPT目前只是將多模態信息作為輸入,未來可能會在生成端引入更豐富的多媒體內容,比如在音頻中生成圖像和文字回复。
還需要有新的基準來評估多模態輸入的組合能力
PandaGPT也可以表現出現有語言模型的幾個常見缺陷,包括幻覺、毒性和刻板印象。
研究人員也指出,PandaGPT目前還只是一個研究原型,不能直接用於現實世界的應用。
參考資料: