阿里大模型又開源！能讀圖會識物，基於通義千問7B打造，可商用

2023-08-26 08:03:47

來源：量子位

阿里開源大模型，又上新了~

繼通義千問-7B（Qwen-7B）之後，阿里雲又推出了大規模視覺語言模型Qwen-VL，並且一上線就直接開源。

具體來說，Qwen-VL是基於通義千問-7B打造的多模態大模型，支持圖像、文本、檢測框等多種輸入，並且在文本之外，也支持檢測框的輸出。

舉個🌰，我們輸入一張阿尼亞的圖片，通過問答的形式，Qwen-VL-Chat既能概括圖片內容，也能定位到圖片中的阿尼亞。

測試任務中，Qwen-VL展現出了“六邊形戰士”的實力，在四大類多模態任務的標準英文測評中（Zero-shot Caption/VQA/DocVQA/Grounding）上，都取得了SOTA 。

開源消息一出，就引發了不少關注。

具體表現如何，咱們一起來看看~

首個支持中文開放域定位的通用模型

先來整體看一下Qwen-VL系列模型的特點：

多語言對話：支持多語言對話，端到端支持圖片里中英雙語的長文本識別；
多圖交錯對話：支持多圖輸入和比較，指定圖片問答，多圖文學創作等；
首個支持中文開放域定位的通用模型：通過中文開放域語言表達進行檢測框標註，也就是能在畫面中精準地找到目標物體；
細粒度識別和理解：相比於目前其它開源LVLM（大規模視覺語言模型）使用的224分辨率，Qwen-VL是首個開源的448分辨率LVLM模型。更高分辨率可以提升細粒度的文字識別、文檔問答和檢測框標註。

按場景來說，Qwen-VL可以用於知識問答、圖像問答、文檔問答、細粒度視覺定位等場景。

比如，有一位看不懂中文的外國友人去醫院看病，對著導覽圖一個頭兩個大，不知道怎麼去往對應科室，就可以直接把圖和問題丟給Qwen-VL，讓它根據圖片信息擔當翻譯。

再來測試一下多圖輸入和比較：

雖然沒認出來阿尼亞，不過情緒判斷確實挺準確的（手動狗頭）。

視覺定位能力方面，即使圖片非常複雜人物繁多，Qwen-VL也能精準地根據要求找出綠巨人和蜘蛛俠。

技術細節上，Qwen-VL是以Qwen-7B為基座語言模型，在模型架構上引入了視覺編碼器ViT，並通過位置感知的視覺語言適配器連接二者，使得模型支持視覺信號輸入。

具體的訓練過程分為三步：

預訓練：只優化視覺編碼器和視覺語言適配器，凍結語言模型。使用大規模圖像-文本配對數據，輸入圖像分辨率為224x224。
多任務預訓練：引入更高分辨率（448x448）的多任務視覺語言數據，如VQA、文本VQA、指稱理解等，進行多任務聯合預訓練。
監督微調：凍結視覺編碼器，優化語言模型和適配器。使用對話交互數據進行提示調優，得到最終的帶交互能力的Qwen-VL-Chat模型。

研究人員在四大類多模態任務（Zero-shot Caption/VQA/DocVQA/Grounding）的標準英文測評中測試了Qwen-VL。

結果顯示，Qwen-VL取得了同等尺寸開源LVLM的最好效果。

另外，研究人員構建了一套基於GPT-4打分機制的測試集TouchStone。

在這一對比測試中，Qwen-VL-Chat取得了SOTA。

如果你對Qwen-VL感興趣，現在在魔搭社區和huggingface上都有demo可以直接試玩，鏈接文末奉上~

Qwen-VL支持研究人員和開發者進行二次開發，也允許商用，不過需要注意的是，商用的話需要先填寫問卷申請。

項目鏈接：

-聊天

論文地址：

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

1人點讚了這條動態

讚賞
1
留言
轉發
分享

留言

0/400

暫無留言

熱門話題查看更多
#GateLaunchpadKDK認購上線
7534 熱度
#非農數據超預期
6.71萬熱度
#市場觸底了嗎？
13.33萬熱度
#美聯儲降息預測
7.25萬熱度
#ETH走勢分析
18.79萬熱度

熱門 Gate Fun查看更多

1
年终盛典年终盛典
市值:$3560.16持有人數:2
0.09%
2
minercoinminercoin
市值:$3513.79持有人數:1
0.00%
3
USD+USD+
市值:$3548.27持有人數:1
0.00%
4
币安人生现货币安人生现货
市值:$3614.62持有人數:2
0.11%
5
上班搭子上班搭子
市值:$3521.09持有人數:2
0.09%