社群

學習

工具庫

AI工具

休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > 阿里巨型模型再次開源！影像理解與物體辨識功能一應俱全，基於通用問題集7B訓練，商業應用可行

阿里巨型模型再次開源！影像理解與物體辨識功能一應俱全，基於通用問題集7B訓練，商業應用可行

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

發布： 2023-09-03 13:01:08

轉載

785 人瀏覽過

阿里巴巴開源了一個新的大模型，非常令人興奮~

繼通義千問-7B（Qwen-7B）之後，阿里雲又推出了大規模視覺語言模型Qwen-VL，並且一上線就直接開源。

阿里巨型模型再次開源！影像理解與物體辨識功能一應俱全，基於通用問題集7B訓練，商業應用可行

Qwen-VL是一種基於通義千問-7B的多模態大模型，具體而言，它支援圖像、文字和偵測框架等多種輸入，並且不僅可以輸出文本，還可以輸出檢測框

舉個例子，我們輸入一張阿尼亞的圖片，通過問答的形式，Qwen-VL-Chat能夠總結圖片內容，並且能夠準確地定位到圖片中的阿尼亞

阿里巨型模型再次開源！影像理解與物體辨識功能一應俱全，基於通用問題集7B訓練，商業應用可行

在測試任務中，Qwen-VL展現出了「六邊形戰士」的實力，在四大類在多模態任務的標準英文評測中（Zero-shot Caption/VQA/DocVQA/Grounding）上，都取得了最先進的成果

阿里巨型模型再次開源！影像理解與物體辨識功能一應俱全，基於通用問題集7B訓練，商業應用可行

一經開源訊息傳出，立刻引起了廣泛關注

阿里巨型模型再次開源！影像理解與物體辨識功能一應俱全，基於通用問題集7B訓練，商業應用可行

阿里巨型模型再次開源！影像理解與物體辨識功能一應俱全，基於通用問題集7B訓練，商業應用可行

讓我們一起來看看具體的表現如何！

首個支援中文開放域定位的通用模型

首先，讓我們來整體看一下Qwen-VL系列模型的特點：

多語言對話：支援多語言對話，端到端支援圖片裡中英雙語的長文本辨識；
多圖交錯對話：支援多圖輸入和比較，指定圖片問答，多圖文學創作等；
首個支援中文開放域定位的一般模型：透過中文開放域語言表達進行偵測框標註，也就是能在畫面中精準地找到目標物件；
細微辨識與理解：相較於目前其它開源LVLM（大規模視覺語言模型）使用的224分辨率，Qwen-VL是首個開源的448分辨率LVLM模型。更高解析度可以提升細粒度的文字辨識、文件問答和偵測框標註。

在不改變原意的情況下，需要重寫的內容是：Qwen-VL可以在知識問答、圖像問答、文件問答、細粒度視覺定位等場景中使用

例如，有一個外國朋友不懂中文去醫院看病，對著導覽圖感到困惑，不知道如何前往相應的科室，可以直接將圖和問題交給Qwen-VL，讓它根據圖片信息充當翻譯

阿里巨型模型再次開源！影像理解與物體辨識功能一應俱全，基於通用問題集7B訓練，商業應用可行

再次進行多圖輸入和比較的測試

阿里巨型模型再次開源！影像理解與物體辨識功能一應俱全，基於通用問題集7B訓練，商業應用可行

#儘管沒有認出阿尼亞，但情緒判斷確實相當準確（手動狗頭）

在視覺定位能力方面，即使圖片非常複雜且人物眾多，Qwen-VL仍然可以根據要求準確地找出綠巨人和蜘蛛俠

阿里巨型模型再次開源！影像理解與物體辨識功能一應俱全，基於通用問題集7B訓練，商業應用可行

Qwen-VL在技術細節上以Qwen-7B為基座語言模型，並透過引入視覺編碼器ViT和位置感知的視覺語言適配器，使得模型能夠支援視覺訊號輸入

阿里巨型模型再次開源！影像理解與物體辨識功能一應俱全，基於通用問題集7B訓練，商業應用可行

具體的訓練過程分為三個步驟：

預先訓練：只優化視覺編碼器和視覺語言適配器，凍結語言模型。使用大規模影像-文字配對數據，輸入影像解析度為224x224。
多任務預訓練：引入更高解析度（448x448）的多任務視覺語言數據，如VQA、文字VQA、指稱理解等，進行多任務聯合預訓練。
監督微調：凍結視覺編碼器，最佳化語言模型和適配器。使用對話互動資料進行提示調優，得到最終的具有互動能力的Qwen-VL-Chat模型。

在Qwen-VL的標準英文評估中，研究人員對四大類多模態任務（Zero-shot Caption/VQA/DocVQA/Grounding）進行了測試

阿里巨型模型再次開源！影像理解與物體辨識功能一應俱全，基於通用問題集7B訓練，商業應用可行

#根據結果顯示，Qwen-VL在與同等尺寸的開源LVLM進行比較時取得了最佳效果

另外，研究人員構建了一套基於GPT-4打分機制的測試集TouchStone。

阿里巨型模型再次開源！影像理解與物體辨識功能一應俱全，基於通用問題集7B訓練，商業應用可行

阿里巨型模型再次開源！影像理解與物體辨識功能一應俱全，基於通用問題集7B訓練，商業應用可行

Qwen-VL-Chat在這項對比測試中取得了最先進技術水準（SOTA）

如果你對Qwen-VL有興趣，你可以在魔搭社群和huggingface上找到demo來直接試玩。連結在文末提供

Qwen-VL支持研究人員和開發者進行二次開發，並且允許商業使用。但要注意的是，如果要進行商業使用，需要先填寫問卷申請

#計畫連結：https://modelscope.cn/models/qwen/Qwen-VL /summary
https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary
https://huggingface.co/Qwen/Qwen -VL
https://huggingface.co/Qwen/Qwen-VL-Chat
https://github.com/QwenLM/Qwen-VL

請點選以下連結查看論文：https://arxiv.org/abs/2308.12966

以上是阿里巨型模型再次開源！影像理解與物體辨識功能一應俱全，基於通用問題集7B訓練，商業應用可行的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

模型開源

上一篇：華為雲尤鵬：盤古大模型，共享智慧，服務業下一篇：AI搜尋功能正式加入，文心一言網頁版全新上線

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

LLM的工作方式：培訓前訓練，神經網絡，幻覺和推理

2025-02-26 03:58:14
我將區塊鍊和AI組合在一起以生成藝術。接下來發生了什麼。

2025-02-26 03:38:10
高級及時工程：思想鏈（COT）

2025-02-26 03:17:10
在Sqlite中檢索增強發電

2025-02-26 02:49:09
如何使用LLM驅動的樣板構建自己的節點。JSAPI

2025-02-26 01:08:13
2024年編碼的LLM：價格，性能和爭取最佳的戰鬥

2025-02-26 00:46:10
提示視覺語言模型

2025-02-25 23:42:08
如何衡量大語模型的響應的可靠性

2025-02-25 22:50:13
生活的幻想

2025-02-25 21:54:11
科學家對大型語言模型的認真反映了人類思維

2025-02-25 20:45:11

最新問題

javascript - autodesk forge viewer 多模型載入模型瀏覽器問題

來自於 1970-01-01 08:00:00

0

0

0

關於模型的問題

來自於 1970-01-01 08:00:00

0

0

0

模型不收斂是怎麼回事？

來自於 1970-01-01 08:00:00

0

0

0

Laravel關聯模型的問題

來自於 1970-01-01 08:00:00

0

0

0

Laravel - 將模型關係更新到另一個模型

來自於 1970-01-01 08:00:00

0

0

0

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1436462
php入門教程之一週學會PHP

4295625
JAVA 初級入門影片教學

2658772
小甲魚零基礎入門學習Python影片教學

516195
PHP 零基礎入門教學

876839

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板