首頁 硬體教學 硬體測評 輕鬆拿捏 4K 高畫質影像理解!這個多模態大模型自動分析網頁海報內容,打工人簡直不要太方便

輕鬆拿捏 4K 高畫質影像理解!這個多模態大模型自動分析網頁海報內容,打工人簡直不要太方便

Apr 23, 2024 am 08:04 AM
git composer 解析度 效果 雷達 美圖 香港中文大學 lab

一個可以自動分析 PDF、網頁、海報、Excel 圖表內容的大模型,對於打工人來說簡直不要太方便。

上海 AI Lab,香港中文大學等研究機構提出的 InternLM-XComposer2-4KHD(簡寫為 IXC2-4KHD)模型讓這成為了現實。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

相比於其他多模態大模型不超過1500x1500 的分辨率限制,該工作將多模態大模型的最大輸入圖像提升到超過4K (3840 x1600)分辨率,並支援任意長寬比和336 像素~4K 動態分辨率變化。

發布三天,模型就登頂 Hugging Face 視覺問答模型熱度排行榜第一。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

輕鬆拿捏4K 影像理解

先來看效果~

研究人員輸入論文(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)的首頁截圖(解析度為2550x3300),並詢問論文哪個模型在MMBench 上的表現最高。

要注意的是,該資訊在輸入截圖的正文文字部分並未提及,僅出現在一個相當複雜的雷達圖中。面對這麼刁鑽的問題,IXC2-4KHD 成功理解了雷達圖中的訊息,正確回答問題。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

面對更極端解析度的影像輸入(816 x 5133),IXC2-4KHD 輕鬆理解影像包括7 個部分,並準確說明了每個部分包含的文字訊息內容。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

隨後,研究人員也在16 個多模態大模式評測指標上全面測試了IXC2-4KHD 的能力,其中5 項評測(DocVQA、ChartQA、InfographicVQA 、TextVQA、OCRBench)著重模型的高解析度影像理解能力。

僅使用7B 參數量,IXC2-4KHD 在其中10 項評測取得了媲美甚至超越GPT4V 和Gemini Pro 的結果,展現了不局限於高分辨率圖像理解,而是對各種任務和場景的泛用能力。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

△僅 7B 參數量的 IXC2-4KHD 效能媲美 GPT-4V 和 Gemini-Pro 如何實現 4K 動態解析度?

為了實現4K 動態解析度的目標,IXC2-4KHD 包含了三個主要設計:

(1)動態解析度訓練:

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

△4K 解析度影像處理策略

在IXC2-4KHD 的框架中,輸入影像在保持長寬比的情況下,隨機放大到介於輸入面積和最大面積(不超過55x336x336,等價於3840 x1617 解析度)的一個中間尺寸。

隨後,將影像自動切塊成多個 336x336 的區域,分別抽取視覺特徵。這種動態解析度的訓練策略可以讓模型適應任意解析度的視覺輸入,同時也彌補了高解析度訓練資料不足的問題。

實驗表明,隨著動態解析度上限的增加,模型在高解析度影像理解任務(InfographicVQA、DocVQA、TextVQA)上實現了穩定的效能提升,並且在4K 解析度仍然未達到上界,展現了更高解析度進一步擴展的潛力。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

(2)加入切塊佈局資訊:

為了讓模型能夠適應變化豐富的動態分辨率,研究人員發現需要將切塊佈局資訊作為額外的輸入。為了實現這個目的,研究人員採取了一個簡單的策略:一個特殊的『換行』(’ n ’)令牌被插入到每一行的切塊之後,用於告知模型切塊的佈局。實驗表明,添加切塊佈局信息,對於變化幅度比較小的動態分辨率訓練(HD9 代表切塊區域個數不超過9)影響不大,而對於動態4K 分辨率訓練則可以帶來顯著的性能提升。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

(3)推理階段擴展解析度

研究人員也發現,使用動態解析度的模型,可以在推理階段透過增加最大切塊上限直接擴展分辨率,並帶來額外的性能增益。例如將 HD9(最多 9 個)的訓練模型直接使用 HD16 進行測試,可以在 InfographicVQA 上觀察到高達 8% 的效能提升。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

IXC2-4KHD 將多模態大模型支援的分辨率提升到了4K 的水平,研究人員表示目前這種透過增加切塊個數來支持更大圖像輸入的策略遇到了計算代價和顯存的瓶頸,因此他們計劃提出更有效率的策略在未來實現更高解析度的支援。

論文連結:

https://arxiv.org/pdf/2404.06512.pdf

專案連結:

##https://github.com /InternLM/InternLM-XComposer

— 完—

投稿請寄電子郵件到:

ai@qbitai.com

##標題註明,告訴我們:

你是誰,從哪裡來,投稿內容

附上論文/ 專案主頁鏈接,以及聯絡方式哦

我們會(盡量)及時回覆你

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便 點這裡追蹤我,記得標星哦~

一鍵三連「分享」、「按讚」和「在看」

科技前沿進展日日相見~

#

以上是輕鬆拿捏 4K 高畫質影像理解!這個多模態大模型自動分析網頁海報內容,打工人簡直不要太方便的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1665
14
CakePHP 教程
1424
52
Laravel 教程
1322
25
PHP教程
1270
29
C# 教程
1250
24
使用 Composer 解決推薦系統的困境:andres-montanez/recommendations-bundle 的實踐 使用 Composer 解決推薦系統的困境:andres-montanez/recommendations-bundle 的實踐 Apr 18, 2025 am 11:48 AM

在開發一個電商網站時,我遇到了一個棘手的問題:如何為用戶提供個性化的商品推薦。最初,我嘗試了一些簡單的推薦算法,但效果並不理想,用戶的滿意度也因此受到影響。為了提升推薦系統的精度和效率,我決定採用更專業的解決方案。最終,我通過Composer安裝了andres-montanez/recommendations-bundle,這不僅解決了我的問題,還大大提升了推薦系統的性能。可以通過一下地址學習composer:學習地址

laravel入門實例 laravel入門實例 Apr 18, 2025 pm 12:45 PM

Laravel 是一款 PHP 框架,用於輕鬆構建 Web 應用程序。它提供一系列強大的功能,包括:安裝: 使用 Composer 全局安裝 Laravel CLI,並在項目目錄中創建應用程序。路由: 在 routes/web.php 中定義 URL 和處理函數之間的關係。視圖: 在 resources/views 中創建視圖以呈現應用程序的界面。數據庫集成: 提供與 MySQL 等數據庫的開箱即用集成,並使用遷移來創建和修改表。模型和控制器: 模型表示數據庫實體,控制器處理 HTTP 請求。

laravel框架安裝方法 laravel框架安裝方法 Apr 18, 2025 pm 12:54 PM

文章摘要:本文提供了詳細分步說明,指導讀者如何輕鬆安裝 Laravel 框架。 Laravel 是一個功能強大的 PHP 框架,它 упростил 和加快了 web 應用程序的開發過程。本教程涵蓋了從系統要求到配置數據庫和設置路由等各個方面的安裝過程。通過遵循這些步驟,讀者可以快速高效地為他們的 Laravel 項目打下堅實的基礎。

laravel怎麼查看版本號 laravel查看版本號方法 laravel怎麼查看版本號 laravel查看版本號方法 Apr 18, 2025 pm 01:00 PM

Laravel框架內置了多種方法來方便地查看其版本號,滿足開發者的不同需求。本文將探討這些方法,包括使用Composer命令行工具、訪問.env文件或通過PHP代碼獲取版本信息。這些方法對於維護和管理Laravel應用程序的版本控制至關重要。

使用DICR/YII2-Google將Google API集成在YII2中 使用DICR/YII2-Google將Google API集成在YII2中 Apr 18, 2025 am 11:54 AM

vProcesserazrabotkiveb被固定,мнелостольностьстьс粹餾標д都LeavallySumballanceFriablanceFaumDoptoMatification,Čtookazalovnetakprosto,kakaožidal.posenesko

如何使用 Composer 簡化郵件營銷:DUWA.io 的應用實踐 如何使用 Composer 簡化郵件營銷:DUWA.io 的應用實踐 Apr 18, 2025 am 11:27 AM

在進行郵件營銷活動時,我遇到了一個棘手的問題:如何高效地創建並發送HTML格式的郵件。傳統的方法是手動編寫代碼並使用SMTP服務器發送郵件,但這不僅耗時,而且容易出錯。在嘗試了多種解決方案後,我發現了DUWA.io,這是一個簡單易用的RESTAPI,能夠幫助我快速創建和發送HTML郵件。為了進一步簡化開發流程,我決定使用Composer來安裝和管理DUWA.io的PHP庫——captaindoe/duwa。

laravel8 的優化點 laravel8 的優化點 Apr 18, 2025 pm 12:24 PM

Laravel 8 針對性能優化提供了以下選項:緩存配置:使用 Redis 緩存驅動、緩存門面、緩存視圖和頁面片段。數據庫優化:建立索引、使用查詢範圍、使用 Eloquent 關係。 JavaScript 和 CSS 優化:使用版本控制、合併和縮小資產、使用 CDN。代碼優化:使用 Composer 安裝包、使用 Laravel 助手函數、遵循 PSR 標準。監控和分析:使用 Laravel Scout、使用 Telescope、監控應用程序指標。

laravel安裝代碼 laravel安裝代碼 Apr 18, 2025 pm 12:30 PM

要安裝 Laravel,需依序進行以下步驟:安裝 Composer(適用於 macOS/Linux 和 Windows)安裝 Laravel 安裝器創建新項目啟動服務訪問應用程序(網址:http://127.0.0.1:8000)設置數據庫連接(如果需要)

See all articles