輕鬆拿捏 4K 高畫質影像理解!這個多模態大模型自動分析網頁海報內容,打工人簡直不要太方便
一個可以自動分析 PDF、網頁、海報、Excel 圖表內容的大模型,對於打工人來說簡直不要太方便。
上海 AI Lab,香港中文大學等研究機構提出的 InternLM-XComposer2-4KHD(簡寫為 IXC2-4KHD)模型讓這成為了現實。
相比於其他多模態大模型不超過1500x1500 的分辨率限制,該工作將多模態大模型的最大輸入圖像提升到超過4K (3840 x1600)分辨率,並支援任意長寬比和336 像素~4K 動態分辨率變化。
發布三天,模型就登頂 Hugging Face 視覺問答模型熱度排行榜第一。
輕鬆拿捏4K 影像理解
先來看效果~
研究人員輸入論文(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)的首頁截圖(解析度為2550x3300),並詢問論文哪個模型在MMBench 上的表現最高。
要注意的是,該資訊在輸入截圖的正文文字部分並未提及,僅出現在一個相當複雜的雷達圖中。面對這麼刁鑽的問題,IXC2-4KHD 成功理解了雷達圖中的訊息,正確回答問題。
面對更極端解析度的影像輸入(816 x 5133),IXC2-4KHD 輕鬆理解影像包括7 個部分,並準確說明了每個部分包含的文字訊息內容。
隨後,研究人員也在16 個多模態大模式評測指標上全面測試了IXC2-4KHD 的能力,其中5 項評測(DocVQA、ChartQA、InfographicVQA 、TextVQA、OCRBench)著重模型的高解析度影像理解能力。
僅使用7B 參數量,IXC2-4KHD 在其中10 項評測取得了媲美甚至超越GPT4V 和Gemini Pro 的結果,展現了不局限於高分辨率圖像理解,而是對各種任務和場景的泛用能力。
△僅 7B 參數量的 IXC2-4KHD 效能媲美 GPT-4V 和 Gemini-Pro 如何實現 4K 動態解析度?
為了實現4K 動態解析度的目標,IXC2-4KHD 包含了三個主要設計:
(1)動態解析度訓練:
△4K 解析度影像處理策略
在IXC2-4KHD 的框架中,輸入影像在保持長寬比的情況下,隨機放大到介於輸入面積和最大面積(不超過55x336x336,等價於3840 x1617 解析度)的一個中間尺寸。
隨後,將影像自動切塊成多個 336x336 的區域,分別抽取視覺特徵。這種動態解析度的訓練策略可以讓模型適應任意解析度的視覺輸入,同時也彌補了高解析度訓練資料不足的問題。
實驗表明,隨著動態解析度上限的增加,模型在高解析度影像理解任務(InfographicVQA、DocVQA、TextVQA)上實現了穩定的效能提升,並且在4K 解析度仍然未達到上界,展現了更高解析度進一步擴展的潛力。
(2)加入切塊佈局資訊:
為了讓模型能夠適應變化豐富的動態分辨率,研究人員發現需要將切塊佈局資訊作為額外的輸入。為了實現這個目的,研究人員採取了一個簡單的策略:一個特殊的『換行』(’ n ’)令牌被插入到每一行的切塊之後,用於告知模型切塊的佈局。實驗表明,添加切塊佈局信息,對於變化幅度比較小的動態分辨率訓練(HD9 代表切塊區域個數不超過9)影響不大,而對於動態4K 分辨率訓練則可以帶來顯著的性能提升。
(3)推理階段擴展解析度
研究人員也發現,使用動態解析度的模型,可以在推理階段透過增加最大切塊上限直接擴展分辨率,並帶來額外的性能增益。例如將 HD9(最多 9 個)的訓練模型直接使用 HD16 進行測試,可以在 InfographicVQA 上觀察到高達 8% 的效能提升。
IXC2-4KHD 將多模態大模型支援的分辨率提升到了4K 的水平,研究人員表示目前這種透過增加切塊個數來支持更大圖像輸入的策略遇到了計算代價和顯存的瓶頸,因此他們計劃提出更有效率的策略在未來實現更高解析度的支援。
論文連結:
https://arxiv.org/pdf/2404.06512.pdf
專案連結:
##https://github.com /InternLM/InternLM-XComposer— 完—投稿請寄電子郵件到:ai@qbitai.com##標題註明,告訴我們:
你是誰,從哪裡來,投稿內容
附上論文/ 專案主頁鏈接,以及聯絡方式哦
我們會(盡量)及時回覆你
點這裡追蹤我,記得標星哦~
一鍵三連「分享」、「按讚」和「在看」
科技前沿進展日日相見~
#以上是輕鬆拿捏 4K 高畫質影像理解!這個多模態大模型自動分析網頁海報內容,打工人簡直不要太方便的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

在開發一個電商網站時,我遇到了一個棘手的問題:如何為用戶提供個性化的商品推薦。最初,我嘗試了一些簡單的推薦算法,但效果並不理想,用戶的滿意度也因此受到影響。為了提升推薦系統的精度和效率,我決定採用更專業的解決方案。最終,我通過Composer安裝了andres-montanez/recommendations-bundle,這不僅解決了我的問題,還大大提升了推薦系統的性能。可以通過一下地址學習composer:學習地址

Laravel 是一款 PHP 框架,用於輕鬆構建 Web 應用程序。它提供一系列強大的功能,包括:安裝: 使用 Composer 全局安裝 Laravel CLI,並在項目目錄中創建應用程序。路由: 在 routes/web.php 中定義 URL 和處理函數之間的關係。視圖: 在 resources/views 中創建視圖以呈現應用程序的界面。數據庫集成: 提供與 MySQL 等數據庫的開箱即用集成,並使用遷移來創建和修改表。模型和控制器: 模型表示數據庫實體,控制器處理 HTTP 請求。

文章摘要:本文提供了詳細分步說明,指導讀者如何輕鬆安裝 Laravel 框架。 Laravel 是一個功能強大的 PHP 框架,它 упростил 和加快了 web 應用程序的開發過程。本教程涵蓋了從系統要求到配置數據庫和設置路由等各個方面的安裝過程。通過遵循這些步驟,讀者可以快速高效地為他們的 Laravel 項目打下堅實的基礎。

Laravel框架內置了多種方法來方便地查看其版本號,滿足開發者的不同需求。本文將探討這些方法,包括使用Composer命令行工具、訪問.env文件或通過PHP代碼獲取版本信息。這些方法對於維護和管理Laravel應用程序的版本控制至關重要。

vProcesserazrabotkiveb被固定,мнелостольностьстьс粹餾標д都LeavallySumballanceFriablanceFaumDoptoMatification,Čtookazalovnetakprosto,kakaožidal.posenesko

在進行郵件營銷活動時,我遇到了一個棘手的問題:如何高效地創建並發送HTML格式的郵件。傳統的方法是手動編寫代碼並使用SMTP服務器發送郵件,但這不僅耗時,而且容易出錯。在嘗試了多種解決方案後,我發現了DUWA.io,這是一個簡單易用的RESTAPI,能夠幫助我快速創建和發送HTML郵件。為了進一步簡化開發流程,我決定使用Composer來安裝和管理DUWA.io的PHP庫——captaindoe/duwa。

Laravel 8 針對性能優化提供了以下選項:緩存配置:使用 Redis 緩存驅動、緩存門面、緩存視圖和頁面片段。數據庫優化:建立索引、使用查詢範圍、使用 Eloquent 關係。 JavaScript 和 CSS 優化:使用版本控制、合併和縮小資產、使用 CDN。代碼優化:使用 Composer 安裝包、使用 Laravel 助手函數、遵循 PSR 標準。監控和分析:使用 Laravel Scout、使用 Telescope、監控應用程序指標。

要安裝 Laravel,需依序進行以下步驟:安裝 Composer(適用於 macOS/Linux 和 Windows)安裝 Laravel 安裝器創建新項目啟動服務訪問應用程序(網址:http://127.0.0.1:8000)設置數據庫連接(如果需要)
