突破解析度極限：位元組聯合中科大揭示多模態文檔大模型-人工智慧-PHP中文網

各项测评成绩显著提升

从频域出发解决分辨率问题

首頁

科技週邊

人工智慧

突破解析度極限：位元組聯合中科大揭示多模態文檔大模型

王林

Dec 04, 2023 pm 02:14 PM

數據訓練

现在甚至有了大型的多模态高分辨率文档！

这项技术不仅能够准确识别图像中的信息，还能够根据用户需求调用自身的知识库来回答问题

比如，看到图中马里奥的界面，直接就回答出了这是任天堂公司的作品。

突破解析度極限：位元組聯合中科大揭示多模態文檔大模型

这个模型是由字节跳动和中国科学技术大学合作研究的，于2023年11月24日上传至arXiv

在此研究中，作者团队提出DocPedia，一个统一的高分辨率多模态文档大模型DocPedia。

突破解析度極限：位元組聯合中科大揭示多模態文檔大模型

在此研究中，作者用一种新的方式解决了现有模型不能解析高分辨文档图像的短板。

DocPedia分辨率可达2560×2560，而目前业内先进多模态大模型如LLaVA、MiniGPT-4等处理图像分辨率上限为336×336，无法解析高分辨率的文档图像。

那么，这款模型究竟表现如何，又使用了怎样的优化方式呢？

各项测评成绩显著提升

在这篇论文中，作者展示了DocPedia高分辨图文理解的示例。可以观察到DocPedia有能力理解指令内容，并从高分辨率的文档图像和自然场景图像中准确地提取相关的图文信息

比如这组图中，DocPedia轻松从图片中挖掘出了车牌号、电脑配置等文本信息，甚至手写文字也能准确判断。

突破解析度極限：位元組聯合中科大揭示多模態文檔大模型

结合图像中的文本信息，DocPedia还可以利用大模型推理能力，根据上下文分析问题。

突破解析度極限：位元組聯合中科大揭示多模態文檔大模型

DocPedia在读取完图片信息后，还会根据其丰富的世界知识库，回答图像中未展示的扩展内容

突破解析度極限：位元組聯合中科大揭示多模態文檔大模型

下表定量对比了现有的一些多模态大模型和DocPedia的关键信息抽取（KIE）和视觉问答（VQA）能力。

通过提升分辨率和采用有效的训练方法，我们可以看到DocPedia在各项测试基准上都取得了显著的提升

突破解析度極限：位元組聯合中科大揭示多模態文檔大模型

那么，DocPedia是如何实现这样的效果的呢呢？

从频域出发解决分辨率问题

DocPedia的训练分为两个阶段：预训练和微调。为了训练DocPedia，作者团队收集了包含各类文档的大量图文数据，并构建指令微调数据集。

在预训练阶段，大型语言模型将被冻结，而只优化视觉编码器的部分，以使其输出的token表征空间与大型语言模型保持一致

在这个阶段，作者团队提出主要训练DocPedia的感知能力，包括对文字和自然场景的感知

预训练任务包括文字检测、文字识别、端到端OCR、段落阅读、全文阅读，以及图像文字说明。

在微调阶段，大型语言模型解除冻结，进行端到端整体优化

作者团队提出了感知-理解联合训练策略：在原有的低阶感知任务基础上，增加了文档理解和场景图像两种高阶的偏语义理解任务

这样一种感知-理解联合训练策略，进一步提高了DocPedia的性能。

突破解析度極限：位元組聯合中科大揭示多模態文檔大模型

在分辨率问题的策略上，与现有方法不同，DocPedia从频域的角度出发去解决。

在处理高分辨率文档图像时，DocPedia会首先提取其DCT系数矩阵。这个矩阵可以在不损失原图像的图文信息的情况下，将其空间分辨率下采样8倍

经过这一步骤后，我们会使用级联的频域适配器（Frequency Adapter）将输入信号传递给视觉编码器（Vision Encoder），以进行更深层次的分辨率压缩和特征提取

透過此方法，一張2560×2560的圖像，其圖文資訊可以用1600個token表示。

此方法相較於直接將原始影像輸入到視覺編碼器（如Swin Transformer）中，token數量減少4倍。

最後，這些token與指令轉換而來的token進行序列維度拼接，輸入到大模型進行回答。

突破解析度極限：位元組聯合中科大揭示多模態文檔大模型

消融實驗的結果顯示，提高解析度和進行感知-理解聯合微調是提升DocPedia性能的兩個重要因素

下圖對比了DocPedia對於一張論文影像以及同一個指令，在不同輸入尺度下的回答。可以看到，當且僅當解析度提升至2560×2560時，DocPedia回答正確。

突破解析度極限：位元組聯合中科大揭示多模態文檔大模型

下圖則是對比了DocPedia對於同一張場景文字圖像以及同一個指令，在不同微調策略下模型的回答。

透過這個例子可以看出，經過感知-理解聯合微調的模型，能夠準確地進行文字辨識與語意問答

突破解析度極限：位元組聯合中科大揭示多模態文檔大模型

請點擊以下連結查看論文：https://arxiv.org/abs/2311.11810

以上是突破解析度極限：位元組聯合中科大揭示多模態文檔大模型的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1666

CakePHP 教程

1425

Laravel 教程

1325

PHP教程

1273

C# 教程

1252

Related knowledge

開源！超越ZoeDepth！ DepthFM：快速且精確的單目深度估計！ Apr 03, 2024 pm 12:04 PM

0.這篇文章乾了啥？提出了DepthFM：一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外，DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高，可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題：DepthFM:FastMonocularDepthEstimationwithFlowMatching作者：MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

使用ddrescue在Linux上恢復數據 Mar 20, 2024 pm 01:37 PM

DDREASE是一種用於從檔案或區塊裝置(如硬碟、SSD、RAM磁碟、CD、DVD和USB儲存裝置)復原資料的工具。它將資料從一個區塊設備複製到另一個區塊設備，留下損壞的資料區塊，只移動好的資料區塊。 ddreasue是一種強大的恢復工具，完全自動化，因為它在恢復操作期間不需要任何干擾。此外，由於有了ddasue地圖文件，它可以隨時停止和恢復。 DDREASE的其他主要功能如下：它不會覆寫恢復的數據，但會在迭代恢復的情況下填補空白。但是，如果指示工具明確執行此操作，則可以將其截斷。將資料從多個檔案或區塊還原到單

Google狂喜：JAX性能超越Pytorch、TensorFlow！或成GPU推理訓練最快選擇 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow，7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中，Pytorch依然比Tensorflow更受歡迎。但未來，也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近，Keras團隊為三個後端（TensorFlow、JAX、PyTorch）與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先，他們為生成式和非生成式人工智慧任務選擇了一組主流

你好，電動Atlas！波士頓動力機器人復活，180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas，正式進入電動機器人時代！昨天，液壓Atlas剛「含淚」退出歷史舞台，今天波士頓動力就宣布：電動Atlas上崗。看來，在商用人形機器人領域，波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後，短短十幾小時內，就已經有一百多萬觀看。舊人離去，新角色登場，這是歷史的必然。毫無疑問，今年是人形機器人的爆發年。網友銳評：機器人的進步，讓今年看起來像人類的開幕式動作、自由度遠超人類，但這真不是恐怖片？影片一開始，Atlas平靜地躺在地上，看起來應該是仰面朝天。接下來，讓人驚掉下巴

iPhone上的蜂窩數據網路速度慢：修復 May 03, 2024 pm 09:01 PM

在iPhone上面臨滯後，緩慢的行動數據連線？通常，手機上蜂窩互聯網的強度取決於幾個因素，例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時，強制重啟設備只會重置許多內容，包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來，按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度，但在訊號較弱

特斯拉機器人進廠打工，馬斯克：手的自由度今年將達到22個！ May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐，已經可以在工廠裡打工了。正常速度下，它分揀電池（特斯拉的4680電池）是這樣的：官方還放出了20倍速下的樣子——在小小的「工位」上，揀啊揀啊揀：這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作，是完全自主的，全程沒有人為的干預。而且在Optimus的視角之下，它還可以把放歪了的電池重新撿起來放置，主打一個自動糾錯：對於Optimus的手，英偉達科學家JimFan給出了高度的評價：Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

快手版Sora「可靈」開放測試：生成超120s視頻，更懂物理，複雜運動也能精準建模 Jun 11, 2024 am 09:51 AM

什麼？瘋狂動物城被國產AI搬進現實了？與影片一同曝光的，是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線，結合多項自研技術創新，生產的影片不僅運動幅度大且合理，還能模擬物理世界特性，具備強大的概念組合能力與想像。數據上看，可靈支持生成長達2分鐘的30fps的超長視頻，分辨率高達1080p，且支援多種寬高比。另外再劃個重點，可靈不是實驗室放出的Demo或影片結果演示，而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實，不開空頭支票、發布即上線，可靈大模型已在快影

超級智能體生命力覺醒！可自我更新的AI來了，媽媽再也不用擔心資料瓶頸難題 Apr 29, 2024 pm 06:55 PM

哭死啊，全球狂煉大模型，一網路的資料不夠用，根本不夠用。訓練模型搞得跟《飢餓遊戲》似的，全球AI研究者，都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中，這問題尤其突出。一籌莫展之際，來自人大系的初創團隊，用自家的新模型，率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下，兩側都能產生高品質、多模態的新數據，對模型本身進行數據反哺。模型是啥？中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰？智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立，高

See all articles

突破解析度極限：位元組聯合中科大揭示多模態文檔大模型

各项测评成绩显著提升

从频域出发解决分辨率问题

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題