突破解析度極限:位元組聯合中科大揭示多模態文檔大模型
现在甚至有了大型的多模态高分辨率文档!
这项技术不仅能够准确识别图像中的信息,还能够根据用户需求调用自身的知识库来回答问题
比如,看到图中马里奥的界面,直接就回答出了这是任天堂公司的作品。
这个模型是由字节跳动和中国科学技术大学合作研究的,于2023年11月24日上传至arXiv
在此研究中,作者团队提出DocPedia,一个统一的高分辨率多模态文档大模型DocPedia。
在此研究中,作者用一种新的方式解决了现有模型不能解析高分辨文档图像的短板。
DocPedia分辨率可达2560×2560,而目前业内先进多模态大模型如LLaVA、MiniGPT-4等处理图像分辨率上限为336×336,无法解析高分辨率的文档图像。
那么,这款模型究竟表现如何,又使用了怎样的优化方式呢?
各项测评成绩显著提升
在这篇论文中,作者展示了DocPedia高分辨图文理解的示例。可以观察到DocPedia有能力理解指令内容,并从高分辨率的文档图像和自然场景图像中准确地提取相关的图文信息
比如这组图中,DocPedia轻松从图片中挖掘出了车牌号、电脑配置等文本信息,甚至手写文字也能准确判断。
结合图像中的文本信息,DocPedia还可以利用大模型推理能力,根据上下文分析问题。
DocPedia在读取完图片信息后,还会根据其丰富的世界知识库,回答图像中未展示的扩展内容
下表定量对比了现有的一些多模态大模型和DocPedia的关键信息抽取(KIE)和视觉问答(VQA)能力。
通过提升分辨率和采用有效的训练方法,我们可以看到DocPedia在各项测试基准上都取得了显著的提升
那么,DocPedia是如何实现这样的效果的呢呢?
从频域出发解决分辨率问题
DocPedia的训练分为两个阶段:预训练和微调。为了训练DocPedia,作者团队收集了包含各类文档的大量图文数据,并构建指令微调数据集。
在预训练阶段,大型语言模型将被冻结,而只优化视觉编码器的部分,以使其输出的token表征空间与大型语言模型保持一致
在这个阶段,作者团队提出主要训练DocPedia的感知能力,包括对文字和自然场景的感知
预训练任务包括文字检测、文字识别、端到端OCR、段落阅读、全文阅读,以及图像文字说明。
在微调阶段,大型语言模型解除冻结,进行端到端整体优化
作者团队提出了感知-理解联合训练策略:在原有的低阶感知任务基础上,增加了文档理解和场景图像两种高阶的偏语义理解任务
这样一种感知-理解联合训练策略,进一步提高了DocPedia的性能。
在分辨率问题的策略上,与现有方法不同,DocPedia从频域的角度出发去解决。
在处理高分辨率文档图像时,DocPedia会首先提取其DCT系数矩阵。这个矩阵可以在不损失原图像的图文信息的情况下,将其空间分辨率下采样8倍
经过这一步骤后,我们会使用级联的频域适配器(Frequency Adapter)将输入信号传递给视觉编码器(Vision Encoder),以进行更深层次的分辨率压缩和特征提取
透過此方法,一張2560×2560的圖像,其圖文資訊可以用1600個token表示。
此方法相較於直接將原始影像輸入到視覺編碼器(如Swin Transformer)中,token數量減少4倍。
最後,這些token與指令轉換而來的token進行序列維度拼接,輸入到大模型進行回答。
消融實驗的結果顯示,提高解析度和進行感知-理解聯合微調是提升DocPedia性能的兩個重要因素
下圖對比了DocPedia對於一張論文影像以及同一個指令,在不同輸入尺度下的回答。可以看到,當且僅當解析度提升至2560×2560時,DocPedia回答正確。
下圖則是對比了DocPedia對於同一張場景文字圖像以及同一個指令,在不同微調策略下模型的回答。
透過這個例子可以看出,經過感知-理解聯合微調的模型,能夠準確地進行文字辨識與語意問答
請點擊以下連結查看論文:https://arxiv.org/abs/2311.11810
以上是突破解析度極限:位元組聯合中科大揭示多模態文檔大模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

DDREASE是一種用於從檔案或區塊裝置(如硬碟、SSD、RAM磁碟、CD、DVD和USB儲存裝置)復原資料的工具。它將資料從一個區塊設備複製到另一個區塊設備,留下損壞的資料區塊,只移動好的資料區塊。 ddreasue是一種強大的恢復工具,完全自動化,因為它在恢復操作期間不需要任何干擾。此外,由於有了ddasue地圖文件,它可以隨時停止和恢復。 DDREASE的其他主要功能如下:它不會覆寫恢復的數據,但會在迭代恢復的情況下填補空白。但是,如果指示工具明確執行此操作,則可以將其截斷。將資料從多個檔案或區塊還原到單

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

多模態文件理解能力新SOTA!阿里mPLUG團隊發布最新開源工作mPLUG-DocOwl1.5,針對高解析度圖片文字辨識、通用文件結構理解、指令遵循、外部知識引入四大挑戰,提出了一系列解決方案。話不多說,先來看效果。複雜結構的圖表一鍵識別轉換為Markdown格式:不同樣式的圖表都可以:更細節的文字識別和定位也能輕鬆搞定:還能對文檔理解給出詳細解釋:要知道,“文檔理解”目前是大語言模型實現落地的一個重要場景,市面上有許多輔助文檔閱讀的產品,有的主要透過OCR系統進行文字識別,配合LLM進行文字理

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高
