社群

學習

工具庫

AI工具

休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > 曠視開源多模態大模型，支援文件級OCR，涵蓋中英文，是否標誌著OCR的終結？

曠視開源多模態大模型，支援文件級OCR，涵蓋中英文，是否標誌著OCR的終結？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

發布： 2024-01-05 21:23:58

轉載

1226 人瀏覽過

想將一份文件圖片轉換成Markdown格式？

以往這項任務需要文字辨識、佈局偵測與排序、公式表格處理、文字清洗等多個步驟－

這次，只需一句話指令，多模態大模型Vary直接端對端輸出結果：

曠視開源多模態大模型，支援文件級OCR，涵蓋中英文，是否標誌著OCR的終結？ #圖片

無論是中英文的大段文字：

曠視開源多模態大模型，支援文件級OCR，涵蓋中英文，是否標誌著OCR的終結？圖片

也包含了公式的文件圖片

曠視開源多模態大模型，支援文件級OCR，涵蓋中英文，是否標誌著OCR的終結？ ##圖片

#又或是手機頁面截圖：

曠視開源多模態大模型，支援文件級OCR，涵蓋中英文，是否標誌著OCR的終結？圖片

#甚至可以將圖片中的表格轉換成latex格式：

曠視開源多模態大模型，支援文件級OCR，涵蓋中英文，是否標誌著OCR的終結？圖片

當然，作為一個多模大型模型，保持通用能力是必不可少的

曠視開源多模態大模型，支援文件級OCR，涵蓋中英文，是否標誌著OCR的終結？ #圖片

Vary表現出了很大的潛力和極高的上限，OCR可以不再需要冗長的pipline，直接端對端輸出，並且可以按用戶的prompt輸出不同的格式如latex 、word 、markdown。

透過強大的語言先驗，這種架構可以避免OCR中的易錯字，如「槓桿」和「杜桿」等。對於模糊文檔，借助語言先驗的幫助，也有望實現更強的OCR效果

引發了不少網友的關注的項目一經推出，立即引起了廣泛討論。其中一位網友在看到後直呼「殺爆了！」

曠視開源多模態大模型，支援文件級OCR，涵蓋中英文，是否標誌著OCR的終結？圖片

這樣的效果是如何實現的呢？

受大模型啟發打造

目前的多模態大模型幾乎都是用CLIP作為Vision Encoder或說視覺詞表。確實，在400M圖像文字對訓練的CLIP有很強的視覺文字對齊能力，可以涵蓋多數日常任務下的圖像編碼。

但對於密集和細粒度感知任務，例如文檔層級的OCR、Chart理解，特別是在非英文場景，CLIP表現出了明顯的

編碼低效和out-of-vocabulary問題。

純NLP大模型（如LLaMA）從英文過渡到中文（對大模型來說是“外語”）時，因為原始詞表編碼中文效率低，必須要擴大text詞表才能實現較好的效果。

研究團隊從中得到了啟發，正是因為這個特點

現在基於CLIP視覺詞表的多模態大模型，面臨著同樣的問題，遇到“foreign language image ”，如一頁論文密密麻麻的文字，很難有效率地將圖片token化。

Vary是為解決這個問題而提供的解決方案，它可以在不重新建立原始詞表的情況下，高效地擴充視覺詞表

曠視開源多模態大模型，支援文件級OCR，涵蓋中英文，是否標誌著OCR的終結？圖片

不同於現有方法直接用現成的CLIP詞表，Vary分兩個階段：

首先，我們將在第一階段使用一個小型的僅解碼器網絡，以自回歸的方式生成一個強大的新視覺詞表

接下來，在第二階段將新詞表和CLIP詞表進行融合，以便高效地訓練LVLM並賦予其新的特性

以下是Vary的訓練方法和模型結構圖示：

曠視開源多模態大模型，支援文件級OCR，涵蓋中英文，是否標誌著OCR的終結？

#透過在公開資料集以及渲染生成的文檔圖表等資料上訓練，Vary極大增強了細粒度的視覺感知能力。

在維持vanilla多模態能力的同時，激發出了端到端的中英文圖片、公式截圖和圖表理解能力。

另外，研究團隊注意到原本可能需要數千tokens 的頁面內容，透過文件圖片輸入，資訊被Vary壓縮在了256個圖片tokens中，這也為進一步的頁面分析和總結提供了更多的想像空間。

目前，Vary的程式碼和模型都已開源，也給了供大家試玩的網頁demo。

有興趣的朋友可以去試試了～

以上是曠視開源多模態大模型，支援文件級OCR，涵蓋中英文，是否標誌著OCR的終結？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

頁面模型 ocr

上一篇：deepin 新增“映像 AI 外掛程式”，支援裝置端映像上色和其他 8 大功能下一篇：全球首個AMD AI Windows三合一平板電腦-銘凡V3今晚揭曉

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

LLM的工作方式：培訓前訓練，神經網絡，幻覺和推理

2025-02-26 03:58:14
我將區塊鍊和AI組合在一起以生成藝術。接下來發生了什麼。

2025-02-26 03:38:10
高級及時工程：思想鏈（COT）

2025-02-26 03:17:10
在Sqlite中檢索增強發電

2025-02-26 02:49:09
如何使用LLM驅動的樣板構建自己的節點。JSAPI

2025-02-26 01:08:13
2024年編碼的LLM：價格，性能和爭取最佳的戰鬥

2025-02-26 00:46:10
提示視覺語言模型

2025-02-25 23:42:08
如何衡量大語模型的響應的可靠性

2025-02-25 22:50:13
生活的幻想

2025-02-25 21:54:11
科學家對大型語言模型的認真反映了人類思維

2025-02-25 20:45:11

最新問題

8個流行的抹布應用工具

2025-03-19 11:26:08
閃電般的JAX指南

2025-03-19 11:21:11
用於分析客戶問題的代理抹布

2025-03-19 11:20:13
Snapsynapse使客戶呼叫分析變得容易

2025-03-19 11:17:15
3種朗鏈獵犬的先進策略

2025-03-19 11:16:09

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1438362
php入門教程之一週學會PHP

4299123
JAVA 初級入門影片教學

2673228
小甲魚零基礎入門學習Python影片教學

517388
PHP 零基礎入門教學

878533

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板