科大訊飛ICDAR 2023:圖文辨識再創輝煌,收穫四大冠軍
ICDAR 2023(國際文件分析與識別會議)作為文件影像分析識別領域最重要的國際會議之一,最近傳來了令人振奮的消息:
科大訊飛研究院與中科大語音及語言資訊處理國家工程研究中心(以下簡稱研究中心)在多行公式辨識、文件資訊定位與擷取、結構化文字資訊抽取三項比賽中獲得四個冠軍。
MLHME之冠:聚焦“多行書寫”,複雜度上再突破
MLHME(多行公式識別比賽)考查輸入包含手寫數學公式的圖像後,演算法輸出對應LaTex字串正確率。值得一提的是,相較於先前數學公式識別賽事,此次比賽業內首次將「多行書寫」設為主要挑戰對象,且不同於先前識別掃描、線上手寫的公式,本次以識別拍照的手寫多行公式為主。
科大訊飛研究院圖文識別團隊以67.9%的成績贏得了冠軍,並在主要評價指標—公式召回率上遠遠超過其他參賽團隊
公式召回率與榜單中Submit Results相對應
多行公式相比單行結構複雜度更高,同一個字元在公式裡多次出現時尺寸大小也會有變化;同時,比賽使用的資料集來自真實場景,拍照的手寫公式圖片更是存在品質低落、背景幹擾、文字幹擾、塗抹和批註幹擾等問題。這些因素讓比賽難度變得陡峭。
公式結構複雜,佔用多行
#圖片品質不高、批改幹擾
針對公式結構複雜,佔用多行問題,團隊使用大卷積核的Conv2former作為編碼器結構,擴大了模型的視野,更好地捕捉多行公式的結構特徵;創新性提出基於transformer的結構化序列解碼器SSD,明確地對多行公式內部的層次關係做了精細化建模,極大地提升了複雜結構的泛化性,更好地建模了結構化語意。
針對圖片品質問題所引起的字元歧義問題,團隊創新性提出了語義增強的解碼器訓練演算法,透過語意和視覺的聯合訓練,讓解碼器具備內在的領域知識。當字符難以辨認時,模型能夠自適應利用領域知識做出推理,給出最合理的辨識結果。
針對字元尺寸變化大的問題,團隊提出了一種自適應字元尺度估計演算法和多尺度融合解碼策略,極大提升了模型對字元大小變化的穩健性。
DocILE之冠:“行裡挑一”,文檔資訊定位與提取比賽雙賽道登頂榜首
DocILE(文檔資訊定位與提取比賽)評估機器學習方法在半結構化的商業文件中,對關鍵資訊定位、提取和行項識別的性能。
此比賽分為KILE和LIR兩個賽道任務。 KILE任務需要定位文件中預先定義類別的關鍵資訊位置,LIR任務則在此基礎上進一步將每個關鍵資訊分組為不同的行項項目(Line Item),例如表格中某一行單一物件(數量、價格)等。訊飛與研究中心最終在兩個賽道中獲得冠軍
KILE賽道榜
LIR賽道排行榜
在預訓練階段,我們設計了一個基於OCR品質的文件過濾器,透過從主辦單位提供的無標註文件中提取274萬頁的文件影像。然後,我們使用預訓練語言模型來取得文件中每個文字行的語意表徵,並使用遮罩語句來表徵恢復任務,在不同的Top-K配置下進行預訓練(GraphDoc模型中關於文件的注意力範圍的一個超參數)
在資料集微調階段,團隊使用了預訓練後的GraphDoc提取文字方塊的多模態表徵,並進行分類操作。在分類結果的基礎上,將多模態表徵送入低層注意力融合模組進行實例的聚合,在實例聚集的基礎上,使用高層注意力融合模組實現行項實例的聚集,所提出的注意力融合模組結構相同、但彼此不共享參數,可以同時用於KILE和LIR任務且具有良好的效果。
SVRD之冠:零樣本票證結構化資訊擷取任務第一,預訓練模型大考驗
SVRD(結構化文字資訊擷取)比賽分為4個賽道子任務,訊飛與研究中心在難度相當高的零樣本結構化資訊擷取子賽道(Task3:E2E零樣本結構化文字擷取)獲得第一名
排名順序
在官方指定不同類型發票需要提取的關鍵要素背景下,該賽道要求參賽團隊利用模型輸出這些關鍵要素在圖片中的對應內容,「零樣本」則代表訓練集和測試集的發票類型並無交集;賽道考查模型端到端預測準確率,取score1、score2加權平均值作為最終評估指標。
對於預訓練模型,零樣本提出了更高的要求。同時,在比賽中使用的發票版式多種多樣,各個版式中的乘車站點、發車時間等要素名稱各不相同。此外,發票照片存在背景幹擾、反光、文字重疊等問題,進一步增加了識別和提取的難度
不同版式的發票
發票受到條紋背景的干擾
團隊最初採用了複製-生成雙分支解碼策略來進行要素抽取模型,當前端OCR結果置信度較高時,直接複製OCR結果;而當OCR結果置信度較低時,則產生新的預測結果,以此緩解前端OCR模型所引入的識別錯誤
此外,團隊還基於OCR結果提取句子級的graphdoc特徵作為要素抽取模型輸入,此特徵融合了影像、文字、位置、版面多模態特徵,相比於單模態的純文字輸入具有更強的特徵表示。
團隊在此基礎上,也結合了UniLM、LiLT、DocPrompt等多個要素抽取模型,進一步提升了最終的要素抽取效果,使其在不同場景和語種下表現出更好的性能優勢
教育、金融、醫療等已落地應用,助力大模型提升多模態能力
此次選擇ICDAR 2023的相關賽事進行挑戰,來源於科大訊飛在實際業務中的真實場景需求;賽事相關的技術也已經深入教育、金融、醫療、司法、智慧硬體等領域,賦能多項業務與產品。
在教育領域,手寫公式辨識的技術能力被高頻使用,機器能給予精準的辨識、判斷和批改。例如訊飛AI學習機中的個人化精準學、AI診斷;老師上課所使用的「訊飛智慧窗」教學大螢幕、學生的個人化學習手冊等,都已發揮了很大成效;
不久前科大訊飛全球1024開發者節主論壇上發布的星火科研助手,三大核心功能之一的論文研讀可實現智能解讀論文,快速回答相關問題。後續在高精度公式辨識基礎上進階有機化學結構式、圖形、圖示、流程圖、表格等結構化場景辨識的效果,這項功能也會更好助力科學研究工作者提升效率;
文件資訊定位與抽取技術在金融領域廣泛應用,如合約要素抽取與審核、銀行票據要素抽取、行銷內容消保審查等場景。這些技術可實現文件或文件的資料解析、資訊抽取和比對審核等功能,幫助業務資料快速輸入、抽取和比對,進而提高審核過程的效率,降低成本
在這次1024主論壇上發布的個人AI健康助理是訊飛曉醫。它不僅可以掃描檢查單和化驗單,並給予分析和建議,還可以掃描藥盒,並進一步詢問並提供輔助用藥建議。對於體檢報告,用戶可以拍照上傳,訊飛曉醫可以識別關鍵訊息,並綜合解讀異常指標,主動詢問並提供更多幫助。這個功能背後依賴文件資訊定位與抽取技術的支援
科大訊飛的圖文辨識技術在演算法方面不斷突破,從單字辨識、文字行識別,到更複雜的二維結構識別、篇章層級識別。更強大的圖文辨識技術能夠提升多模態大模型在影像描述、影像問答、識圖創作、文件理解與處理等方面的效果與潛力
同時,圖文辨識技術也結合語音辨識、語音合成、機器翻譯等技術形成系統性創新,賦能產品應用後展現出更強大的功能與更明顯的價值優勢,相關項目也獲得了2022年度吳文俊人工智慧科技進步獎一等獎。新一程裡,在ICDAR 2023數個比賽中“多點開花”,既是科大訊飛在圖文識別理解技術深度上持續進步的回饋,也是廣度上不斷鋪開的肯定。
以上是科大訊飛ICDAR 2023:圖文辨識再創輝煌,收穫四大冠軍的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

但可能打不過公園裡的老大爺?巴黎奧運正在如火如荼地進行中,乒乓球項目備受關注。同時,機器人打乒乓球也取得了新突破。剛剛,DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址:https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢?大概和人類業餘選手不相上下:正手反手都會:對手採用多種打法,機器人也能招架得住:接不同旋轉的發球:不過,比賽激烈程度似乎不如公園老大爺對戰。對機器人來說,乒乓球運動

8月21日,2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相,並最新發布元蘿蔔AI下棋機器人-國際象棋專業版(以下簡稱「元蘿蔔國象機器人」),成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品,全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新,首次在家用機器人上實現了透過機械爪拾取立體棋子,並進行人機對弈、人人對弈、記譜複盤等功能,

開學將至,該收心的不只即將開啟新學期的同學,可能還有AI大模型。前段時間,Reddit擠滿了吐槽Claude越來越懶的網友。 「它的水平下降了很多,經常停頓,甚至輸出也變得很短。在發布的第一周,它可以一次性翻譯整整4頁文稿,現在連半頁都輸出不了!」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”,滿滿地

在北京舉行的世界機器人大會上,人形機器人的展示成為了現場絕對的焦點,在星塵智能的展台上,由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲,能文能武,吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏,讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道,公司創始人來傑解釋到,絲滑動作的背後,是硬體側追求最好力控和最仿人身體指標(速度、負載等),而是在AI側則採集人的真實動作數據,讓機器人遇強則強,快速學習進化。而敏捷

本屆ACL大會,投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。一直以來,ACL在NLP領域的學術影響力都名列第一,它也是CCF-A類推薦會議。今年的ACL大會已是第62屆,接收了400餘篇NLP領域的前沿工作。昨天下午,大會公佈了最佳論文等獎項。此次,最佳論文獎7篇(兩篇未公開)、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎(ResourceAward)3篇、社會影響力獎(

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時,加上最近老上頭條的1X人形機器人NEO,你可能會產生一種感覺:我們似乎開始進入機器人時代了。事實上,這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道,有用的機器人往往需要與環境進行複雜精妙的交互,而環境則可被表示成空間域和時間域上的限制。舉個例子,如果要讓機器人倒茶,那麼機器人首先需要抓住茶壺手柄並使之保持直立,不潑灑出茶水,然後平穩移動,一直到讓壺口與杯口對齊,之後以一定角度傾斜茶壺。這

今天下午,鸿蒙智行正式迎来了新品牌与新车。8月6日,华为举行鸿蒙智行享界S9及华为全场景新品发布会,带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕昇激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品,从智慧出行、智慧办公到智能穿戴,华为全场景智慧生态持续构建,为消费者带来万物互联的智慧体验。鸿蒙智行:深度赋能,推动智能汽车产业升级华为联合中国汽车产业伙伴,为

會議簡介隨著科技的快速發展,人工智慧成為了推動社會進步的重要力量。在這個時代,我們有幸見證並參與分散式人工智慧(DistributedArtificialIntelligence,DAI)的創新與應用。分散式人工智慧是人工智慧領域的重要分支,這幾年引起了越來越多的關注。基於大型語言模型(LLM)的智能體(Agent)異軍突起,透過結合大模型的強大語言理解和生成能力,展現了在自然語言互動、知識推理、任務規劃等方面的巨大潛力。 AIAgent正在接棒大語言模型,成為目前AI圈的熱門話題。 Au
