科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军-人工智能-PHP中文网

首页

科技周边

人工智能

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 08, 2023 am 08:17 AM

产业科大讯飞

ICDAR 2023（国际文档分析与识别会议）作为文档图像分析识别领域最重要的国际会议之一，最近传来了令人振奋的消息：

科大讯飞研究院与中科大语音及语言信息处理国家工程研究中心（以下简称研究中心）在多行公式识别、文档信息定位与提取、结构化文本信息抽取三项比赛中获得四个冠军。

MLHME之冠：聚焦“多行书写”，复杂度上再突破

MLHME（多行公式识别比赛）考查输入包含手写数学公式的图像后，算法输出对应LaTex字符串正确率。值得一提的是，相比此前数学公式识别赛事，此次比赛业内首次将“多行书写”设为主要挑战对象，且不同于之前识别扫描、在线手写的公式，本次以识别拍照的手写多行公式为主。

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

科大讯飞研究院图文识别团队以67.9%的成绩赢得了冠军，并在主要评价指标—公式召回率上远远超过其他参赛团队

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

公式召回率与榜单中Submit Results相对应

多行公式相比单行结构复杂度更高，同一个字符在公式里多次出现时尺寸大小也会有变化；同时，比赛使用的数据集来自真实场景，拍照的手写公式图片更是存在质量低下、背景干扰、文字干扰、涂抹和批注干扰等问题。这些因素让比赛难度陡增。

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

公式结构复杂，占用多行

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

图片质量不高、批改干扰

针对公式结构复杂，占用多行问题，团队使用大卷积核的Conv2former作为编码器结构，扩大了模型的视野，更好地捕捉多行公式的结构特征；创新性提出基于transformer的结构化序列解码器SSD，显式对多行公式内部的层次关系做了精细化建模，极大提升了复杂结构的泛化性，更好地建模了结构化语义。

针对图片质量问题所引起的字符歧义问题，团队创新性提出了语义增强的解码器训练算法，通过语义和视觉的联合训练，让解码器具备内在的领域知识。当字符难以辨认时，模型能够自适应利用领域知识做出推理，给出最合理的识别结果。

针对字符尺寸变化大的问题，团队提出了一种自适应字符尺度估计算法和多尺度融合解码策略，极大提升了模型对字符大小变化的鲁棒性。

DocILE之冠：“行里挑一”，文档信息定位与提取比赛双赛道登顶榜首

DocILE（文档信息定位与提取比赛）评估机器学习方法在半结构化的商业文档中，对关键信息定位、提取和行项识别的性能。

该比赛分为KILE和LIR两个赛道任务。KILE任务需要定位文档中预定义类别的关键信息位置，LIR任务则在此基础上进一步将每个关键信息分组为不同的行项条目（Line Item），比如表格中某一行单个对象（数量、价格）等。讯飞与研究中心最终在两个赛道中获得冠军

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军 KILE赛道榜单

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

LIR赛道排行榜

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

左为KILE赛道说明，右为LIR赛道说明

从赛事官方给出的任务图示可以看出，文档中待抽取的信息种类非常繁杂。其中，KILE任务不仅需要提取预定义类别的关键信息，还要得到关键信息的具体位置；LIR任务中，一个行项在单个表格中可能有多行文本。加上此次赛事数据集中信息种类多、文档版式复杂多样，大大增加了挑战性。

联合团队在算法层面提出了两项技术创新方案：

在预训练阶段，我们设计了一个基于OCR质量的文档过滤器，通过从主办方提供的无标注文档中提取274万页的文档图像。然后，我们使用预训练语言模型来获取文档中每个文本行的语义表征，并使用掩码语句表征恢复任务，在不同的Top-K配置下进行预训练（GraphDoc模型中关于文档的注意力范围的一个超参数）

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

在数据集微调阶段，团队使用了预训练后的GraphDoc提取文本框的多模态表征，并进行分类操作。在分类结果的基础上，将多模态表征送入低层注意力融合模块进行实例的聚合，在实例聚集的基础上，使用高层注意力融合模块实现行项实例的聚集，所提出的注意力融合模块结构相同、但彼此不共享参数，可以同时用于KILE和LIR任务且具有很好的效果。

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

SVRD之冠：零样本票证结构化信息抽取任务第一，预训练模型大考验

SVRD（结构化文本信息抽取）比赛分为4个赛道子任务，讯飞与研究中心在难度颇高的零样本结构化信息抽取子赛道（Task3：E2E零样本结构化文本抽取）获得第一名

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

排名次序

在官方指定不同类型发票需要提取的关键要素背景下，该赛道要求参赛团队利用模型输出这些关键要素在图片中的对应内容，“零样本”则代表训练集和测试集的发票类型并无交集；赛道考查模型端到端预测准确率，取score1、score2加权平均值作为最终评价指标。

对于预训练模型，零样本提出了更高的要求。与此同时，在比赛中使用的发票版式多种多样，各个版式中的乘车站点、发车时间等要素名称各不相同。此外，发票照片存在着背景干扰、反光、文字重叠等问题，这进一步增加了识别和提取的难度

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

不同版式的发票

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

发票受到条纹背景的干扰

团队最初采用了复制-生成双分支解码策略来进行要素抽取模型，当前端OCR结果置信度较高时，直接复制OCR结果；而当OCR结果置信度较低时，则生成新的预测结果，以此缓解前端OCR模型所引入的识别错误

此外，团队还基于OCR结果提取句子级的graphdoc特征作为要素抽取模型输入，该特征融合了图像、文本、位置、版面多模态特征，相比于单模态的纯文本输入具有更强的特征表示。

团队在此基础上，还结合了UniLM、LiLT、DocPrompt等多个要素抽取模型，进一步提升了最终的要素抽取效果，使其在不同场景和语种下表现出更好的性能优势

教育、金融、医疗等已落地应用，助力大模型提升多模态能力

此次选择ICDAR 2023的相关赛事进行挑战，来源于科大讯飞在实际业务中的真实场景需求；赛事相关的技术也已经深入教育、金融、医疗、司法、智能硬件等领域，赋能多项业务与产品。

在教育领域，手写公式识别的技术能力被高频使用，机器能给予精准的识别、判断和批改。例如讯飞AI学习机中的个性化精准学、AI诊断；老师上课所使用的“讯飞智慧窗”教学大屏、学生的个性化学习手册等，都已发挥了很大成效；

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

不久前科大讯飞全球1024开发者节主论坛上发布的星火科研助手，三大核心功能之一的论文研读可实现智能解读论文，快速回答相关问题。后续在高精度公式识别基础上进阶有机化学结构式、图形、图标、流程图、表格等结构化场景识别的效果，这项功能也会更好助力科研工作者提升效率；

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

文档信息定位与抽取技术在金融领域得到广泛应用，如合同要素抽取与审核、银行票据要素抽取、营销内容消保审查等场景。这些技术可以实现文档或文件的数据解析、信息抽取和比对审核等功能，帮助业务数据快速录入、抽取和比对，从而提高审核过程的效率，降低成本

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

在这次1024主论坛上发布的个人AI健康助手是讯飞晓医。它不仅可以扫描检查单和化验单，并给出分析和建议，还可以扫描药盒，并进一步询问并提供辅助用药建议。对于体检报告，用户可以拍照上传，讯飞晓医可以识别关键信息，并综合解读异常指标，主动询问并提供更多帮助。这个功能背后依赖于文档信息定位与抽取技术的支持

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

科大讯飞的图文识别技术在算法方面不断突破，从单字识别、文本行识别，到更复杂的二维结构识别、篇章级识别。更强大的图文识别技术能够提升多模态大模型在图像描述、图像问答、识图创作、文档理解与处理等方面的效果和潜力

与此同时，图文识别技术也结合语音识别、语音合成、机器翻译等技术形成系统性创新，赋能产品应用后展现出更强大的功能与更明显的价值优势，相关项目也获得了2022年度吴文俊人工智能科技进步奖一等奖。新一程里，在ICDAR 2023数个比赛中“多点开花”，既是科大讯飞在图文识别理解技术深度上持续进步的回馈，也是广度上不断铺开的肯定。

以上是科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7555

CakePHP 教程

1383

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

DeepMind机器人打乒乓球，正手、反手溜到飞起，全胜人类初学者 Aug 09, 2024 pm 04:01 PM

但可能打不过公园里的老大爷？巴黎奥运会正在如火如荼地进行中，乒乓球项目备受关注。与此同时，机器人打乒乓球也取得了新突破。刚刚，DeepMind提出了第一个在竞技乒乓球比赛中达到人类业余选手水平的学习型机器人智能体。论文地址：https://arxiv.org/pdf/2408.03906DeepMind这个机器人打乒乓球什么水平呢？大概和人类业余选手不相上下：正手反手都会：对手采用多种打法，该机器人也能招架得住：接不同旋转的发球：不过，比赛激烈程度似乎不如公园老大爷对战。对机器人来说，乒乓球运动

首配机械爪！元萝卜亮相2024世界机器人大会，发布首个走进家庭的国际象棋机器人 Aug 21, 2024 pm 07:33 PM

8月21日，2024世界机器人大会在北京隆重召开。商汤科技旗下家用机器人品牌“元萝卜SenseRobot”家族全系产品集体亮相，并最新发布元萝卜AI下棋机器人——国际象棋专业版（以下简称“元萝卜国象机器人”），成为全球首个走进家庭的国际象棋机器人。作为元萝卜的第三款下棋机器人产品，全新的国象机器人在AI和工程机械方面进行了大量专项技术升级和创新，首次在家用机器人上实现了通过机械爪拾取立体棋子，并进行人机对弈、人人对弈、记谱复盘等功能，

Claude也变懒了！网友：学会给自己放假了 Sep 02, 2024 pm 01:56 PM

开学将至，该收心的不止有即将开启新学期的同学，可能还有AI大模型。前段时间，Reddit上挤满了吐槽Claude越来越懒的网友。「它的水平下降了很多，经常停顿，甚至输出也变得很短。在发布的第一周，它可以一次性翻译整整4页文稿，现在连半页都输出不了了！」https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一个名为「对Claude彻底失望了的帖子里」，满满地

世界机器人大会上，这家承载「未来养老希望」的国产机器人被包围了 Aug 22, 2024 pm 10:35 PM

正在北京举行的世界机器人大会上，人形机器人的展示成为了现场绝对的焦点，在星尘智能的展台上，由于AI机器人助理S1在一个展区上演扬琴、武术、书法三台大戏，能文能武，吸引了大量专业观众和媒体的驻足。在带弹性的琴弦上的优雅演奏，让S1展现出速度、力度、精度兼具的精细操作和绝对掌控。央视新闻对「书法」背后的模仿学习和智能控制进行了专题报道，公司创始人来杰解释到，丝滑动作的背后，是硬件侧追求最好力控和最仿人身体指标（速度、负载等），而是在AI侧则采集人的真实动作数据，让机器人遇强则强，快速学习进化。而敏捷

ACL 2024奖项公布：华科大破译甲骨文最佳论文之一、GloVe时间检验奖 Aug 15, 2024 pm 04:37 PM

本届ACL大会，投稿者「收获满满」。为期六天的ACL2024正在泰国曼谷举办。ACL是计算语言学和自然语言处理领域的顶级国际会议，由国际计算语言学协会组织，每年举办一次。一直以来，ACL在NLP领域的学术影响力都位列第一，它也是CCF-A类推荐会议。今年的ACL大会已是第62届，接收了400余篇NLP领域的前沿工作。昨天下午，大会公布了最佳论文等奖项。此次，最佳论文奖7篇（两篇未公开）、最佳主题论文奖1篇、杰出论文奖35篇。大会还评出了资源论文奖（ResourceAward）3篇、社会影响力奖（

鸿蒙智行享界S9及全场景新品发布会，多款重磅新品齐发 Aug 08, 2024 am 07:02 AM

今天下午，鸿蒙智行正式迎来了新品牌与新车。 8月6日，华为举行鸿蒙智行享界S9及华为全场景新品发布会，带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕升激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品，从智慧出行、智慧办公到智能穿戴，华为全场景智慧生态持续构建，为消费者带来万物互联的智慧体验。鸿蒙智行：深度赋能，推动智能汽车产业升级华为联合中国汽车产业伙伴，为

李飞飞团队提出ReKep，让机器人具备空间智能，还能整合GPT-4o Sep 03, 2024 pm 05:18 PM

视觉与机器人学习的深度融合。当两只机器手丝滑地互相合作叠衣服、倒茶、将鞋子打包时，加上最近老上头条的1X人形机器人NEO，你可能会产生一种感觉：我们似乎开始进入机器人时代了。事实上，这些丝滑动作正是先进机器人技术+精妙框架设计+多模态大模型的产物。我们知道，有用的机器人往往需要与环境进行复杂精妙的交互，而环境则可被表示成空间域和时间域上的约束。举个例子，如果要让机器人倒茶，那么机器人首先需要抓住茶壶手柄并使之保持直立，不泼洒出茶水，然后平稳移动，一直到让壶口与杯口对齐，之后以一定角度倾斜茶壶。这

分布式人工智能盛会DAI 2024征稿：Agent Day，强化学习之父Richard Sutton将出席！颜水成、Sergey Levine以及DeepMind科学家将做主旨报告 Aug 22, 2024 pm 08:02 PM

会议简介随着科技的飞速发展，人工智能已经成为了推动社会进步的重要力量。在这个时代，我们有幸见证并参与到分布式人工智能（DistributedArtificialIntelligence，DAI）的创新与应用中。分布式人工智能是人工智能领域的重要分支，这几年引起了越来越多的关注。基于大型语言模型（LLM）的智能体（Agent）异军突起，通过结合大模型的强大语言理解和生成能力，展现出了在自然语言交互、知识推理、任务规划等方面的巨大潜力。AIAgent正在接棒大语言模型，成为当前AI圈的热点话题。Au

See all articles

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题