Trocr和Zhen乳胶OCR
探索图像到文本模型的力量:Trocr和Zhen乳胶OCR
AI的世界充满了语言模型及其在虚拟协助和内容创建中的应用。但是,由光学特征识别(OCR)提供支持的图像到文本转换领域提供了令人兴奋的可能性。本文深入研究了两种强大的图像到文本模型:Trocr和Zhen乳胶OCR,突出了它们的独特优势和应用。
学习目标:
- 了解Trocr和Zhen乳胶OCR的最佳用例。
- 洞悉其基本架构。
- 对这些模型进行推断并探索实际应用。
- 识别这些强大工具的现实用途。
(本文是数据科学博客马拉松的一部分。)
目录:
- Trocr:图像到文本的编码器模型
- 特罗克建筑
- 引入Zhen乳胶OCR
- Trocr vs. Zhen Latex OCR:比较
- 使用TROCR:逐步指南
- 利用Zhen乳胶OCR进行数学和乳胶图像识别
- 未来的改进和增强
- OCR的真实应用
- 常见问题
Trocr:图像到文本的编码器模型
TROR(基于传统的光学特征识别)是一种编码器模型,利用序列到序列机制进行图像到文本转换。它具有图像变压器(编码器)和文本变压器(解码器)。 Trocr模型通常在综合生成的印刷文本图像的广泛数据集上进行预训练,然后在IAM手写文本和SROIE印刷收据等数据集上进行微调,从而产生了Trocr-Small-Sroie,Trocr-Base-Base-Sroie和Trocr-Large-Large-Large-Sroie等变体。
特罗克建筑
与依靠CNN和RNNS的传统OCR模型不同,TROCR采用了远见和语言变压器体系结构。编码器处理图像,将其分为贴片,并使用多头注意力和馈送前方块生成图像嵌入。然后,解码器处理这些嵌入以产生编码的文本输出,最终将其解码为可读文本。图像已预处理到固定尺寸的补丁(例如,16x16)。
引入Zhen乳胶OCR
Zhen Latex OCR是Mixtex的开源模型,是另一个功能强大的编码器模型模型,专门将数学公式的图像和文本转换为乳胶代码。它准确地识别复杂的乳胶数学公式,表,甚至在单个图像中的单词,文本,公式和表之间的区分。它为英语和中文提供双语支持。
Trocr vs. Zhen Latex OCR:比较
Trocr在处理单线文本图像方面表现出色,提供了比其他OCR模型的速度优势。但是,Zhen乳胶OCR闪耀着其处理数学公式和乳胶代码的能力,为研究人员和学者提供了宝贵的工具。尽管存在用于乳胶输入的其他工具,但Zhen latex OCR提供了方便有效的替代方案。
使用TROCR:逐步指南
我们将使用SROIE数据集进行微调的Trocr模型演示。
步骤1:导入库
从变形金刚导入trocrprocessor,VisionencoderDecodermodel 从PIL导入图像 导入请求
步骤2:加载图像
url ='https://fki.tic.tic.heia-fr.ch/static/img/a01-122-02-00.jpg' image = image.open(requests.get(url,stream = true).raw).convert(“ rgb”)
步骤3:初始化TROR模型
processor = trocrprocessor.from_pretrataining('Microsoft/Trocr-Base印刷') 模型= visionencoderdecodermodel.from_pretrated('Microsoft/Trocr-Base印刷') pixel_values =处理器(images = image,return_tensors =“ pt”)。pixel_values
步骤4:文字一代
generated_ids = model.generate(pixel_values) generated_text = processor.batch_decode(generated_ids,skip_special_tokens = true)[0] print(generated_text.lower())#在小写中输出
利用Zhen乳胶OCR进行数学和乳胶图像识别
这是使用Zhen乳胶OCR的简短示例:
步骤1:导入库
从变形金刚导入自动源,VisionencoderDecodermodel,AutoImageProcessor 从PIL导入图像 导入请求 feature_extractor = autoimageProcessor.from_pretrataining(“ mixtex/zhen-latex-ocr”) tokenizer = autotokenizer.from_pretrataining(“ mixtex/zhen-latex-ocr”,max_len = 296) 型号= VisionencoderDecodermodel.from_pretrated(“ mixtex/zhen-latex-orock”)
步骤2:处理和生成乳胶
imgen = image.open(requests.get('https://cdn-uploads.huggingface.co/production/uploads/62DBAADE36292040577D2D4F/EOOAYM7FZDSJIC_8PTSC-h.png',stream = truh)。 latex_output = tokenizer.decode(model.generate(feature_extractor(imgen,return_tensors =“ pt”)。pixel_values)。pixel_values)[0])。 打印(latex_output)
未来的改进和增强
两种型号都有改进的空间。 Trocr可以从增强的曲线文本和自然场景中的图像中受益。 Zhen Latex OCR可以扩展以支持手写数学公式和更复杂的表。
OCR的真实应用
OCR模型在各个领域找到广泛的应用程序:
- 财务:从财务文件中提取数据。
- 医疗保健:数字化患者记录和处方。
- 政府:简化文件处理和记录保存。
结论
Trocr和Zhen乳胶OCR代表了图像到文本技术的重大进步。通过了解它们的优势和局限性,我们可以利用这些强大的工具来解决众多行业的现实世界问题。
关键要点:
- Trocr在单线文本识别方面表现出色。
- Zhen乳胶OCR专门研究数学公式和乳胶代码。
- 基于特定需求的模型选择对于最佳结果至关重要。
常见问题
Q1:Trocr和Zhen乳胶OCR之间的主要区别是什么? Trocr专注于一般文本提取,而Zhen latex OCR专门研究数学公式和乳胶。
Q2:我什么时候应该使用Zhen乳胶OCR代替Trocr?处理数学方程式或乳胶代码时,请使用Zhen乳胶OCR;否则,特罗克是合适的。
Q3:Zhen乳胶OCR可以处理手写方程吗?目前,不,但是未来的改进可能会解决这一问题。
问题4:哪些行业从OCR中受益最大?金融,医疗保健和政府是主要受益者。
(注意:本文中使用的图像不由作者所有,并且经过许可。)
以上是Trocr和Zhen乳胶OCR的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

本文回顾了AI最高的艺术生成器,讨论了他们的功能,对创意项目的适用性和价值。它重点介绍了Midjourney是专业人士的最佳价值,并建议使用Dall-E 2进行高质量的可定制艺术。

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

本文比较了诸如Chatgpt,Gemini和Claude之类的顶级AI聊天机器人,重点介绍了其独特功能,自定义选项以及自然语言处理和可靠性的性能。

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

文章讨论了Grammarly,Jasper,Copy.ai,Writesonic和Rytr等AI最高的写作助手,重点介绍了其独特的内容创建功能。它认为Jasper在SEO优化方面表现出色,而AI工具有助于保持音调的组成

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。 这不是短暂的趋势。这是整合到P中的新操作范式

本周的AI景观:进步,道德考虑和监管辩论的旋风。 OpenAI,Google,Meta和Microsoft等主要参与者已经释放了一系列更新,从开创性的新车型到LE的关键转变

本文评论了Google Cloud,Amazon Polly,Microsoft Azure,IBM Watson和Discript等高级AI语音生成器,重点介绍其功能,语音质量和满足不同需求的适用性。
