Trocr和Zhen乳胶OCR-人工智能-PHP中文网

首页

科技周边

人工智能

Trocr和Zhen乳胶OCR

Jennifer Aniston

Apr 14, 2025 am 09:59 AM

探索图像到文本模型的力量：Trocr和Zhen乳胶OCR

AI的世界充满了语言模型及其在虚拟协助和内容创建中的应用。但是，由光学特征识别（OCR）提供支持的图像到文本转换领域提供了令人兴奋的可能性。本文深入研究了两种强大的图像到文本模型：Trocr和Zhen乳胶OCR，突出了它们的独特优势和应用。

学习目标：

了解Trocr和Zhen乳胶OCR的最佳用例。
洞悉其基本架构。
对这些模型进行推断并探索实际应用。
识别这些强大工具的现实用途。

（本文是数据科学博客马拉松的一部分。）

目录：

Trocr：图像到文本的编码器模型
特罗克建筑
引入Zhen乳胶OCR
Trocr vs. Zhen Latex OCR：比较
使用TROCR：逐步指南
利用Zhen乳胶OCR进行数学和乳胶图像识别
未来的改进和增强
OCR的真实应用
常见问题

Trocr：图像到文本的编码器模型

TROR（基于传统的光学特征识别）是一种编码器模型，利用序列到序列机制进行图像到文本转换。它具有图像变压器（编码器）和文本变压器（解码器）。 Trocr模型通常在综合生成的印刷文本图像的广泛数据集上进行预训练，然后在IAM手写文本和SROIE印刷收据等数据集上进行微调，从而产生了Trocr-Small-Sroie，Trocr-Base-Base-Sroie和Trocr-Large-Large-Large-Sroie等变体。

Trocr和Zhen乳胶OCR

特罗克建筑

与依靠CNN和RNNS的传统OCR模型不同，TROCR采用了远见和语言变压器体系结构。编码器处理图像，将其分为贴片，并使用多头注意力和馈送前方块生成图像嵌入。然后，解码器处理这些嵌入以产生编码的文本输出，最终将其解码为可读文本。图像已预处理到固定尺寸的补丁（例如，16x16）。

引入Zhen乳胶OCR

Zhen Latex OCR是Mixtex的开源模型，是另一个功能强大的编码器模型模型，专门将数学公式的图像和文本转换为乳胶代码。它准确地识别复杂的乳胶数学公式，表，甚至在单个图像中的单词，文本，公式和表之间的区分。它为英语和中文提供双语支持。

Trocr和Zhen乳胶OCR

Trocr vs. Zhen Latex OCR：比较

Trocr在处理单线文本图像方面表现出色，提供了比其他OCR模型的速度优势。但是，Zhen乳胶OCR闪耀着其处理数学公式和乳胶代码的能力，为研究人员和学者提供了宝贵的工具。尽管存在用于乳胶输入的其他工具，但Zhen latex OCR提供了方便有效的替代方案。

使用TROCR：逐步指南

我们将使用SROIE数据集进行微调的Trocr模型演示。

步骤1：导入库

从变形金刚导入trocrprocessor，VisionencoderDecodermodel
从PIL导入图像
导入请求

登录后复制

步骤2：加载图像

url ='https://fki.tic.tic.heia-fr.ch/static/img/a01-122-02-00.jpg'
image = image.open（requests.get（url，stream = true）.raw）.convert（“ rgb”）

登录后复制

步骤3：初始化TROR模型

processor = trocrprocessor.from_pretrataining（'Microsoft/Trocr-Base印刷'）
模型= visionencoderdecodermodel.from_pretrated（'Microsoft/Trocr-Base印刷'）
pixel_values =处理器（images = image，return_tensors =“ pt”）。pixel_values

登录后复制

步骤4：文字一代

generated_ids = model.generate（pixel_values）
generated_text = processor.batch_decode（generated_ids，skip_special_tokens = true）[0]
print（generated_text.lower（））＃在小写中输出

登录后复制

Trocr和Zhen乳胶OCR

利用Zhen乳胶OCR进行数学和乳胶图像识别

这是使用Zhen乳胶OCR的简短示例：

步骤1：导入库

从变形金刚导入自动源，VisionencoderDecodermodel，AutoImageProcessor
从PIL导入图像
导入请求

feature_extractor = autoimageProcessor.from_pretrataining（“ mixtex/zhen-latex-ocr”）
tokenizer = autotokenizer.from_pretrataining（“ mixtex/zhen-latex-ocr”，max_len = 296）
型号= VisionencoderDecodermodel.from_pretrated（“ mixtex/zhen-latex-orock”）

登录后复制

步骤2：处理和生成乳胶

imgen = image.open（requests.get（'https://cdn-uploads.huggingface.co/production/uploads/62DBAADE36292040577D2D4F/EOOAYM7FZDSJIC_8PTSC-h.png'，stream = truh）。
latex_output = tokenizer.decode（model.generate（feature_extractor（imgen，return_tensors =“ pt”）。pixel_values）。pixel_values）[0]）。
打印（latex_output）

登录后复制

Trocr和Zhen乳胶OCR