Ollama-OCR 使用 Ollama 进行高精度 OCR-js教程-PHP中文网

首页

web前端

js教程

Ollama-OCR 使用 Ollama 进行高精度 OCR

Linda Hamilton

Nov 27, 2024 am 08:16 AM

Llama 3.2-Vision 是一种多模态大语言模型，提供 11B 和 90B 尺寸，能够处理文本和图像输入以生成文本输出。该模型在视觉识别、图像推理、图像描述和回答图像相关问题方面表现出色，在多个行业基准上优于现有的开源和闭源多模态模型。

Llama 3.2-视觉示例

手写

Ollama-OCR for High-Precision OCR with Ollama

光学字符识别 (OCR)

Ollama-OCR for High-Precision OCR with Ollama

在本文中，我将介绍如何调用 Ollama 运行的 Llama 3.2-Vision 11B 建模服务，并使用 Ollama-OCR 实现图像文本识别 (OCR) 功能。

Ollama-OCR 的特点

？使用 Llama 3.2-Vision 模型进行高精度文本识别
？保留原始文本格式和结构
?️支持多种图片格式：JPG、JPEG、PNG
⚡️可定制的识别提示和模型
？ Markdown 输出格式选项
？强大的错误处理

安装奥拉玛

在开始使用 Llama 3.2-Vision 之前，您需要安装 Ollama，一个支持本地运行多模态模型的平台。请按照以下步骤安装：

下载Ollama：访问Ollama官方网站下载适合您操作系统的安装包。
安装Ollama：根据下载的安装包按照提示完成安装。

安装 Llama 3.2-Vision 11B

安装 Ollama 后，您可以使用以下命令安装 Llama 3.2-Vision 11B 模型：

ollama run llama3.2-vision

登录后复制

如何使用 Ollama-OCR

npm install ollama-ocr
# or using pnpm
pnpm add ollama-ocr

登录后复制

光学字符识别

代码

import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./handwriting.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  console.log(text);
}

登录后复制

输入图像：

Ollama-OCR for High-Precision OCR with Ollama

输出：
Llama 3.2-Vision 多模态大语言模型 (LLM) 集合是一个经过指令调整的图像推理生成模型集合，具有 118 和 908 尺寸（文本图像输入/文本输出）。 Llama 3.2-Vision 指令调整模型针对视觉识别、图像推理、字幕和回答有关图像的一般问题进行了优化。这些模型在常见行业基准上优于许多可用的开源和封闭多模式模型。

2. Markdown 输出

import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./trader-joes-receipt.jpg",
    systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT,
  });
  console.log(text);
}

登录后复制

输入图片：

Ollama-OCR for High-Precision OCR with Ollama

输出：

Ollama-OCR for High-Precision OCR with Ollama

ollama-ocr 使用本地视觉模型，如果您想使用在线 Llama 3.2-Vision 模型，请尝试 llama-ocr 库。

以上是Ollama-OCR 使用 Ollama 进行高精度 OCR的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1670

CakePHP 教程

1428

Laravel 教程

1329

PHP教程

1276

C# 教程

1256

显示更多

Related knowledge

Python vs. JavaScript：学习曲线和易用性 Apr 16, 2025 am 12:12 AM

Python更适合初学者，学习曲线平缓，语法简洁；JavaScript适合前端开发，学习曲线较陡，语法灵活。1.Python语法直观，适用于数据科学和后端开发。2.JavaScript灵活，广泛用于前端和服务器端编程。

从C/C到JavaScript：所有工作方式 Apr 14, 2025 am 12:05 AM

从C/C 转向JavaScript需要适应动态类型、垃圾回收和异步编程等特点。1）C/C 是静态类型语言，需手动管理内存，而JavaScript是动态类型，垃圾回收自动处理。2）C/C 需编译成机器码，JavaScript则为解释型语言。3）JavaScript引入闭包、原型链和Promise等概念，增强了灵活性和异步编程能力。

JavaScript和Web：核心功能和用例 Apr 18, 2025 am 12:19 AM

JavaScript在Web开发中的主要用途包括客户端交互、表单验证和异步通信。1)通过DOM操作实现动态内容更新和用户交互；2)在用户提交数据前进行客户端验证，提高用户体验；3)通过AJAX技术实现与服务器的无刷新通信。

JavaScript在行动中：现实世界中的示例和项目 Apr 19, 2025 am 12:13 AM

JavaScript在现实世界中的应用包括前端和后端开发。1)通过构建TODO列表应用展示前端应用，涉及DOM操作和事件处理。2)通过Node.js和Express构建RESTfulAPI展示后端应用。

了解JavaScript引擎：实施详细信息 Apr 17, 2025 am 12:05 AM

理解JavaScript引擎内部工作原理对开发者重要，因为它能帮助编写更高效的代码并理解性能瓶颈和优化策略。1)引擎的工作流程包括解析、编译和执行三个阶段；2)执行过程中，引擎会进行动态优化，如内联缓存和隐藏类；3)最佳实践包括避免全局变量、优化循环、使用const和let，以及避免过度使用闭包。

Python vs. JavaScript：社区，图书馆和资源 Apr 15, 2025 am 12:16 AM

Python和JavaScript在社区、库和资源方面的对比各有优劣。1)Python社区友好，适合初学者，但前端开发资源不如JavaScript丰富。2)Python在数据科学和机器学习库方面强大，JavaScript则在前端开发库和框架上更胜一筹。3)两者的学习资源都丰富，但Python适合从官方文档开始，JavaScript则以MDNWebDocs为佳。选择应基于项目需求和个人兴趣。

Python vs. JavaScript：开发环境和工具 Apr 26, 2025 am 12:09 AM

Python和JavaScript在开发环境上的选择都很重要。1)Python的开发环境包括PyCharm、JupyterNotebook和Anaconda，适合数据科学和快速原型开发。2)JavaScript的开发环境包括Node.js、VSCode和Webpack，适用于前端和后端开发。根据项目需求选择合适的工具可以提高开发效率和项目成功率。

C/C在JavaScript口译员和编译器中的作用 Apr 20, 2025 am 12:01 AM

C和C 在JavaScript引擎中扮演了至关重要的角色，主要用于实现解释器和JIT编译器。 1）C 用于解析JavaScript源码并生成抽象语法树。 2）C 负责生成和执行字节码。 3）C 实现JIT编译器，在运行时优化和编译热点代码，显着提高JavaScript的执行效率。

See all articles

Ollama-OCR 使用 Ollama 进行高精度 OCR

Llama 3.2-视觉示例

手写

光学字符识别 (OCR)

Ollama-OCR 的特点

安装奥拉玛

安装 Llama 3.2-Vision 11B

如何使用 Ollama-OCR

光学字符识别

2. Markdown 输出

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题