Python OCRテキスト認識の方法は何ですか?-Python チュートリアル-php.cn

方法一：使用easyocr模块

方法二：通过pytesseract调用tesseract

Tesseract的安装与使用

pytesseract

cnocr 第二种 Python 开源识别工具的效果

安装 cnocr：

cnocr 识别图片的中文

方法三：调用百度API

ホームページ

バックエンド開発

Python チュートリアル

Python OCRテキスト認識の方法は何ですか?

PHPz

May 11, 2023 am 10:34 AM

python ocr

将图片翻译成文字一般被称为光学文字识别（Optical Character Recognition，OCR）。可以实现OCR 的底层库并不多，目前很多库都是使用共同的几个底层OCR 库，或者是在上面进行定制。

方法一：使用easyocr模块

easyocr是基于torch的深度学习模块

easyocr安装后调用过程中出现opencv版本不兼容问题，所以放弃此方案。

方法二：通过pytesseract调用tesseract

优点：部署快，轻量级，离线可用，免费

缺点：自带的中文库识别率较低，需要自己建数据进行训练

Tesseract 是一个OCR 库，目前由Google 赞助（Google 也是一家以OCR 和机器学习技术闻名于世的公司）。Tesseract 是目前公认最优秀、最精确的开源OCR 系统。

除了极高的精确度，Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体（只要这些字体的风格保持不变就可以），也可以识别出任何Unicode 字符。

Tesseract的安装与使用

python 识别图片上的数字，使用pytesseract库从图像中提取文本，而识别引擎采用 tesseract-ocr。

pytesseract是python包装器，它为可执行文件提供了pythonic API。

1、安装必要的包：

pip install pillow
pip install pytesseract

ログイン後にコピー

2、安装tesseract-ocr的识别引擎

最新版本下载地址： https://github.com/UB-Mannheim/tesseract/wiki

python OCR文字识别的方法有哪些

或者更多版本的tesseract下载地址：https://digi.bib.uni-mannheim.de/tesseract/　

　安装完后，需要将Tesseract添加到系统变量中。

　环境变量：我的电脑 ->属性 -> 高级系统设置 ->环境变量 ->系统变量，在 path 中添加安装路径。

python OCR文字识别的方法有哪些

并将训练好的模型文件 chi_sim.traineddata 放入该目录中，这样安装就完成了。

在命令行 WIN+R 输入cmd ：输入 tesseract -v ,出现版本信息，则配置成功。

python OCR文字识别的方法有哪些

tesseract-ocr默认不支持中文识别。支持中文识别.png

python OCR文字识别的方法有哪些

3、解决pytesseract 找不到路径的问题。

在自己安装的pytesseract包中，找到pytesseract.py文件

python OCR文字识别的方法有哪些

打开pytesseract.py文件，修改 tesseract_cmd 的值：tesseract.exe 的安装路径。

为了避免其他的错误，使用双反斜杠，或者斜杠

python OCR文字识别的方法有哪些

4、简单使用

import pytesseract
from PIL import Image
if __name__ == &#39;__main__&#39;:
    text = pytesseract.image_to_string(Image.open("D:\\test.png"),lang="eng")  
    # 如果你想试试Tesseract识别中文，只需要将代码中的eng改为chi_sim即可
    print(text)

ログイン後にコピー

测试图片：

python OCR文字识别的方法有哪些

输出结果：

python OCR文字识别的方法有哪些

用Tesseract可以识别格式规范的文字，主要具有以下特点：

使用一个标准字体（不包含手写体、草书，或者十分“花哨的”字体）
虽然被复印或拍照，字体还是很清晰，没有多余的痕迹或污点
排列整齐，没有歪歪斜斜的字
没有超出图片范围，也没有残缺不全，或紧紧贴在图片的边缘

下面将给出几个tesseract识别图片中文字的例子。

首先是E://figures/other/poems.jpg, 输入命令 tesseract E://figures/other/poems.jpg E://figures/other/poems.txt，则会将poems.jpg中的识别文字写入到poems.txt中，如下图：

python OCR文字识别的方法有哪些

接着是稍微有点倾斜的文字图片th.jpg,识别情况如下：

python OCR文字识别的方法有哪些

可以看到识别的情况不如刚才规范字体的好，但是也能识别图片中的大部分字母。

最后是识别简体中文，需要事先安装简体中文语言包，再讲chi_sim.traineddata放在C:\Program Files (x86)\Tesseract-OCR\tessdata目录下。我们以图片timg.jpg为例：

python OCR文字识别的方法有哪些

输入命令：

tesseract E://figures/other/timg.jpg E://figures/other/timg.txt -l chi_sim

ログイン後にコピー

识别结果如下：

python OCR文字识别的方法有哪些

只识别错了一个字，识别率还是不错的。

最后加一句，Tesseract对于彩色图片的识别效果没有黑白图片的效果好。

pytesseract

pytesseract是Tesseract关于Python的接口，可以使用pip install pytesseract安装。安装完后，就可以使用Python调用Tesseract了，不过，你还需要一个Python的图片处理模块，可以安装pillow.

输入以下代码，可以实现同上述Tesseract命令一样的效果：

import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = &#39;C://Program Files (x86)/Tesseract-OCR/tesseract.exe&#39;
text = pytesseract.image_to_string(Image.open(&#39;E://figures/other/poems.jpg&#39;))
print(text)

ログイン後にコピー

运行结果如下：

python OCR文字识别的方法有哪些

cnocr 第二种 Python 开源识别工具的效果

两个工具的使用方法和对比效果。

安装 cnocr：

pip install cnocr

ログイン後にコピー

看到 Successfully installed xxx 则说明安装成功。

如果你只想对图片中的中文进行识别，那么 cnocr 是一个不错的选择，你只需要安装 cnocr 包即可。

但如果你想试试其他语言的OCR识别，Tesseract 是更好的选择。

cnocr 识别图片的中文

cnocr 主要针对的是排版简单的印刷体文字图片，如截图图片，扫描件等。目前内置的文字检测和分行模块无法处理复杂的文字排版定位。

尽管它分别提供了单行识别函数和多行识别函数，但在本人实测下，单行识别函数的效果非常糟糕，或者说要求的条件十分苛刻，基本上连截图的文字都识别不出来。

不过多行识别函数还不错，使用该函数识别的代码如下：

from cnocr import CnOcr
ocr = CnOcr()
res = ocr.ocr(&#39;test.png&#39;)
print("Predicted Chars:", res)

ログイン後にコピー

用于识别这个图片里的文字：

python OCR文字识别的方法有哪些

效果如下：

python OCR文字识别的方法有哪些

如果不是很吹毛求疵，这样的效果已经很不错了。

方法三：调用百度API

优点：使用方便，功能强大

缺点：大量使用需要收费

我自己采用的是调用百度API的方式，下面是我的步骤：

注册百度账号，创建OCR应用可以参考其他教程。

购买后使用python调用方法

方式一：通过urllib直接调用，替换自己的api_key和secret_key即可

# coding=utf-8
import sys
import json
import base64
# 保证兼容python2以及python3
IS_PY3 = sys.version_info.major == 3
if IS_PY3:
    from urllib.request import urlopen
    from urllib.request import Request
    from urllib.error import URLError
    from urllib.parse import urlencode
    from urllib.parse import quote_plus
else:
    import urllib2
    from urllib import quote_plus
    from urllib2 import urlopen
    from urllib2 import Request
    from urllib2 import URLError
    from urllib import urlencode
# 防止https证书校验不正确
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
API_KEY = &#39;YsZKG1wha34PlDOPYaIrIIKO&#39;
SECRET_KEY = &#39;HPRZtdOHrdnnETVsZM2Nx7vbDkMfxrkD&#39;
OCR_URL = "https://aip.baidubce.com/rest/2.0/ocr/v1/accurate_basic"
"""  TOKEN start """
TOKEN_URL = &#39;https://aip.baidubce.com/oauth/2.0/token&#39;
"""
    获取token
"""
def fetch_token():
    params = {&#39;grant_type&#39;: &#39;client_credentials&#39;,
              &#39;client_id&#39;: API_KEY,
              &#39;client_secret&#39;: SECRET_KEY}
    post_data = urlencode(params)
    if (IS_PY3):
        post_data = post_data.encode(&#39;utf-8&#39;)
    req = Request(TOKEN_URL, post_data)
    try:
        f = urlopen(req, timeout=5)
        result_str = f.read()
    except URLError as err:
        print(err)
    if (IS_PY3):
        result_str = result_str.decode()
    result = json.loads(result_str)
    if (&#39;access_token&#39; in result.keys() and &#39;scope&#39; in result.keys()):
        if not &#39;brain_all_scope&#39; in result[&#39;scope&#39;].split(&#39; &#39;):
            print (&#39;please ensure has check the  ability&#39;)
            exit()
        return result[&#39;access_token&#39;]
    else:
        print (&#39;please overwrite the correct API_KEY and SECRET_KEY&#39;)
        exit()
"""
    读取文件
"""
def read_file(image_path):
    f = None
    try:
        f = open(image_path, &#39;rb&#39;)
        return f.read()
    except:
        print(&#39;read image file fail&#39;)
        return None
    finally:
        if f:
            f.close()
"""
    调用远程服务
"""
def request(url, data):
    req = Request(url, data.encode(&#39;utf-8&#39;))
    has_error = False
    try:
        f = urlopen(req)
        result_str = f.read()
        if (IS_PY3):
            result_str = result_str.decode()
        return result_str
    except  URLError as err:
        print(err)
if __name__ == &#39;__main__&#39;:
    # 获取access token
    token = fetch_token()
    # 拼接通用文字识别高精度url
    image_url = OCR_URL + "?access_token=" + token
    text = ""
    # 读取测试图片
    file_content = read_file(&#39;test.jpg&#39;)
    # 调用文字识别服务
    result = request(image_url, urlencode({&#39;image&#39;: base64.b64encode(file_content)}))
    # 解析返回结果
    result_json = json.loads(result)
    print(result_json)
    for words_result in result_json["words_result"]:
        text = text + words_result["words"]
    # 打印文字
    print(text)

ログイン後にコピー

方式二：通过HTTP-SDK模块进行调用

from aip import AipOcr
APP_ID = &#39;25**9878&#39;
API_KEY = &#39;VGT8y***EBf2O8xNRxyHrPNr&#39;
SECRET_KEY = &#39;ckDyzG*****N3t0MTgvyYaKUnSl6fSw&#39;
client = AipOcr(APP_ID,API_KEY,SECRET_KEY)
def get_file_content(filePath):
    with open(filePath, &#39;rb&#39;) as fp:
        return fp.read()
image = get_file_content(&#39;test.jpg&#39;)
res = client.basicGeneral(image)
print(res)
#res = client.basicAccurate(image)
#print(res)

ログイン後にコピー

直接识别屏幕指定区域上的文字

from aip import AipOcr
APP_ID = &#39;25**9878&#39;
API_KEY = &#39;VGT8y***EBf2O8xNRxyHrPNr&#39;
SECRET_KEY = &#39;ckDyzG*****N3t0MTgvyYaKUnSl6fSw&#39;
client = AipOcr(APP_ID,API_KEY,SECRET_KEY)
from io import BytesIO
from PIL import ImageGrab
out_buffer = BytesIO()
img = ImageGrab.grab((100,200,300,400))
img.save(out_buffer,format=&#39;PNG&#39;)
res = client.basicGeneral(out_buffer.getvalue())
print(res)

ログイン後にコピー

以上がPython OCRテキスト認識の方法は何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7529

CakePHP チュートリアル

1378

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

PHPおよびPython：コードの例と比較 Apr 15, 2025 am 12:07 AM

PHPとPythonには独自の利点と短所があり、選択はプロジェクトのニーズと個人的な好みに依存します。 1.PHPは、大規模なWebアプリケーションの迅速な開発とメンテナンスに適しています。 2。Pythonは、データサイエンスと機械学習の分野を支配しています。

Dockerの原則の詳細な説明 Apr 14, 2025 pm 11:57 PM

DockerはLinuxカーネル機能を使用して、効率的で孤立したアプリケーションランニング環境を提供します。その作業原則は次のとおりです。1。ミラーは、アプリケーションを実行するために必要なすべてを含む読み取り専用テンプレートとして使用されます。 2。ユニオンファイルシステム（UnionFS）は、違いを保存するだけで、スペースを節約し、高速化する複数のファイルシステムをスタックします。 3.デーモンはミラーとコンテナを管理し、クライアントはそれらをインタラクションに使用します。 4。名前空間とcgroupsは、コンテナの分離とリソースの制限を実装します。 5.複数のネットワークモードは、コンテナの相互接続をサポートします。これらのコア概念を理解することによってのみ、Dockerをよりよく利用できます。

CentosでPytorchモデルを訓練する方法 Apr 14, 2025 pm 03:03 PM

CentOSシステムでのPytorchモデルの効率的なトレーニングには手順が必要であり、この記事では詳細なガイドが提供されます。 1。環境の準備：Pythonおよび依存関係のインストール：Centosシステムは通常Pythonをプリインストールしますが、バージョンは古い場合があります。 YumまたはDNFを使用してPython 3をインストールし、PIP：sudoyumupdatepython3（またはsudodnfupdatepython3）、pip3install-upgradepipをアップグレードすることをお勧めします。 cuda and cudnn（GPU加速）：nvidiagpuを使用する場合は、cudatoolをインストールする必要があります

CentosのPytorchのGPUサポートはどのようにサポートされていますか Apr 14, 2025 pm 06:48 PM

Pytorch GPUアクセラレーションを有効にすることで、CentOSシステムでは、PytorchのCUDA、CUDNN、およびGPUバージョンのインストールが必要です。次の手順では、プロセスをガイドします。CUDAおよびCUDNNのインストールでは、CUDAバージョンの互換性が決定されます。NVIDIA-SMIコマンドを使用して、NVIDIAグラフィックスカードでサポートされているCUDAバージョンを表示します。たとえば、MX450グラフィックカードはCUDA11.1以上をサポートする場合があります。 cudatoolkitのダウンロードとインストール：nvidiacudatoolkitの公式Webサイトにアクセスし、グラフィックカードでサポートされている最高のCUDAバージョンに従って、対応するバージョンをダウンロードしてインストールします。 cudnnライブラリをインストールする：

Python vs. JavaScript：コミュニティ、ライブラリ、リソース Apr 15, 2025 am 12:16 AM

PythonとJavaScriptには、コミュニティ、ライブラリ、リソースの観点から、独自の利点と短所があります。 1）Pythonコミュニティはフレンドリーで初心者に適していますが、フロントエンドの開発リソースはJavaScriptほど豊富ではありません。 2）Pythonはデータサイエンスおよび機械学習ライブラリで強力ですが、JavaScriptはフロントエンド開発ライブラリとフレームワークで優れています。 3）どちらも豊富な学習リソースを持っていますが、Pythonは公式文書から始めるのに適していますが、JavaScriptはMDNWebDocsにより優れています。選択は、プロジェクトのニーズと個人的な関心に基づいている必要があります。

Centosの下でPytorchバージョンを選択する方法 Apr 14, 2025 pm 02:51 PM

CentOSでPytorchバージョンを選択する場合、次の重要な要素を考慮する必要があります。1。CUDAバージョンの互換性GPUサポート：NVIDIA GPUを使用してGPU加速度を活用したい場合は、対応するCUDAバージョンをサポートするPytorchを選択する必要があります。 NVIDIA-SMIコマンドを実行することでサポートされているCUDAバージョンを表示できます。 CPUバージョン：GPUをお持ちでない場合、またはGPUを使用したくない場合は、PytorchのCPUバージョンを選択できます。 2。PythonバージョンPytorch

NginxをCentosにインストールする方法 Apr 14, 2025 pm 08:06 PM

NGINXのインストールをインストールするには、次の手順に従う必要があります。開発ツール、PCRE-Devel、OpenSSL-Develなどの依存関係のインストール。 nginxソースコードパッケージをダウンロードし、それを解凍してコンパイルしてインストールし、/usr/local/nginxとしてインストールパスを指定します。 nginxユーザーとユーザーグループを作成し、アクセス許可を設定します。構成ファイルnginx.confを変更し、リスニングポートとドメイン名/IPアドレスを構成します。 nginxサービスを開始します。依存関係の問題、ポート競合、構成ファイルエラーなど、一般的なエラーに注意する必要があります。パフォーマンスの最適化は、キャッシュをオンにしたり、ワーカープロセスの数を調整するなど、特定の状況に応じて調整する必要があります。

CentosでPytorchを使用してデータ前処理を行う方法 Apr 14, 2025 pm 02:15 PM

CentOSシステムのPytorchデータを効率的に処理するには、次の手順が必要です。依存関係のインストール：システムを最初に更新し、Python3とPIPをインストールします。仮想環境構成（推奨）：Condaを使用して、新しい仮想環境を作成およびアクティブにします。例：Condacreate-N

See all articles

Python OCRテキスト認識の方法は何ですか?

方法一：使用easyocr模块

方法二：通过pytesseract调用tesseract

Tesseract的安装与使用

pytesseract

cnocr 第二种 Python 开源识别工具的效果

安装 cnocr：

cnocr 识别图片的中文

方法三：调用百度API

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

Python OCRテキスト認識の方法は何ですか?

方法一： 使用easyocr模块

方法二：通过pytesseract调用tesseract

Tesseract的安装与使用

pytesseract

cnocr 第二种 Python 开源识别工具的效果

安装 cnocr：

cnocr 识别图片的中文

方法三：调用百度API

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

方法一：使用easyocr模块