目录
方法一: 使用easyocr模块
方法二:通过pytesseract调用tesseract
Tesseract的安装与使用
pytesseract
cnocr 第二种 Python 开源识别工具的效果
安装 cnocr:
cnocr 识别图片的中文
方法三:调用百度API
首页 后端开发 Python教程 python OCR文字识别的方法有哪些

python OCR文字识别的方法有哪些

May 11, 2023 am 10:34 AM
python ocr

    将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR)。可以实现OCR 的底层库并不多,目前很多库都是使用共同的几个底层OCR 库,或者是在上面进行定制。

    方法一: 使用easyocr模块

    easyocr是基于torch的深度学习模块

    easyocr安装后调用过程中出现opencv版本不兼容问题,所以放弃此方案。

    方法二:通过pytesseract调用tesseract

    优点:部署快,轻量级,离线可用,免费

    缺点:自带的中文库识别率较低,需要自己建数据进行训练

    Tesseract 是一个OCR 库,目前由Google 赞助(Google 也是一家以OCR 和机器学习技术闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源OCR 系统。

      除了极高的精确度,Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体(只要这些字体的风格保持不变就可以),也可以识别出任何Unicode 字符。

    Tesseract的安装与使用

    python 识别图片上的数字,使用pytesseract库从图像中提取文本,而识别引擎采用 tesseract-ocr

    pytesseract是python包装器,它为可执行文件提供了pythonic API。

    1、安装必要的包:

    pip install pillow
    pip install pytesseract
    登录后复制

    2、安装tesseract-ocr的识别引擎

    最新版本下载地址: https://github.com/UB-Mannheim/tesseract/wiki

    python OCR文字识别的方法有哪些

    或者更多版本的tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/ 

      安装完后,需要将Tesseract添加到系统变量中。

      环境变量: 我的电脑 ->属性 -> 高级系统设置 ->环境变量 ->系统变量 ,在 path 中添加 安装路径。

    python OCR文字识别的方法有哪些

    并将训练好的模型文件 chi_sim.traineddata 放入该目录中,这样安装就完成了。

    在命令行 WIN+R 输入cmd :输入 tesseract -v ,出现版本信息,则配置成功。

    python OCR文字识别的方法有哪些

    tesseract-ocr默认不支持中文识别。支持中文识别.png

    python OCR文字识别的方法有哪些

    3、解决pytesseract 找不到路径的问题。

    在自己安装的pytesseract包中,找到pytesseract.py文件

    python OCR文字识别的方法有哪些

    打开pytesseract.py文件,修改 tesseract_cmd 的值:tesseract.exe 的安装路径 。

    为了避免其他的错误,使用双反斜杠,或者斜杠

    python OCR文字识别的方法有哪些

    4、简单使用

    import pytesseract
    from PIL import Image
    if __name__ == '__main__':
        text = pytesseract.image_to_string(Image.open("D:\\test.png"),lang="eng")  
        # 如果你想试试Tesseract识别中文,只需要将代码中的eng改为chi_sim即可
        print(text)
    登录后复制

    测试图片:

    python OCR文字识别的方法有哪些

    输出结果:

    python OCR文字识别的方法有哪些

    用Tesseract可以识别格式规范的文字,主要具有以下特点:

    • 使用一个标准字体(不包含手写体、草书,或者十分“花哨的”字体)

    • 虽然被复印或拍照,字体还是很清晰,没有多余的痕迹或污点

    • 排列整齐,没有歪歪斜斜的字

    • 没有超出图片范围,也没有残缺不全,或紧紧贴在图片的边缘

      下面将给出几个tesseract识别图片中文字的例子。

      首先是E://figures/other/poems.jpg, 输入命令 tesseract E://figures/other/poems.jpg E://figures/other/poems.txt, 则会将poems.jpg中的识别文字写入到poems.txt中,如下图:

    python OCR文字识别的方法有哪些

    python OCR文字识别的方法有哪些

    python OCR文字识别的方法有哪些

    接着是稍微有点倾斜的文字图片th.jpg,识别情况如下:

    python OCR文字识别的方法有哪些

    python OCR文字识别的方法有哪些

    可以看到识别的情况不如刚才规范字体的好,但是也能识别图片中的大部分字母。

    最后是识别简体中文,需要事先安装简体中文语言包,再讲chi_sim.traineddata放在C:\Program Files (x86)\Tesseract-OCR\tessdata目录下。我们以图片timg.jpg为例:

    python OCR文字识别的方法有哪些

    输入命令:

    tesseract E://figures/other/timg.jpg E://figures/other/timg.txt -l chi_sim
    登录后复制

    识别结果如下:

    python OCR文字识别的方法有哪些

    只识别错了一个字,识别率还是不错的。

    最后加一句,Tesseract对于彩色图片的识别效果没有黑白图片的效果好。

    pytesseract

    pytesseract是Tesseract关于Python的接口,可以使用pip install pytesseract安装。安装完后,就可以使用Python调用Tesseract了,不过,你还需要一个Python的图片处理模块,可以安装pillow.

      输入以下代码,可以实现同上述Tesseract命令一样的效果:

    import pytesseract
    from PIL import Image
    pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
    text = pytesseract.image_to_string(Image.open('E://figures/other/poems.jpg'))
    print(text)
    登录后复制

    运行结果如下:

    python OCR文字识别的方法有哪些

    cnocr 第二种 Python 开源识别工具的效果

    两个工具的使用方法和对比效果。

    安装 cnocr:

    pip install cnocr
    登录后复制

    看到 Successfully installed xxx 则说明安装成功。

    如果你只想对图片中的中文进行识别,那么 cnocr 是一个不错的选择,你只需要安装 cnocr 包即可。

    但如果你想试试其他语言的OCR识别,Tesseract 是更好的选择。

    cnocr 识别图片的中文

    cnocr 主要针对的是排版简单的印刷体文字图片,如截图图片,扫描件等。目前内置的文字检测和分行模块无法处理复杂的文字排版定位。

    尽管它分别提供了单行识别函数和多行识别函数,但在本人实测下,单行识别函数的效果非常糟糕,或者说要求的条件十分苛刻,基本上连截图的文字都识别不出来。

    不过多行识别函数还不错,使用该函数识别的代码如下:

    from cnocr import CnOcr
    ocr = CnOcr()
    res = ocr.ocr('test.png')
    print("Predicted Chars:", res)
    登录后复制

    用于识别这个图片里的文字:

    python OCR文字识别的方法有哪些

    效果如下:

    python OCR文字识别的方法有哪些

    如果不是很吹毛求疵,这样的效果已经很不错了。

    方法三:调用百度API

    优点:使用方便,功能强大

    缺点:大量使用需要收费

    我自己采用的是调用百度API的方式,下面是我的步骤:

    注册百度账号,创建OCR应用可以参考其他教程。

    购买后使用python调用方法

    方式一: 通过urllib直接调用,替换自己的api_key和secret_key即可

    # coding=utf-8
    import sys
    import json
    import base64
    # 保证兼容python2以及python3
    IS_PY3 = sys.version_info.major == 3
    if IS_PY3:
        from urllib.request import urlopen
        from urllib.request import Request
        from urllib.error import URLError
        from urllib.parse import urlencode
        from urllib.parse import quote_plus
    else:
        import urllib2
        from urllib import quote_plus
        from urllib2 import urlopen
        from urllib2 import Request
        from urllib2 import URLError
        from urllib import urlencode
    # 防止https证书校验不正确
    import ssl
    ssl._create_default_https_context = ssl._create_unverified_context
    API_KEY = 'YsZKG1wha34PlDOPYaIrIIKO'
    SECRET_KEY = 'HPRZtdOHrdnnETVsZM2Nx7vbDkMfxrkD'
    OCR_URL = "https://aip.baidubce.com/rest/2.0/ocr/v1/accurate_basic"
    """  TOKEN start """
    TOKEN_URL = 'https://aip.baidubce.com/oauth/2.0/token'
    """
        获取token
    """
    def fetch_token():
        params = {'grant_type': 'client_credentials',
                  'client_id': API_KEY,
                  'client_secret': SECRET_KEY}
        post_data = urlencode(params)
        if (IS_PY3):
            post_data = post_data.encode('utf-8')
        req = Request(TOKEN_URL, post_data)
        try:
            f = urlopen(req, timeout=5)
            result_str = f.read()
        except URLError as err:
            print(err)
        if (IS_PY3):
            result_str = result_str.decode()
        result = json.loads(result_str)
        if ('access_token' in result.keys() and 'scope' in result.keys()):
            if not 'brain_all_scope' in result['scope'].split(' '):
                print ('please ensure has check the  ability')
                exit()
            return result['access_token']
        else:
            print ('please overwrite the correct API_KEY and SECRET_KEY')
            exit()
    """
        读取文件
    """
    def read_file(image_path):
        f = None
        try:
            f = open(image_path, 'rb')
            return f.read()
        except:
            print('read image file fail')
            return None
        finally:
            if f:
                f.close()
    """
        调用远程服务
    """
    def request(url, data):
        req = Request(url, data.encode('utf-8'))
        has_error = False
        try:
            f = urlopen(req)
            result_str = f.read()
            if (IS_PY3):
                result_str = result_str.decode()
            return result_str
        except  URLError as err:
            print(err)
    if __name__ == '__main__':
        # 获取access token
        token = fetch_token()
        # 拼接通用文字识别高精度url
        image_url = OCR_URL + "?access_token=" + token
        text = ""
        # 读取测试图片
        file_content = read_file('test.jpg')
        # 调用文字识别服务
        result = request(image_url, urlencode({'image': base64.b64encode(file_content)}))
        # 解析返回结果
        result_json = json.loads(result)
        print(result_json)
        for words_result in result_json["words_result"]:
            text = text + words_result["words"]
        # 打印文字
        print(text)
    登录后复制

    方式二:通过HTTP-SDK模块进行调用

    from aip import AipOcr
    APP_ID = '25**9878'
    API_KEY = 'VGT8y***EBf2O8xNRxyHrPNr'
    SECRET_KEY = 'ckDyzG*****N3t0MTgvyYaKUnSl6fSw'
    client = AipOcr(APP_ID,API_KEY,SECRET_KEY)
    def get_file_content(filePath):
        with open(filePath, 'rb') as fp:
            return fp.read()
    image = get_file_content('test.jpg')
    res = client.basicGeneral(image)
    print(res)
    #res = client.basicAccurate(image)
    #print(res)
    登录后复制

    直接识别屏幕指定区域上的文字

    from aip import AipOcr
    APP_ID = '25**9878'
    API_KEY = 'VGT8y***EBf2O8xNRxyHrPNr'
    SECRET_KEY = 'ckDyzG*****N3t0MTgvyYaKUnSl6fSw'
    client = AipOcr(APP_ID,API_KEY,SECRET_KEY)
    from io import BytesIO
    from PIL import ImageGrab
    out_buffer = BytesIO()
    img = ImageGrab.grab((100,200,300,400))
    img.save(out_buffer,format='PNG')
    res = client.basicGeneral(out_buffer.getvalue())
    print(res)
    登录后复制

    以上是python OCR文字识别的方法有哪些的详细内容。更多信息请关注PHP中文网其他相关文章!

    本站声明
    本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

    热AI工具

    Undresser.AI Undress

    Undresser.AI Undress

    人工智能驱动的应用程序,用于创建逼真的裸体照片

    AI Clothes Remover

    AI Clothes Remover

    用于从照片中去除衣服的在线人工智能工具。

    Undress AI Tool

    Undress AI Tool

    免费脱衣服图片

    Clothoff.io

    Clothoff.io

    AI脱衣机

    AI Hentai Generator

    AI Hentai Generator

    免费生成ai无尽的。

    热门文章

    R.E.P.O.能量晶体解释及其做什么(黄色晶体)
    1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
    R.E.P.O.最佳图形设置
    4 周前 By 尊渡假赌尊渡假赌尊渡假赌
    R.E.P.O.如果您听不到任何人,如何修复音频
    1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
    R.E.P.O.聊天命令以及如何使用它们
    1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

    热工具

    记事本++7.3.1

    记事本++7.3.1

    好用且免费的代码编辑器

    SublimeText3汉化版

    SublimeText3汉化版

    中文版,非常好用

    禅工作室 13.0.1

    禅工作室 13.0.1

    功能强大的PHP集成开发环境

    Dreamweaver CS6

    Dreamweaver CS6

    视觉化网页开发工具

    SublimeText3 Mac版

    SublimeText3 Mac版

    神级代码编辑软件(SublimeText3)

    PHP和Python:代码示例和比较 PHP和Python:代码示例和比较 Apr 15, 2025 am 12:07 AM

    PHP和Python各有优劣,选择取决于项目需求和个人偏好。1.PHP适合快速开发和维护大型Web应用。2.Python在数据科学和机器学习领域占据主导地位。

    docker原理详解 docker原理详解 Apr 14, 2025 pm 11:57 PM

    Docker利用Linux内核特性,提供高效、隔离的应用运行环境。其工作原理如下:1. 镜像作为只读模板,包含运行应用所需的一切;2. 联合文件系统(UnionFS)层叠多个文件系统,只存储差异部分,节省空间并加快速度;3. 守护进程管理镜像和容器,客户端用于交互;4. Namespaces和cgroups实现容器隔离和资源限制;5. 多种网络模式支持容器互联。理解这些核心概念,才能更好地利用Docker。

    CentOS上如何进行PyTorch模型训练 CentOS上如何进行PyTorch模型训练 Apr 14, 2025 pm 03:03 PM

    在CentOS系统上高效训练PyTorch模型,需要分步骤进行,本文将提供详细指南。一、环境准备:Python及依赖项安装:CentOS系统通常预装Python,但版本可能较旧。建议使用yum或dnf安装Python3并升级pip:sudoyumupdatepython3(或sudodnfupdatepython3),pip3install--upgradepip。CUDA与cuDNN(GPU加速):如果使用NVIDIAGPU,需安装CUDATool

    CentOS上PyTorch的GPU支持情况如何 CentOS上PyTorch的GPU支持情况如何 Apr 14, 2025 pm 06:48 PM

    在CentOS系统上启用PyTorchGPU加速,需要安装CUDA、cuDNN以及PyTorch的GPU版本。以下步骤将引导您完成这一过程:CUDA和cuDNN安装确定CUDA版本兼容性:使用nvidia-smi命令查看您的NVIDIA显卡支持的CUDA版本。例如,您的MX450显卡可能支持CUDA11.1或更高版本。下载并安装CUDAToolkit:访问NVIDIACUDAToolkit官网,根据您显卡支持的最高CUDA版本下载并安装相应的版本。安装cuDNN库:前

    Python vs. JavaScript:社区,图书馆和资源 Python vs. JavaScript:社区,图书馆和资源 Apr 15, 2025 am 12:16 AM

    Python和JavaScript在社区、库和资源方面的对比各有优劣。1)Python社区友好,适合初学者,但前端开发资源不如JavaScript丰富。2)Python在数据科学和机器学习库方面强大,JavaScript则在前端开发库和框架上更胜一筹。3)两者的学习资源都丰富,但Python适合从官方文档开始,JavaScript则以MDNWebDocs为佳。选择应基于项目需求和个人兴趣。

    CentOS下PyTorch版本怎么选 CentOS下PyTorch版本怎么选 Apr 14, 2025 pm 02:51 PM

    在CentOS下选择PyTorch版本时,需要考虑以下几个关键因素:1.CUDA版本兼容性GPU支持:如果你有NVIDIAGPU并且希望利用GPU加速,需要选择支持相应CUDA版本的PyTorch。可以通过运行nvidia-smi命令查看你的显卡支持的CUDA版本。CPU版本:如果没有GPU或不想使用GPU,可以选择CPU版本的PyTorch。2.Python版本PyTorch

    centos如何安装nginx centos如何安装nginx Apr 14, 2025 pm 08:06 PM

    CentOS 安装 Nginx 需要遵循以下步骤:安装依赖包,如开发工具、pcre-devel 和 openssl-devel。下载 Nginx 源码包,解压后编译安装,并指定安装路径为 /usr/local/nginx。创建 Nginx 用户和用户组,并设置权限。修改配置文件 nginx.conf,配置监听端口和域名/IP 地址。启动 Nginx 服务。需要注意常见的错误,如依赖问题、端口冲突和配置文件错误。性能优化需要根据具体情况调整,如开启缓存和调整 worker 进程数量。

    PyTorch在CentOS上的数据预处理怎么做 PyTorch在CentOS上的数据预处理怎么做 Apr 14, 2025 pm 02:15 PM

    在CentOS系统上高效处理PyTorch数据,需要以下步骤:依赖安装:首先更新系统并安装Python3和pip:sudoyumupdate-ysudoyuminstallpython3-ysudoyuminstallpython3-pip-y然后,根据您的CentOS版本和GPU型号,从NVIDIA官网下载并安装CUDAToolkit和cuDNN。虚拟环境配置(推荐):使用conda创建并激活一个新的虚拟环境,例如:condacreate-n

    See all articles