1. Introduction à pytesseract
1. Description de pytesseract
dernière version 0.1.6 de pytesseract
Python-tesseract est un wrapper pour Tesseract-OCR de Google.
Il est également utile en tant que
script d'invocation autonome pour tesseract, car il peut lire tous les types d'images
pris en charge par la bibliothèque d'imagerie Python, notamment jpeg, png, gif, bmp, tiff,
et other , alors que tesseract-ocr ne prend en charge par défaut que tiff et bmp.
De plus, s'il est utilisé comme script, Python-tesseract imprimera le
texte reconnu au lieu de l'écrire dans un fichier. Prise en charge des estimations de confiance et.
Les données du cadre de délimitation sont prévues pour les versions futures.
Traduisez l'idée générale :
a. Python-tesseract est un package indépendant basé sur Tesseract-OCR de Google ;
b. La fonction de Python-tesseract est de reconnaître le texte dans les fichiers image et de renvoyer le résultat de la reconnaissance comme paramètre de retour
c. Python-tesseract prend en charge les images au format tiff et bmp par défaut. peut-il prendre en charge les formats jpeg, gif, png et autres ;
2. Installation de pytesseract
INSTALLATION :
Prérequis :
* Python-tesseract nécessite python 2.5 ou later ou python 3.
* Vous aurez besoin de la Python Imaging Library (PIL). Sous Debian/Ubuntu, il s'agit
du package "python-imaging" ou "python3-imaging" pour python3.
* Installez Google tesseract-ocr depuis
Vous devez pouvoir appeler la commande tesseract en tant que "tesseract". Si ce
n'est pas le cas, par exemple parce que tesseract n'est pas dans votre PATH, vous le ferez
il faut changer la variable " tesseract_cmd" en haut de 'tesseract.py'.
Sous Debian/Ubuntu vous pouvez utiliser le package "tesseract-ocr".
Installation via pip :
Voir la [page du package pytesseract]
```
$> sudo pip install pytesseract
Traduction :
a. Python-tesseract prend en charge python2. 5 et versions supérieures ;
b. Python-tesseract doit installer PIL (Python Imaging Library) pour prendre en charge davantage de formats d'image
c. emballer.
En résumé, le principe de Pytesseract :
1. Comme mentionné dans le billet de blog précédent, l'exécution de la ligne de commande tesseract.exe 1.png output -l eng peut reconnaître les caractères chinois dans 1.png. . Et affichez les résultats de la reconnaissance dans output.txt ;
2. Pytesseract ré-encapsule le processus ci-dessus, appelle automatiquement tesseract.exe et lit le contenu du fichier output.txt comme valeur de retour de la fonction. Faites un retour.
2. Utilisez pytesseract
USAGE :
```
> essayez :
> ; depuis PIL import Image
> import pytesseract
> print(pytesseract.image_to_string(Image.open('test.png')))
> 'test-european.jpg'),))
Vous pouvez voir :
1. Le code principal est la fonction image_to_string, qui prend également en charge le paramètre -l eng et le paramètre -psm. .
Utilisation :
image_to_string(Image.open('test.png'),lang="eng" config="-psm 7")
2. L'image est appelée, donc PIL est nécessaire. En fait, tesseract.exe lui-même prend en charge les formats jpeg, png et autres.
Exemple de code pour identifier le code de vérification d'un site Web public (s'il vous plaît, ne faites pas de mauvaises choses. Après y avoir réfléchi encore et encore, j'ai finalement caché le nom de domaine du site Web. Essayons d'en trouver d'autres sites Web...) :
3. Optimisation du code Pytesseract#-*-coding=utf-8-*- __author__='zhongtang' import urllib import urllib2 import cookielib import math import random import time import os import htmltool from pytesseract import * from PIL import Image from PIL import ImageEnhance import re class orclnypcg: def __init__(self): self.baseUrl='http://jbywcg.****.com.cn' self.ht=htmltool.htmltool() self.curPath=self.ht.getPyFileDir() self.authCode='' def initUrllib2(self): try: cookie = cookielib.CookieJar() cookieHandLer = urllib2.HTTPCookieProcessor(cookie) httpHandLer=urllib2.HTTPHandler(debuglevel=0) httpsHandLer=urllib2.HTTPSHandler(debuglevel=0) except: raise else: opener = urllib2.build_opener(cookieHandLer,httpHandLer,httpsHandLer) opener.addheaders = [('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11')] urllib2.install_opener(opener) def urllib2Navigate(self,url,data={}): #定义连接函数,有超时重连功能 tryTimes = 0 while True: if (tryTimes>20): print u"多次尝试仍无法链接网络,程序终止" break try: if (data=={}): req = urllib2.Request(url) else: req = urllib2.Request(url,urllib.urlencode(data)) response =urllib2.urlopen(req) bodydata = response.read() headerdata = response.info() if headerdata.get('Content-Encoding')=='gzip': rdata = StringIO.StringIO(bodydata) gz = gzip.GzipFile(fileobj=rdata) bodydata = gz.read() gz.close() tryTimes = tryTimes +1 except urllib2.HTTPError, e: print 'HTTPError[%s]\n' %e.code except urllib2.URLError, e: print 'URLError[%s]\n' %e.reason except socket.error: print u"连接失败,尝试重新连接" else: break return bodydata,headerdata def randomCodeOcr(self,filename): image = Image.open(filename) #使用ImageEnhance可以增强图片的识别率 #enhancer = ImageEnhance.Contrast(image) #enhancer = enhancer.enhance(4) image = image.convert('L') ltext = '' ltext= image_to_string(image) #去掉非法字符,只保留字母数字 ltext=re.sub("\W", "", ltext) print u'[%s]识别到验证码:[%s]!!!' %(filename,ltext) image.save(filename) #print ltext return ltext def getRandomCode(self): #开始获取验证码 #http://jbywcg.****.com.cn/CommonPage/Code.aspx?0.9409255818463862 i = 0 while ( i<=100): i += 1 #拼接验证码Url randomUrlNew='%s/CommonPage/Code.aspx?%s' %(self.baseUrl,random.random()) #拼接验证码本地文件名 filename= '%s.png' %(i) filename= os.path.join(self.curPath,filename) jpgdata,jpgheader = self.urllib2Navigate(randomUrlNew) if len(jpgdata)<= 0 : print u'获取验证码出错!\n' return False f = open(filename, 'wb') f.write(jpgdata) #print u"保存图片:",fileName f.close() self.authCode = self.randomCodeOcr(filename) #主程序开始 orcln=orclnypcg() orcln.initUrllib2() orcln.getRandomCode()
Lorsque le programme ci-dessus est exécuté sur la plate-forme Windows, vous verrez une fenêtre de console noire clignoter, ce qui n'est pas le cas. très sympathique.
Pytesseract.py légèrement modifié (répertoire C:Python27Libsite-packagespytesseract) pour masquer le processus ci-dessus.
# modifié par zhongtang masquer la fenêtre de la console
# nouveau codeIS_WIN32 = 'win32' dans str(sys.platform).lower()
if IS_WIN32 :
informations de démarrage = sous-processus .STARTUPINFO()
startupinfo.dwFlags |= subprocess.STARTF_USESHOWWINDOW
startupinfo.wShowWindow = subprocess.SW_HIDE
proc = subprocess.Popen(command,
stderr=subprocess.PIPE,startupinfo=startupinfo)
'''
# ancien code
proc = subprocess.Popen(command,
stderr=subprocess.PIPE)
'''
# fin modifiée
pour Pour la commodité des débutants, pytesseract.py est également publié et les experts peuvent l'ignorer.
#!/usr/bin/env python ''' Python-tesseract is an optical character recognition (OCR) tool for python. That is, it will recognize and "read" the text embedded in images. Python-tesseract is a wrapper for google's Tesseract-OCR ( http://code.google.com/p/tesseract-ocr/ ). It is also useful as a stand-alone invocation script to tesseract, as it can read all image types supported by the Python Imaging Library, including jpeg, png, gif, bmp, tiff, and others, whereas tesseract-ocr by default only supports tiff and bmp. Additionally, if used as a script, Python-tesseract will print the recognized text in stead of writing it to a file. Support for confidence estimates and bounding box data is planned for future releases. USAGE: ``` > try: > import Image > except ImportError: > from PIL import Image > import pytesseract > print(pytesseract.image_to_string(Image.open('test.png'))) > print(pytesseract.image_to_string(Image.open('test-european.jpg'),)) ``` INSTALLATION: Prerequisites: * Python-tesseract requires python 2.5 or later or python 3. * You will need the Python Imaging Library (PIL). Under Debian/Ubuntu, this is the package "python-imaging" or "python3-imaging" for python3. * Install google tesseract-ocr from http://code.google.com/p/tesseract-ocr/ . You must be able to invoke the tesseract command as "tesseract". If this isn't the case, for example because tesseract isn't in your PATH, you will have to change the "tesseract_cmd" variable at the top of 'tesseract.py'. Under Debian/Ubuntu you can use the package "tesseract-ocr". Installing via pip: See the [pytesseract package page](https://pypi.python.org/pypi/pytesseract) $> sudo pip install pytesseract Installing from source: $> git clone git@github.com:madmaze/pytesseract.git $> sudo python setup.py install LICENSE: Python-tesseract is released under the GPL v3. CONTRIBUTERS: - Originally written by [Samuel Hoffstaetter](https://github.com/hoffstaetter) - [Juarez Bochi](https://github.com/jbochi) - [Matthias Lee](https://github.com/madmaze) - [Lars Kistner](https://github.com/Sr4l) ''' # CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY tesseract_cmd = 'tesseract' try: import Image except ImportError: from PIL import Image import subprocess import sys import tempfile import os import shlex __all__ = ['image_to_string'] def run_tesseract(input_filename, output_filename_base,, boxes=False, config=None): ''' runs the command: `tesseract_cmd` `input_filename` `output_filename_base` returns the exit status of tesseract, as well as tesseract's stderr output ''' command = [tesseract_cmd, input_filename, output_filename_base] if lang is not None: command += ['-l', lang] if boxes: command += ['batch.nochop', 'makebox'] if config: command += shlex.split(config) # modified by zhongtang hide console window # new code IS_WIN32 = 'win32' in str(sys.platform).lower() if IS_WIN32: startupinfo = subprocess.STARTUPINFO() startupinfo.dwFlags |= subprocess.STARTF_USESHOWWINDOW startupinfo.wShowWindow = subprocess.SW_HIDE proc = subprocess.Popen(command, stderr=subprocess.PIPE,startupinfo=startupinfo) ''' # old code proc = subprocess.Popen(command, stderr=subprocess.PIPE) ''' # modified end return (proc.wait(), proc.stderr.read()) def cleanup(filename): ''' tries to remove the given filename. Ignores non-existent files ''' try: os.remove(filename) except OSError: pass def get_errors(error_string): ''' returns all lines in the error_string that start with the string "error" ''' lines = error_string.splitlines() error_lines = tuple(line for line in lines if line.find('Error') >= 0) if len(error_lines) > 0: return '\n'.join(error_lines) else: return error_string.strip() def tempnam(): ''' returns a temporary file-name ''' tmpfile = tempfile.NamedTemporaryFile(prefix="tess_") return tmpfile.name class TesseractError(Exception): def __init__(self, status, message): self.status = status self.message = message self.args = (status, message) def image_to_string(image,, boxes=False, config=None): ''' Runs tesseract on the specified image. First, the image is written to disk, and then the tesseract command is run on the image. Resseract's result is read, and the temporary files are erased. also supports boxes and config. if boxes=True "batch.nochop makebox" gets added to the tesseract call if config is set, the config gets appended to the command. ex: config="-psm 6" ''' if len(image.split()) == 4: # In case we have 4 channels, lets discard the Alpha. # Kind of a hack, should fix in the future some time. r, g, b, a = image.split() image = Image.merge("RGB", (r, g, b)) input_file_name = '%s.bmp' % tempnam() output_file_name_base = tempnam() if not boxes: output_file_name = '%s.txt' % output_file_name_base else: output_file_name = '%s.box' % output_file_name_base try: image.save(input_file_name) status, error_string = run_tesseract(input_file_name, output_file_name_base, lang=lang, boxes=boxes, config=config) if status: #print 'test' , status,error_string errors = get_errors(error_string) raise TesseractError(status, errors) f = open(output_file_name) try: return f.read().strip() finally: f.close() finally: cleanup(input_file_name) cleanup(output_file_name) def main(): if len(sys.argv) == 2: filename = sys.argv[1] try: image = Image.open(filename) if len(image.split()) == 4: # In case we have 4 channels, lets discard the Alpha. # Kind of a hack, should fix in the future some time. r, g, b, a = image.split() image = Image.merge("RGB", (r, g, b)) except IOError: sys.stderr.write('ERROR: Could not open file "%s"\n' % filename) exit(1) print(image_to_string(image)) elif len(sys.argv) == 4 and sys.argv[1] == '-l': .argv[2] filename = sys.argv[3] try: image = Image.open(filename) except IOError: sys.stderr.write('ERROR: Could not open file "%s"\n' % filename) exit(1) print(image_to_string(image,)) else: sys.stderr.write('Usage: python pytesseract.py [-l language] input_file\n') exit(2) if __name__ == '__main__': main()
La méthode ci-dessus pour appeler pytesseract pour identifier le code de vérification d'un site Web sous Python est tout le contenu partagé par l'éditeur, j'espère qu'elle pourra donner. vous une référence, j'espère aussi que tout le monde soutiendra le site Web PHP chinois.
Pour plus d'articles sur l'appel de pytesseract pour identifier un code de vérification de site Web sous Python, veuillez faire attention au site Web PHP chinois !