


Comment identifier le texte dans les images en utilisant Python
Tesseract
La reconnaissance de texte fait partie d'ORC signifie reconnaissance optique de caractères, communément connue sous le nom de reconnaissance de texte. Tesseract est un outil de reconnaissance de texte Nous pouvons rapidement implémenter la reconnaissance de texte en l'utilisant avec Python. Mais avant cela, nous devons accomplir une tâche fastidieuse.
(1) Installation et configuration de Tesseract
Téléchargez Tesseract sur https://digi.bib.uni-mannheim.de/tesseract/
Il existe de nombreuses versions parmi lesquelles choisir, et vous pouvez choisir en fonction de vos propres besoins. Parmi eux, w32 signifie système 32 bits et w64 signifie système 64 bits. Vous pouvez simplement choisir la version appropriée. La vitesse de téléchargement peut être lente.
Lors de l'installation, nous devons connaître l'emplacement de notre installation et configurer le répertoire d'installation dans la variable de chemin système. Notre chemin est D:CodeFieldTesseract-OCR.
Nous faisons un clic droit sur Poste de travail/Cet ordinateur->Propriétés->Paramètres système avancés->Variables d'environnement->Chemin->Modifier-> Créez-en un nouveau et copiez-y notre chemin. Après avoir ajouté les variables système, nous devons encore cliquer sur OK pour terminer la configuration.
(2) Téléchargez le pack de langue
Tesseract ne prend pas en charge le chinois par défaut. Si vous souhaitez reconnaître le chinois ou d'autres langues, vous devez télécharger le pack de langue correspondant. comme suit : https://tesseract -ocr.github.io/tessdoc/Data-Files, après être entré sur le site Web, nous faisons défiler vers le bas :
Il existe deux langues chinoises packages, un chinois simplifié et un chinois traditionnel, ce sont du chinois simplifié et du chinois traditionnel, nous pouvons choisir celui que nous devons télécharger. Une fois le téléchargement terminé, nous devons le placer dans le répertoire tessdata sous le chemin de Tesseract. Notre chemin est D:CodeFieldTesseract-OCRtessdata.
(3) Autres téléchargements de modules
En plus des étapes ci-dessus, nous devons également télécharger deux modules :
pip install pytesseract pip install pillow
Le premier est pour la reconnaissance de texte, le second one One est utilisé pour la lecture d’images. Ensuite, nous pouvons effectuer une reconnaissance de texte.
Reconnaissance de texte
(1) Reconnaissance d'une seule image
L'opération suivante est beaucoup plus simple Voici l'image que nous voulons reconnaître :
L'étape suivante est notre code de reconnaissance de texte :
import pytesseract from PIL import Image # 读取图片 im = Image.open('sentence.jpg') # 识别文字 string = pytesseract.image_to_string(im) print(string)
Les résultats de la reconnaissance sont les suivants :
Do not go gentle into that good night!
Parce que la valeur par défaut est de prendre en charge l'anglais , Nous pouvons donc le reconnaître directement, mais lorsque nous voulons reconnaître le chinois ou d'autres langues, nous devons apporter quelques modifications :
import pytesseract from PIL import Image # 读取图片 im = Image.open('sentence.png') # 识别文字,并指定语言 string = pytesseract.image_to_string(im,) print(string)
Lors de la reconnaissance, nous définissons lang='chi_sim', c'est-à-dire définissons la langue en chinois simplifié, ce paramètre ne prendra effet que s'il existe un package en chinois simplifié dans votre répertoire tessdata. Voici l'image que nous avons utilisée pour la reconnaissance :
Les résultats de la reconnaissance sont les suivants :
N'entrez pas docilement dans cette bonne nuit
Le contenu de l'image a été identifié avec précision. Une chose que nous devons savoir est que Tesseract peut toujours reconnaître les caractères anglais après avoir défini la langue sur le chinois simplifié ou d'autres langues.
(2) Reconnaissance d'images par lots
Maintenant que nous avons répertorié la reconnaissance d'images uniques, nous devons avoir la fonction de reconnaissance d'images par lots, ce qui nous oblige à préparer un fichier txt, comme celui que j'ai un fichier text.txt avec le contenu suivant :
sentenceComment identifier le texte dans les images en utilisant Python sentenceComment identifier le texte dans les images en utilisant Python
Nous modifions le code pour qu'il soit comme suit :
import pytesseract # 识别文字 string = pytesseract.image_to_string('text.txt',) print(string)
Cependant, écrire nous-mêmes un fichier txt est un peu gênant, nous pouvons donc le modifier comme suit :
import os import pytesseract # 文字图片的路径 path = 'text_img/' # 获取图片路径列表 imgs = [path + i for i in os.listdir(path)] # 打开文件 f = open('text.txt', 'w+', encoding='utf-8') # 将各个图片的路径写入text.txt文件当中 for img in imgs: f.write(img + '\n') # 关闭文件 f.close() # 文字识别 string = pytesseract.image_to_string('text.txt',) print(string)
De cette façon, il suffit de passer dans le répertoire racine d'une image texte pour effectuer une reconnaissance par lots. Au cours du test, il a été constaté que Tesseract ne reconnaissait pas avec précision les polices élégantes telles que l'écriture manuscrite et l'écriture normale, et que la reconnaissance de certains caractères complexes doit également être améliorée.
Cependant, la précision de reconnaissance des polices avec des traits stricts tels que Song Dynasty et block script est très élevée. De plus, si l’inclinaison de l’image est supérieure à un certain angle, les résultats de la reconnaissance seront très différents.
Pour plus de connaissances connexes, veuillez prêter attention à la colonne tutoriel vidéo Python
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

PHP et Python ont leurs propres avantages et inconvénients, et le choix dépend des besoins du projet et des préférences personnelles. 1.Php convient au développement rapide et à la maintenance des applications Web à grande échelle. 2. Python domine le domaine de la science des données et de l'apprentissage automatique.

Une formation efficace des modèles Pytorch sur les systèmes CentOS nécessite des étapes, et cet article fournira des guides détaillés. 1. Préparation de l'environnement: Installation de Python et de dépendance: le système CentOS préinstalle généralement Python, mais la version peut être plus ancienne. Il est recommandé d'utiliser YUM ou DNF pour installer Python 3 et Mettez PIP: sudoyuMupDatePython3 (ou sudodnfupdatepython3), pip3install-upradepip. CUDA et CUDNN (accélération GPU): Si vous utilisez Nvidiagpu, vous devez installer Cudatool

Docker utilise les fonctionnalités du noyau Linux pour fournir un environnement de fonctionnement d'application efficace et isolé. Son principe de travail est le suivant: 1. Le miroir est utilisé comme modèle en lecture seule, qui contient tout ce dont vous avez besoin pour exécuter l'application; 2. Le Système de fichiers Union (UnionFS) empile plusieurs systèmes de fichiers, ne stockant que les différences, l'économie d'espace et l'accélération; 3. Le démon gère les miroirs et les conteneurs, et le client les utilise pour l'interaction; 4. Les espaces de noms et les CGROUP implémentent l'isolement des conteneurs et les limitations de ressources; 5. Modes de réseau multiples prennent en charge l'interconnexion du conteneur. Ce n'est qu'en comprenant ces concepts principaux que vous pouvez mieux utiliser Docker.

Activer l'accélération du GPU Pytorch sur le système CentOS nécessite l'installation de versions CUDA, CUDNN et GPU de Pytorch. Les étapes suivantes vous guideront tout au long du processus: CUDA et CUDNN Installation détermineront la compatibilité de la version CUDA: utilisez la commande NVIDIA-SMI pour afficher la version CUDA prise en charge par votre carte graphique NVIDIA. Par exemple, votre carte graphique MX450 peut prendre en charge CUDA11.1 ou plus. Téléchargez et installez Cudatoolkit: visitez le site officiel de Nvidiacudatoolkit et téléchargez et installez la version correspondante selon la version CUDA la plus élevée prise en charge par votre carte graphique. Installez la bibliothèque CUDNN:

Python et JavaScript ont leurs propres avantages et inconvénients en termes de communauté, de bibliothèques et de ressources. 1) La communauté Python est amicale et adaptée aux débutants, mais les ressources de développement frontal ne sont pas aussi riches que JavaScript. 2) Python est puissant dans les bibliothèques de science des données et d'apprentissage automatique, tandis que JavaScript est meilleur dans les bibliothèques et les cadres de développement frontaux. 3) Les deux ont des ressources d'apprentissage riches, mais Python convient pour commencer par des documents officiels, tandis que JavaScript est meilleur avec MDNWEBDOCS. Le choix doit être basé sur les besoins du projet et les intérêts personnels.

Lors de la sélection d'une version Pytorch sous CentOS, les facteurs clés suivants doivent être pris en compte: 1. CUDA Version Compatibilité GPU Prise en charge: si vous avez NVIDIA GPU et que vous souhaitez utiliser l'accélération GPU, vous devez choisir Pytorch qui prend en charge la version CUDA correspondante. Vous pouvez afficher la version CUDA prise en charge en exécutant la commande nvidia-SMI. Version CPU: Si vous n'avez pas de GPU ou que vous ne souhaitez pas utiliser de GPU, vous pouvez choisir une version CPU de Pytorch. 2. Version Python Pytorch

CENTOS L'installation de Nginx nécessite de suivre les étapes suivantes: Installation de dépendances telles que les outils de développement, le devet PCRE et l'OpenSSL. Téléchargez le package de code source Nginx, dézippez-le et compilez-le et installez-le, et spécifiez le chemin d'installation AS / USR / LOCAL / NGINX. Créez des utilisateurs et des groupes d'utilisateurs de Nginx et définissez les autorisations. Modifiez le fichier de configuration nginx.conf et configurez le port d'écoute et le nom de domaine / adresse IP. Démarrez le service Nginx. Les erreurs communes doivent être prêtées à prêter attention, telles que les problèmes de dépendance, les conflits de port et les erreurs de fichiers de configuration. L'optimisation des performances doit être ajustée en fonction de la situation spécifique, comme l'activation du cache et l'ajustement du nombre de processus de travail.

Traitez efficacement les données Pytorch sur le système CentOS, les étapes suivantes sont requises: Installation de dépendance: Mettez d'abord à jour le système et installez Python3 et PIP: sudoyuMupdate-anduhuminstallpython3-ysudoyuminstallpython3-pip-y, téléchargez et installez Cudatoolkit et Cudnn à partir du site officiel de Nvidia selon votre version de Centos et GPU. Configuration de l'environnement virtuel (recommandé): utilisez conda pour créer et activer un nouvel environnement virtuel, par exemple: condacreate-n
