Python pour le NLP : Comment gérer le texte PDF contenant des images intégrées ?-Tutoriel Python-php.cn

Python pour le NLP : Comment gérer le texte PDF contenant des images intégrées ?

王林

Libérer： 2023-09-28 22:53:17

original

874 Les gens l'ont consulté

Python for NLP：如何处理包含嵌入式图像的PDF文本？

Python pour le NLP : Comment gérer le texte PDF contenant des images intégrées ?

Résumé :
Cet article expliquera comment utiliser Python pour traiter du texte PDF contenant des images intégrées. Nous utiliserons la bibliothèque PyPDF2 pour analyser les documents PDF, puis utiliserons la bibliothèque d'imagerie Python (PIL) pour traiter les images intégrées.

Citation :
Dans le traitement du langage naturel (NLP), le traitement du texte PDF contenant des images intégrées est une tâche courante. Ce texte est généralement obtenu à partir de documents numérisés ou de livres électroniques, et le texte et l'image doivent être séparés pour un traitement ultérieur. Python est un langage de programmation puissant doté de nombreuses bibliothèques pour le NLP. Dans cet article, nous montrerons comment traiter ce type de texte PDF à l'aide de Python.

Étapes :

Installer les bibliothèques nécessaires :
Avant de commencer, vous devez installer les bibliothèques PyPDF2 et PIL. Ces bibliothèques peuvent être installées à l'aide de la commande suivante :
1
2
pip install PyPDF2
pip install pillow
Copier après la connexion
Importez les bibliothèques requises :
Avant d'écrire le code, importez d'abord les bibliothèques requises :
1
2
import PyPDF2
from PIL import Image
Copier après la connexion

Analysez le document PDF :
Utilisez la méthode PdfFileReader depuis PyPDF2 bibliothèque Pour analyser un document PDF :

def extract_text_from_pdf(pdf_path):
    text = ''
    with open(pdf_path, 'rb') as file:
        pdf = PyPDF2.PdfFileReader(file)
        for page in range(pdf.getNumPages()):
            text += pdf.getPage(page).extractText()
    return text

Copier après la connexion

Obtenir des images intégrées :
Utilisez la méthode getPage dans la bibliothèque PyPDF2 pour obtenir des pages individuelles du document PDF. Ensuite, utilisez la méthode extract_images de l'objet renvoyé par la méthode getPage pour extraire les images incorporées. L'image extraite sera renvoyée sous forme de dictionnaire, où la clé est le numéro d'objet de l'image et la valeur est un tuple contenant les données binaires de l'image et les informations d'image de l'image.

def extract_images_from_pdf(pdf_path):
    images = {}
    with open(pdf_path, 'rb') as file:
        pdf = PyPDF2.PdfFileReader(file)
        for page in range(pdf.getNumPages()):
            page_images = pdf.getPage(page).extract_images()
            for obj_num, image in page_images.items():
                images[obj_num] = image[0]
    return images

Copier après la connexion

Enregistrement des images intégrées :
Après avoir obtenu l'image intégrée, vous pouvez utiliser la méthode Image.frombytes dans la bibliothèque PIL pour créer un objet image PIL. L'image peut ensuite être enregistrée dans un fichier local à l'aide de la méthode de sauvegarde.

def save_images(images, output_dir):
    for obj_num, image_data in images.items():
        image = Image.frombytes(**image_data)
        image_path = f"{output_dir}/{obj_num}.jpg"
        image.save(image_path)

Copier après la connexion

Exemple de code complet :
Voici un exemple de code complet qui montre comment gérer le texte PDF contenant des images intégrées :

import PyPDF2
from PIL import Image
 
def extract_text_from_pdf(pdf_path):
    text = ''
    with open(pdf_path, 'rb') as file:
        pdf = PyPDF2.PdfFileReader(file)
        for page in range(pdf.getNumPages()):
            text += pdf.getPage(page).extractText()
    return text
 
def extract_images_from_pdf(pdf_path):
    images = {}
    with open(pdf_path, 'rb') as file:
        pdf = PyPDF2.PdfFileReader(file)
        for page in range(pdf.getNumPages()):
            page_images = pdf.getPage(page).extract_images()
            for obj_num, image in page_images.items():
                images[obj_num] = image[0]
    return images
 
def save_images(images, output_dir):
    for obj_num, image_data in images.items():
        image = Image.frombytes(**image_data)
        image_path = f"{output_dir}/{obj_num}.jpg"
        image.save(image_path)
 
if __name__ == '__main__':
    pdf_path = 'example.pdf'
    output_dir = 'output'
    text = extract_text_from_pdf(pdf_path)
    print('Extracted Text:', text)
    images = extract_images_from_pdf(pdf_path)
    save_images(images, output_dir)
    print('Images Saved.')

Copier après la connexion

Conclusion :
L'utilisation de Python pour traiter du texte PDF contenant des images intégrées peut devenir un lien important dans le flux de travail PNL. Cet article explique comment utiliser PyPDF2 et la bibliothèque PIL pour analyser des documents PDF et traiter les images intégrées. En utilisant ces bibliothèques, le texte et les images peuvent être facilement séparés, puis traités et analysés.

Références :