Téléchargez des fichiers PDF à l'aide des requêtes de Python et de BeautifulSoup

王林
Libérer: 2023-08-30 15:25:06
avant
936 Les gens l'ont consulté

Téléchargez des fichiers PDF à laide des requêtes de Python et de BeautifulSoup

Request et BeautifulSoup sont des bibliothèques Python qui peuvent télécharger n'importe quel fichier ou PDF en ligne. La bibliothèque de requêtes est utilisée pour envoyer des requêtes HTTP et recevoir des réponses. La bibliothèque BeautifulSoup est utilisée pour analyser le HTML reçu dans la réponse et obtenir le lien pdf téléchargeable. Dans cet article, nous apprendrons comment télécharger un PDF à l'aide de Request et Beautiful Soup en Python.

Installer les dépendances

Avant d'utiliser les bibliothèques BeautifulSoup et Request en Python, nous devons installer ces bibliothèques dans le système à l'aide de la commande pip. Pour installer request et les bibliothèques BeautifulSoup et Request, exécutez les commandes suivantes dans le terminal.

pip install requests
pip install beautifulsoup4
Copier après la connexion

Téléchargez le PDF en utilisant Request et Beautiful Soup

Pour télécharger un PDF depuis Internet, vous devez d'abord trouver l'URL du fichier pdf à l'aide de la bibliothèque de requêtes. Nous pouvons ensuite utiliser Beautiful Soup pour analyser la réponse HTML et extraire le lien vers le fichier PDF. L'URL de base et le lien PDF reçus après analyse sont ensuite combinés pour obtenir l'URL du fichier PDF. Nous pouvons maintenant utiliser la méthode request pour envoyer une requête Get afin de télécharger le fichier.

Exemple

Dans le code ci-dessous, placez l'URL valide de la page contenant l'URL du fichier PDF à "https://example.com/document.pdf"

import requests
from bs4 import BeautifulSoup

# Step 1: Fetch the PDF URL
url = 'https://example.com/document.pdf'
response = requests.get(url)

if response.status_code == 200:
   # Step 2: Parse the HTML to get the PDF link
   soup = BeautifulSoup(response.text, 'html.parser')
   link = soup.find('a')['href']

   # Step 3: Download the PDF
   pdf_url = url + link
   pdf_response = requests.get(pdf_url)

   if pdf_response.status_code == 200:
      with open('document.pdf', 'wb') as f:
         f.write(pdf_response.content)
      print('PDF downloaded successfully.')
   else:
      print('Error:', pdf_response.status_code)
else:
   print('Error:', response.status_code)
Copier après la connexion

Sortie

PDF downloaded successfully.
Copier après la connexion

Conclusion

Dans cet article, nous avons expliqué comment télécharger des fichiers PDF depuis Internet à l'aide des bibliothèques Request et Beautiful Soup en Python. Grâce à la méthode de requête, nous pouvons envoyer une requête HTTP pour vérifier le lien PDF. Une fois que nous avons trouvé une page contenant un lien vers un fichier PDF, nous pouvons utiliser Beautiful Soup Download pour analyser la page et obtenir le lien téléchargeable au PDF.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:tutorialspoint.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal