Convertir les données capturées par le robot d'exploration Python en PDF

Y2J
Libérer: 2017-05-08 16:56:05
original
1802 Les gens l'ont consulté

Cet article partage avec vous la méthode et le code d'utilisation du robot d'exploration Python pour convertir le "Tutoriel Python de Liao Xuefeng" en PDF. Les amis dans le besoin peuvent s'y référer

Écrire un robot ne semble pas être plus facile que de l'utiliser. Python. C'est approprié. Il y a tellement d'outils de robot d'exploration fournis par la communauté Python que vous serez ébloui. Avec diverses bibliothèques qui peuvent être utilisées directement, vous pouvez écrire un robot d'exploration en quelques minutes. Tutoriel Python de Liao Xuefeng. Créez un livre électronique PDF que tout le monde pourra lire hors ligne.

Avant de commencer à écrire un robot, analysons d'abord la structure des pages du site Web 1. Le côté gauche de la page Web est le plan du répertoire du tutoriel, chaque URL correspond à un article à droite, et le le côté supérieur droit est le titre de l'article, au milieu se trouve la partie texte de l'article, le contenu du texte est au centre de nos préoccupations, les données que nous voulons explorer sont la partie texte de toutes les pages Web, en dessous se trouve le commentaire de l'utilisateur zone, la zone de commentaires ne nous est d'aucune utilité, nous pouvons donc l'ignorer.

Préparation des outils

Après avoir déterminé la structure de base du site Web, vous pouvez commencer à préparer les kits d'outils dont dépend le robot sur. request et beautifulsoup sont deux artefacts majeurs des robots d'exploration, reuqests est utilisé pour les requêtes réseau et beautifusoup est utilisé pour exploiter les données html. Avec ces deux navettes, nous pouvons faire notre travail rapidement. Nous n'avons pas besoin d'un crawlerframework comme Scrapy. L'utiliser dans de petits programmes est comme une exagération. De plus, puisque vous convertissez des fichiers HTML en PDF, vous devez également disposer du support de bibliothèque correspondant. wkhtmltopdf est un très bon outil, qui peut être utilisé pour convertir du HTML en PDF sur plusieurs plates-formes. le package Python de wkhtmltopdf. installezles packages de dépendances suivants,

puis installez wkhtmltopdf

pip install requests
pip install beautifulsoup
pip install pdfkit
Copier après la connexion

installez wkhtmltopdf

plate-forme Windows directement Téléchargez le version stable de wkhtmltopdf à partir du site officiel 2 et installez-le. Une fois l'installation terminée, ajoutez le chemin d'exécution du programme à l'environnement système $PATH variable , sinon pdfkit ne peut pas trouver wkhtmltopdf et l'erreur "Non". "Exécutable wkhtmltopdf trouvé" apparaîtra. Ubuntu et CentOS peuvent être installés directement à l'aide de la ligne de commande

$ sudo apt-get install wkhtmltopdf # ubuntu
$ sudo yum intsall wkhtmltopdf   # centos
Copier après la connexion

Implémentation du Crawler

Lorsque tout est prêt, vous pouvez commencer à coder, mais vous devez d'abord l'organiser avant d'écrire le code Réfléchissez un instant. Le but du programme est de sauvegarder localement les parties de texte html correspondant à toutes les URL, puis d'utiliser pdfkit pour convertir ces fichiers en fichier pdf. Divisons la tâche. Tout d'abord, enregistrons localement le texte html correspondant à une certaine URL, puis recherchons toutes les URL et effectuons la même opération.

Utilisez le navigateur Chrome pour rechercher la balise dans la partie corps de la page, et appuyez sur F12 pour trouver la balise p correspondant au corps : <p >, où p est le contenu du corps de la page Web. Après avoir utilisé des requêtes pour charger la page entière localement, vous pouvez utiliser beautifulsoup pour faire fonctionner l'élément HTML dom afin d'extraire le contenu du texte.


Le code d'implémentation spécifique est le suivant : utilisez la fonction soup.find_all pour trouver la balise body, puis enregistrez le contenu de la partie du corps dans le fichier a Fichier .html.

def parse_url_to_html(url):
  response = requests.get(url)
  soup = BeautifulSoup(response.content, "html5lib")
  body = soup.find_all(class_="x-wiki-content")[0]
  html = str(body)
  with open("a.html", &#39;wb&#39;) as f:
    f.write(html)
Copier après la connexion

La deuxième étape consiste à analyser toutes les URL sur le côté gauche de la page. Utilisez la même méthode pour trouver l'étiquette du menu de gauche <ul >

La logique spécifique d'implémentation du code : car il y a deux classes uk-nav et uk-nav-side sur le page Attributs, et la véritable liste du répertoire est la deuxième. Toutes les URL ont été obtenues et la fonction de conversion des URL en HTML a été écrite dans un premier temps.

def get_url_list():
  """
  获取所有URL目录列表
  """
  response = requests.get("http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000")
  soup = BeautifulSoup(response.content, "html5lib")
  menu_tag = soup.find_all(class_="uk-nav uk-nav-side")[1]
  urls = []
  for li in menu_tag.find_all("li"):
    url = "http://www.liaoxuefeng.com" + li.a.get(&#39;href&#39;)
    urls.append(url)
  return urls
Copier après la connexion

La dernière étape consiste à convertir le code HTML en fichier pdf. La conversion en fichier pdf est très simple, car pdfkit a encapsulé toute la logique. Il vous suffit d'appeler la fonction pdfkit.from_file

def save_pdf(htmls):
  """
  把所有html文件转换成pdf文件
  """
  options = {
    &#39;page-size&#39;: &#39;Letter&#39;,
    &#39;encoding&#39;: "UTF-8",
    &#39;custom-header&#39;: [
      (&#39;Accept-Encoding&#39;, &#39;gzip&#39;)
    ]
  }
  pdfkit.from_file(htmls, file_name, options=options)
Copier après la connexion

pour exécuter la fonction save_pdf, et le fichier pdf du livre électronique le sera. être généré. Le rendu :

Résumé

Le montant total du code s'élève à moins de 50 lignes, mais attendez, dans en fait, le code donné ci-dessus est omis. Certains détails, comme comment obtenir le titre de l'article, la balise img du contenu du texte utilise un chemin relatif Si vous souhaitez afficher la image normalement dans le. PDF, vous devez changer le chemin relatif en chemin absolu et l'enregistrer. Les fichiers html temporaires téléchargés doivent être supprimés, et ces détails sont tous publiés sur github.

【Recommandations associées】

1. Tutoriel vidéo gratuit Python

2 Tutoriel vidéo orienté objet Python

3 Manuel d'apprentissage Python<.>

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal