Expliquez l'exemple de code d'écriture du robot d'exploration Python pour capturer des images GIF sur les bandes dessinées Rampage-Tutoriel Python-php.cn

Maison

Expliquez l'exemple de code d'écriture du robot d'exploration Python pour capturer des images GIF sur les bandes dessinées Rampage

高洛峰

Mar 10, 2017 pm 01:53 PM

Cet article explique comment écrire un exemple de code pour le robot d'exploration Python pour capturer des images GIF sur les bandes dessinées Rampage. L'exemple de code est Python3, qui utilise le module urllib, le module request et le module BeautifulSoup. Les amis dans le besoin peuvent se référer à cet article. 🎜>

Le robot d'exploration que je souhaite présenter consiste à récupérer les images GIF intéressantes de la bande dessinée Rampage pour une visualisation hors ligne. Le robot a été développé en python3.3, principalement en utilisant les modules urllib, request et BeautifulSoup.

Le module urllib fournit une interface de haut niveau pour obtenir des données du World Wide Web Lorsque nous utilisons urlopen() pour ouvrir une URL, cela équivaut à utiliser l'open() intégré de Python pour l'ouvrir. un fichier. Mais la différence est que le premier reçoit une URL en paramètre, et il n'y a aucun moyen d'effectuer une opération de recherche sur le flux de fichiers ouverts (d'un point de vue de bas niveau, car il s'agit en fait d'un socket, il est naturel qu'il y ait aucun moyen d'effectuer une opération de recherche), tandis que cette dernière Ce qui est reçu est un nom de fichier local.

Le module BeautifulSoup de Python peut vous aider à analyser le HTML et le XML

Tout d'abord, vous écrivez généralement un robot d'exploration Web, ce qui signifie récupérer le code source HTML et les autres contenus de la page Web, puis analyser et. extraire le contenu correspondant.
Ce genre de travail d'analyse de contenu HTML, si vous utilisez simplement le module re d'expression régulière ordinaire pour faire correspondre petit à petit, c'est fondamentalement suffisant pour analyser des pages Web avec un contenu plus simple.
Mais si vous avez besoin d'analyser du HTML avec une lourde charge de travail et un contenu compliqué, vous trouverez cela impossible ou difficile à implémenter à l'aide du module re.
Si vous utilisez le module beautifulsoup pour vous aider à analyser le code source html, vous constaterez que les choses deviennent si simples, ce qui améliore considérablement l'efficacité de l'analyse du code source html.
Remarque : BeautifulSoup est une bibliothèque tierce, j'utilise bs4. urllib2 est affecté à urllib.request dans python3. Le texte original du document est le suivant.
Remarque : le module urllib2 a été divisé en plusieurs modules dans Python 3 nommés urllib.request et urllib.error.
Le code source du robot est le suivant

# -*- coding: utf-8 -*-

import urllib.request
import bs4,os

page_sum = 1 #设置下载页数

path = os.getcwd()
path = os.path.join(path,&#39;暴走GIF&#39;)
if not os.path.exists(path):
  os.mkdir(path)                 #创建文件夹

url = "http://baozoumanhua.com/gif/year"   #url地址
headers = {                     #伪装浏览器
  &#39;User-Agent&#39;:&#39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)&#39;
         &#39; Chrome/32.0.1700.76 Safari/537.36&#39;
}

for count in range(page_sum):
  req = urllib.request.Request(
    url = url+str(count+1),
    headers = headers
  )
  print(req.full_url)
  content = urllib.request.urlopen(req).read()

  soup = bs4.BeautifulSoup(content)          # BeautifulSoup
  img_content = soup.findAll(&#39;img&#39;,attrs={&#39;style&#39;:&#39;width:460px&#39;})

  url_list = [img[&#39;src&#39;] for img in img_content]   #列表推导 url
  title_list = [img[&#39;alt&#39;] for img in img_content]  #图片名称

  for i in range(url_list.__len__()) :
    imgurl = url_list[i]
    filename = path + os.sep +title_list[i] + ".gif"
    print(filename+":"+imgurl)             #打印下载信息
    urllib.request.urlretrieve(imgurl,filename)    #下载图片

Copier après la connexion

Sur la ligne 15, vous pouvez modifier le nombre de pages téléchargées. Enregistrez ce fichier sous baozougif.py Après avoir exécuté la commande python baozougif.py, un dossier de "Rampage GIF" sera généré dans. le même répertoire. Toutes les images seront automatiquement téléchargées dans ce répertoire.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

3 Il y a quelques semaines By DDD

<🎜>: Dead Rails - Comment relever chaque défi

4 Il y a quelques semaines By DDD

Guide de l'atomfall: emplacements des articles, guides de quête et conseils

1 Il y a quelques mois By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7678

Tutoriel CakePHP

1393

Tutoriel C#

1207

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

Afficher plus

Related knowledge

Comment résoudre le problème des autorisations rencontré lors de la visualisation de la version Python dans le terminal Linux? Apr 01, 2025 pm 05:09 PM

Solution aux problèmes d'autorisation Lors de la visualisation de la version Python dans Linux Terminal Lorsque vous essayez d'afficher la version Python dans Linux Terminal, entrez Python ...

Comment enseigner les bases de la programmation novice en informatique dans le projet et les méthodes axées sur les problèmes dans les 10 heures? Apr 02, 2025 am 07:18 AM

Comment enseigner les bases de la programmation novice en informatique dans les 10 heures? Si vous n'avez que 10 heures pour enseigner à l'informatique novice des connaissances en programmation, que choisissez-vous d'enseigner ...

Comment éviter d'être détecté par le navigateur lors de l'utilisation de Fiddler partout pour la lecture de l'homme au milieu? Apr 02, 2025 am 07:15 AM

Comment éviter d'être détecté lors de l'utilisation de FiddlereVerywhere pour les lectures d'homme dans le milieu lorsque vous utilisez FiddlereVerywhere ...

Comment copier efficacement la colonne entière d'une dataframe dans une autre dataframe avec différentes structures dans Python? Apr 01, 2025 pm 11:15 PM

Lorsque vous utilisez la bibliothèque Pandas de Python, comment copier des colonnes entières entre deux frames de données avec différentes structures est un problème courant. Supposons que nous ayons deux dats ...

Comment Uvicorn écoute-t-il en permanence les demandes HTTP sans servir_forever ()? Apr 01, 2025 pm 10:51 PM

Comment Uvicorn écoute-t-il en permanence les demandes HTTP? Uvicorn est un serveur Web léger basé sur ASGI. L'une de ses fonctions principales est d'écouter les demandes HTTP et de procéder ...

Comment créer dynamiquement un objet via une chaîne et appeler ses méthodes dans Python? Apr 01, 2025 pm 11:18 PM

Dans Python, comment créer dynamiquement un objet via une chaîne et appeler ses méthodes? Il s'agit d'une exigence de programmation courante, surtout si elle doit être configurée ou exécutée ...

Comment résoudre les problèmes d'autorisation lors de l'utilisation de la commande python --version dans le terminal Linux? Apr 02, 2025 am 06:36 AM

Utilisation de Python dans Linux Terminal ...

Comment obtenir des données d'information en contournant le mécanisme anti-frawler d'Investing.com? Apr 02, 2025 am 07:03 AM

Comprendre la stratégie anti-rampe d'investissement.com, Beaucoup de gens essaient souvent de ramper les données d'actualités sur Investing.com (https://cn.investing.com/news/latest-news) ...

See all articles