python - Comment explorer par lots des images d'une page Web à l'aide d'un robot d'exploration?
给我你的怀抱2017-06-28 09:25:48
0
3
1211
Comme le montre l'image, il est très difficile de visualiser et de charger des images via le réseau en cliquant avec le bouton droit une par une pour les enregistrer. Existe-t-il un moyen d'écrire un robot pour capturer par lots les images ici ?
Oui, Cinq parties du robot d'exploration : Planificateur Déduplication d'URL Téléchargeur Analyse de page Web Stockage de données L'idée pour télécharger des images est la suivante : Obtenir le contenu de la page Web où se trouve l'image, analyser la balise img , obtenez l'adresse de l'image, puis URL de l'image pratique, téléchargez chaque image, enregistrez l'adresse de l'image téléchargée dans le filtre Bloom pour éviter les téléchargements répétés, chaque fois que vous téléchargez une image, vérifiez si elle a été téléchargée via l'URL, lorsque l'image est téléchargé en local, vous pouvez enregistrer le chemin de l'image dans la base de données et le fichier image dans le dossier, ou enregistrer l'image directement dans la base de données. python utilise request+beautifulsoup4 java utilise jsoup
Si plusieurs sites Web ou un seul site Web doivent être explorés de manière très approfondie, la méthode ci-dessus peut être directement récursive ou approfondie
Cette exigence, si vous savez ramper, est en fait très simple, quelques étapes seulement :
Page d'accueil ou pages avec des images, obtenez les images
url
Accédez à l'adresse de l'URL de l'image ci-dessus via la
requests
库或者urllib
bibliothèqueÉcrire sur le disque dur local au format binaire
Code de référence :
Pour plus de détails, vous pouvez vous référer au document officiel : document de demande
requests
Oui,
Cinq parties du robot d'exploration :
Planificateur
Déduplication d'URL
Téléchargeur
Analyse de page Web
Stockage de données
L'idée pour télécharger des images est la suivante :
Obtenir le contenu de la page Web où se trouve l'image, analyser la balise img , obtenez l'adresse de l'image, puis URL de l'image pratique, téléchargez chaque image, enregistrez l'adresse de l'image téléchargée dans le filtre Bloom pour éviter les téléchargements répétés, chaque fois que vous téléchargez une image, vérifiez si elle a été téléchargée via l'URL, lorsque l'image est téléchargé en local, vous pouvez enregistrer le chemin de l'image dans la base de données et le fichier image dans le dossier, ou enregistrer l'image directement dans la base de données.
python utilise request+beautifulsoup4
java utilise jsoup
Si plusieurs sites Web ou un seul site Web doivent être explorés de manière très approfondie, la méthode ci-dessus peut être directement récursive ou approfondie
.