Web Scraping avancé avec Python : gérer JavaScript, les cookies et les CAPTCHA-Tutoriel Python-php.cn

Table des matières

1. Gestion de JavaScript

Exemple

2. Gestion des cookies

3. Code de vérification du processus

4. Usurpation d'agent utilisateur

5. Utilisez AJAX pour gérer le contenu dynamique

Conclusion

Maison

développement back-end

Tutoriel Python

Web Scraping avancé avec Python : gérer JavaScript, les cookies et les CAPTCHA

PHPz

Sep 04, 2023 pm 03:49 PM

javascript python 网络爬虫

Web Scraping avancé avec Python : gérer JavaScript, les cookies et les CAPTCHA

À l'ère de la prise de décision basée sur les données, le web scraping est devenu une compétence indispensable pour extraire des informations précieuses des sites Web. Cependant, à mesure que les sites Web deviennent plus dynamiques et plus complexes, les techniques traditionnelles de scraping ne parviennent souvent pas à capturer toutes les données nécessaires. C’est là qu’intervient le web scraping avancé avec Python. Cet article explore les complexités liées à la gestion de JavaScript, des cookies et des CAPTCHA, qui sont des défis courants auxquels sont confrontés les web scrapers. À travers des exemples et des techniques pratiques, nous explorons comment les bibliothèques Python comme Selenium, Requests et BeautifulSoup peuvent surmonter ces obstacles. À la fin de cet article, nous disposerons d’une boîte à outils de stratégies pour naviguer dans les complexités des sites Web modernes, vous permettant d’extraire des données de manière efficace et efficiente.

1. Gestion de JavaScript

De nombreux sites Web modernes s'appuient fortement sur JavaScript pour charger dynamiquement du contenu. Cela peut poser des problèmes avec les techniques traditionnelles de web scraping, car les données requises peuvent ne pas être présentes dans le code source HTML. Heureusement, il existe des outils et des bibliothèques disponibles en Python qui peuvent nous aider à surmonter ce défi.

Un puissant framework d'automatisation de navigateur est un outil qui nous permet d'interagir avec les pages Web tout comme les utilisateurs humains. Pour illustrer sa fonctionnalité, explorons un exemple de scénario dans lequel notre objectif est d'obtenir les prix des produits à partir d'un site Web de commerce électronique. L'extrait de code suivant montre comment extraire efficacement des données à l'aide de Selenium.

Exemple

from selenium import webdriver

# Set up the browser
driver = webdriver.Chrome()

# Navigate to the webpage
driver.get('https://www.example.com/products')

# Find the price elements using XPath
price_elements = driver.find_elements_by_xpath('//span[@class="price"]')

# Extract the prices
prices = [element.text for element in price_elements]

# Print the prices
for price in prices:
   print(price)

# Close the browser
driver.quit()

Copier après la connexion

Dans cet exemple, nous exploitons la puissance de Selenium pour naviguer vers une page Web, utiliser XPath pour localiser l'élément de prix et extraire le prix. De cette façon, nous pouvons facilement récupérer les données des sites Web qui dépendent fortement de JavaScript.

2. Gestion des cookies

Les sites Web utilisent des cookies pour stocker de petits fichiers de données sur l'ordinateur ou l'appareil de l'utilisateur. Ils sont utilisés à diverses fins, telles que la mémorisation des préférences de l'utilisateur, le suivi des sessions et la fourniture de contenu personnalisé. Lors de l'exploration de sites Web qui reposent sur des cookies, il est nécessaire de les gérer de manière appropriée pour éviter un blocage potentiel ou une récupération de données inexactes.

La bibliothèque de requêtes en Python fournit des fonctionnalités de gestion des cookies. Nous pouvons faire une première demande au site Web, obtenir les cookies, puis les inclure dans les demandes ultérieures pour maintenir la session. Voici un exemple -

Exemple

import requests

# Send an initial request to obtain the cookies
response = requests.get('https://www.example.com')

# Get the cookies from the response
cookies = response.cookies

# Include the cookies in subsequent requests
response = requests.get('https://www.example.com/data', cookies=cookies)

# Extract and process the data from the response
data = response.json()

# Perform further operations on the data

Copier après la connexion

En gérant correctement les cookies, nous pouvons explorer les sites qui nécessitent une persistance de session ou qui ont un contenu spécifique à l'utilisateur.

3. Code de vérification du processus

Les Captchas sont conçus pour faire la différence entre les scripts humains et les scripts automatisés, ce qui crée un défi pour les scrapers Web. Pour surmonter ce problème, nous pouvons intégrer l'utilisation d'un service d'analyse CAPTCHA tiers avec une API. Voici un exemple d'utilisation d'un service d'analyse de code de vérification tiers utilisant la bibliothèque de requêtes Python.

Exemple

import requests

captcha_url = 'https://api.example.com/solve_captcha'
payload = {
   image_url': 'https://www.example.com/captcha_image.jpg',
   api_key': 'your_api_key'
}

response = requests.post(captcha_url, data=payload)
captcha_solution = response.json()['solution']
scraping_url = 'https://www.example.com/data'
scraping_payload = {
   'captcha_solution': captcha_solution
}
scraping_response = requests.get(scraping_url, params=scraping_payload)
data = scraping_response.json()

Copier après la connexion

4. Usurpation d'agent utilisateur

Certains sites Web utilisent le filtrage par agent utilisateur pour empêcher l'exploration. Un agent utilisateur est une chaîne d'identification qu'un navigateur envoie à un serveur de site Web pour s'identifier. Par défaut, la bibliothèque de requêtes de Python utilise une chaîne d'agent utilisateur pour indiquer qu'il s'agit d'un script scraper. Cependant, nous pouvons modifier la chaîne de l'agent utilisateur pour imiter un navigateur classique, contournant ainsi le filtrage de l'agent utilisateur.

Exemple

Ceci est un exemple

import requests

# Set a custom user-agent string
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'}

# Send a request with the modified user-agent
response = requests.get('https://www.example.com', headers=headers)

# Process the response as needed

Copier après la connexion

En utilisant des chaînes d'agent utilisateur bien connues provenant de navigateurs populaires, nous pouvons faire en sorte que nos demandes d'exploration ressemblent davantage au trafic utilisateur normal, réduisant ainsi le risque d'être bloqué ou détecté.

5. Utilisez AJAX pour gérer le contenu dynamique

Un autre défi courant du web scraping consiste à gérer les sites Web qui utilisent des requêtes AJAX pour charger du contenu de manière dynamique. AJAX (JavaScript asynchrone et XML) permet aux sites Web de mettre à jour des parties d'une page sans nécessiter une actualisation complète. Lors de l'exploration d'un tel site, nous devons identifier les requêtes AJAX responsables de l'obtention des données requises et simuler ces requêtes dans le script d'exploration. Voici un exemple.

Exemple

import requests
from bs4 import BeautifulSoup

# Send an initial request to the webpage
response = requests.get('https://www.example.com')

# Extract the dynamic content URL from the response
soup = BeautifulSoup(response.text, 'html.parser')
dynamic_content_url = soup.find('script', {'class': 'dynamic-content'}).get('src')

# Send a request to the dynamic content URL
response = requests.get(dynamic_content_url)

# Extract and process the data from the response
data = response.json()

# Perform further operations on the data

Copier après la connexion

Dans cet exemple, nous demandons d'abord une page Web et analysons la réponse à l'aide de BeautifulSoup. En utilisant BeautifulSoup, nous pouvons extraire les URL associées au contenu dynamique du HTML analysé. Nous procédons ensuite à l'envoi d'une autre demande spécifiquement à l'URL du contenu dynamique.

Conclusion

En résumé, nous avons exploré des techniques avancées de web scraping avec Python, en nous concentrant sur la gestion de JavaScript, des cookies, des CAPTCHA, de l'usurpation d'agent utilisateur et du contenu dynamique. En maîtrisant ces techniques, nous pouvons surmonter les différents défis posés par les sites Web modernes et extraire efficacement des données précieuses. N'oubliez pas que le web scraping peut être un outil puissant, mais il doit toujours être utilisé de manière responsable et éthique pour éviter de causer des dommages ou de violer la vie privée. Avec une compréhension approfondie de ces technologies avancées et un engagement en faveur du scraping éthique, vous pouvez débloquer un monde de données précieuses pour l’analyse, la recherche et la prise de décision.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Commandes de chat et comment les utiliser

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7526

Tutoriel CakePHP

1378

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Python: jeux, GUIS, et plus Apr 13, 2025 am 12:14 AM

Python excelle dans les jeux et le développement de l'interface graphique. 1) Le développement de jeux utilise Pygame, fournissant des fonctions de dessin, audio et d'autres fonctions, qui conviennent à la création de jeux 2D. 2) Le développement de l'interface graphique peut choisir Tkinter ou Pyqt. Tkinter est simple et facile à utiliser, PYQT a des fonctions riches et convient au développement professionnel.

PHP et Python: comparaison de deux langages de programmation populaires Apr 14, 2025 am 12:13 AM

PHP et Python ont chacun leurs propres avantages et choisissent en fonction des exigences du projet. 1.Php convient au développement Web, en particulier pour le développement rapide et la maintenance des sites Web. 2. Python convient à la science des données, à l'apprentissage automatique et à l'intelligence artificielle, avec syntaxe concise et adaptée aux débutants.

Comment Debian Readdir s'intègre à d'autres outils Apr 13, 2025 am 09:42 AM

La fonction ReadDir dans le système Debian est un appel système utilisé pour lire le contenu des répertoires et est souvent utilisé dans la programmation C. Cet article expliquera comment intégrer ReadDir avec d'autres outils pour améliorer sa fonctionnalité. Méthode 1: combinant d'abord le programme de langue C et le pipeline, écrivez un programme C pour appeler la fonction readdir et sortir le résultat: # include # include # include # includeIntmain (intargc, char * argv []) {dir * dir; structDirent * entrée; if (argc! = 2) {

Python et temps: tirer le meilleur parti de votre temps d'étude Apr 14, 2025 am 12:02 AM

Pour maximiser l'efficacité de l'apprentissage de Python dans un temps limité, vous pouvez utiliser les modules DateTime, Time et Schedule de Python. 1. Le module DateTime est utilisé pour enregistrer et planifier le temps d'apprentissage. 2. Le module de temps aide à définir l'étude et le temps de repos. 3. Le module de planification organise automatiquement des tâches d'apprentissage hebdomadaires.

Certificat NGINX SSL Mise à jour du tutoriel Debian Apr 13, 2025 am 07:21 AM

Cet article vous guidera sur la façon de mettre à jour votre certificat NGINXSSL sur votre système Debian. Étape 1: Installez d'abord CERTBOT, assurez-vous que votre système a des packages CERTBOT et Python3-CERTBOT-NGINX installés. Si ce n'est pas installé, veuillez exécuter la commande suivante: Sudoapt-getUpDaSuDoapt-GetInstallCertBotpyThon3-Certerbot-Nginx Étape 2: Obtenez et configurez le certificat Utilisez la commande Certbot pour obtenir le certificat LETSCRYPT et configure

Comment configurer le serveur HTTPS dans Debian OpenSSL Apr 13, 2025 am 11:03 AM

La configuration d'un serveur HTTPS sur un système Debian implique plusieurs étapes, notamment l'installation du logiciel nécessaire, la génération d'un certificat SSL et la configuration d'un serveur Web (tel qu'Apache ou Nginx) pour utiliser un certificat SSL. Voici un guide de base, en supposant que vous utilisez un serveur Apacheweb. 1. Installez d'abord le logiciel nécessaire, assurez-vous que votre système est à jour et installez Apache et OpenSSL: SudoaptupDaSuDoaptupgradeSudoaptinsta

Guide de développement du plug-in de Gitlab sur Debian Apr 13, 2025 am 08:24 AM

Développer un plugin Gitlab sur Debian nécessite des étapes et des connaissances spécifiques. Voici un guide de base pour vous aider à démarrer avec ce processus. Installation de GitLab Tout d'abord, vous devez installer GitLab sur votre système Debian. Vous pouvez vous référer au manuel d'installation officiel de Gitlab. Obtenez un jeton d'accès API avant d'effectuer l'intégration de l'API, vous devez d'abord obtenir le jeton d'accès API de GitLab. Ouvrez le tableau de bord GitLab, recherchez l'option "AccessTokens" dans les paramètres utilisateur et générez un nouveau jeton d'accès. Sera généré

Quel service est Apache Apr 13, 2025 pm 12:06 PM

Apache est le héros derrière Internet. Ce n'est pas seulement un serveur Web, mais aussi une plate-forme puissante qui prend en charge un trafic énorme et fournit un contenu dynamique. Il offre une flexibilité extrêmement élevée grâce à une conception modulaire, permettant l'expansion de diverses fonctions au besoin. Cependant, la modularité présente également des défis de configuration et de performance qui nécessitent une gestion minutieuse. Apache convient aux scénarios de serveur qui nécessitent des besoins complexes hautement personnalisables.

See all articles