Comment simuler une visite de navigateur avec la bibliothèque de requêtes de Python
Lorsque vous accédez à des sites Web par programmation à l'aide d'outils tels que le package Requests de Python ou la commande wget, vous peut rencontrer des disparités dans le contenu HTML récupéré par rapport à la visite du site Web via un navigateur Web. Cet écart vient du fait que les sites Web emploient souvent des mécanismes pour faire la distinction entre les visites authentiques du navigateur et les demandes automatisées.
Une approche efficace pour surmonter ce défi consiste à simuler une visite légitime du navigateur en fournissant un en-tête « User-Agent ». dans votre demande. Cet en-tête contient des informations sur le navigateur spécifique et la version utilisée, ce qui aide le site Web à l'identifier comme une visite initiée par un humain.
Pour mettre en œuvre cette solution à l'aide de la bibliothèque Requests de Python, suivez ces étapes :
Exemple de code :
import requests url = 'http://www.ichangtou.com/#company:data_000008.html' headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'} response = requests.get(url, headers=headers) print(response.content)
Pour référence, une liste complète des agents utilisateurs Les chaînes pour différents navigateurs sont disponibles ici :
[Liste de tous les navigateurs](https://deviceatlas.com/blog/list-of-user-agent-strings)
Alternativement, vous peut utiliser le package tiers fake-useragent, qui simplifie le processus de génération de chaînes User-Agent réalistes. Voici une démonstration de son utilisation :
from fake_useragent import UserAgent ua = UserAgent() request_headers = {'User-Agent': ua.chrome}
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!