Un robot basé sur python souhaite obtenir des données du site Web, qui est le processus allant de la demande à la réponse. Nous déguisons le navigateur pour envoyer une demande de requête au serveur, et le serveur répondra par une réponse après avoir accepté les informations.
Dans l'article précédent, nous avons expliqué qu'est-ce qu'un robot et une introduction au processus de base du robot, aujourd'hui, nous donnerons Ce que chacun apporte est une introduction détaillée au processus de base, que sont la demande et la réponse.
Demande
1. Qu'est-ce que la demande ?
Le navigateur envoie des informations au serveur où se trouve l'URL. Ce processus est appelé requête HTTP.
2. Qu'est-ce qui est inclus dans la demande ?
Méthode de requête : les principaux types de méthodes de requête sont GET et POST, ainsi que HEAD, PUT, DELETE, etc. Les paramètres de la requête GET seront affichés après le lien URL. Par exemple, si nous ouvrons Baidu et recherchons « images », nous verrons que le lien URL demandé est https://www.baidu.com/s? wd=image. Les paramètres de la requête POST seront stockés dans la requête et n'apparaîtront pas derrière le lien URL. Par exemple, si nous nous connectons à Zhihu et entrons le nom d'utilisateur et le mot de passe, nous verrons la page Réseau des outils de développement du navigateur. . La demande de requête contient les informations de paire clé-valeur de Form Data qui y stockent nos informations de connexion, ce qui contribue à protéger la sécurité des informations de notre compte. URL de demande : le nom complet de l'URL est Uniform Resource Locator, ce que nous appelons une URL. Par exemple, une image, un fichier musical, un document Web, etc. peuvent être déterminés par une URL unique. Les informations qu'elle contient indiquent l'emplacement du fichier et la manière dont le navigateur doit le traiter. En-têtes de requête : lorsque l'en-tête de requête contient. les informations d'en-tête de la demande, telles que l'agent utilisateur (précisez l'en-tête de la demande du navigateur), l'hôte, les cookies et d'autres informations ; Corps de la demande : le corps de la demande est constitué des données supplémentaires contenues dans la demande, telles que les informations de connexion soumises par la connexion. formulaire.
Réponse
1. Qu'est-ce que la réponse ?
Une fois que le serveur a reçu les informations envoyées par le navigateur, il peut les traiter en conséquence en fonction du contenu des informations envoyées par le navigateur, puis renvoyer le message au navigateur. appelé réponse HTTP.
2. Qu'est-ce qui est inclus dans la réponse ?
Statut de réponse : il existe de nombreux statuts de réponse, tels que 200 pour le succès, 301 pour la page de saut, 404 pour la page introuvable, 502 pour l'erreur du serveur. En-têtes de réponse : tels que le type de contenu, la longueur du contenu ; , informations sur le serveur, paramètres des cookies, etc. ; Corps de la réponse : la partie la plus importante du corps de la réponse, y compris le contenu de la ressource demandée, telle que le code HTML de la page Web, les données binaires de l'image, etc.
Démonstration simple
import requests # 导入requests库,需要安装 # 模拟成浏览器访问的头 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'} resp = requests.get('https://www.baidu.com',headers=headers) print(resp.text) # 打印出网页源代码 print(resp.status_code) # 打印出状态码
Après une exécution réussie, vous pouvez voir le code source html imprimé et 200 codes d'état. Cela implémente essentiellement le processus de demande et de réponse du robot.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!