L'exploration de pages Web consiste en fait à obtenir des informations sur une page Web via une URL. L'essence des informations sur une page Web est un morceau de code HTML auquel sont ajoutés JavaScript et CSS. Python fournit un module tiers, request, pour capturer les informations des pages Web. Le module de requêtes s'appelle "HTTP for Humans", ce qui signifie littéralement un module HTTP conçu spécifiquement pour les humains. Ce module prend en charge l'envoi de requêtes et l'obtention de réponses.
Le module de requêtes fournit de nombreuses fonctions pour l'envoi de requêtes HTTP. Les fonctions de requête couramment utilisées sont présentées dans le tableau 10-1.
Tableau 10-1 Fonction de requête du module de requêtes
L'objet de classe Response fourni par le module de requêtes est utilisé pour répondre dynamiquement à la demande du client, contrôler les informations envoyées à l'utilisateur. , et sera généré dynamiquement Réponse, y compris le code d'état, le contenu de la page Web, etc. Ensuite, un tableau est utilisé pour répertorier les informations que la classe Response peut obtenir, comme indiqué dans le tableau 10-2.
Tableau 10-2 Attributs communs de la classe Response
Ensuite, nous utiliserons un cas pour démontrer comment utiliser le module de requêtes pour explorer les pages Web Baidu. Le code spécifique est le suivant :
# 01 requests baidu import requests base_url = 'http://www.baidu.com' #发送GET请求 res = requests.get (base_url) print("响应状态码:{}".format(res.status_code))#获取响应状态码 print("编码方式:{}".format(res.encoding))#获取响应内容的编码方式 res.encoding = 'utf-8'#更新响应内容的编码方式为UIE-8 print("网页源代码:n{}".format(res.text)) #获取响应内容
Dans le. au-dessus du code, la ligne 2 est importée à l'aide du module de requêtes d'importation ; les lignes 3 à 4 du code envoient une requête GET au serveur en fonction de l'URL et utilisent la variable res pour recevoir le contenu de la réponse renvoyé par le serveur ; code imprime le code d'état et la méthode de codage du contenu de la réponse ; La ligne 7 va La méthode de codage du contenu de la réponse est modifiée en "utf-8" ; la 8ème ligne de code imprime le contenu de la réponse. Exécutez le programme. Le résultat du programme est le suivant :
响应状态码:200 编码方式:ISO-8859-1 网页源代码: <!DOCTYPE html> <!–-STATUS OK--><html> <head><meta http-equiv=content-type content=text/html; charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content= always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic. com/r/www/cache/bdorz/baidu.min.css><title>百度一下,你就知道</title></head> <body link=#0000cc>…省略N行…</body></html>
Il convient de mentionner que lors de l'utilisation du module de requêtes pour explorer des pages Web, diverses exceptions peuvent survenir pour des raisons telles qu'une absence de connexion réseau, un échec de connexion au serveur, etc. Les deux exceptions les plus courantes sont URLError et HTTPError. Ces exceptions réseau peuvent être capturées et gérées à l'aide de l'instruction try...sauf.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!