Maison développement back-end Tutoriel Python Exemple détaillé de python3 utilisant le module de requêtes pour explorer le contenu de la page

Exemple détaillé de python3 utilisant le module de requêtes pour explorer le contenu de la page

Sep 26, 2017 am 10:39 AM
python3 requests 详解

Cet article présente principalement la pratique réelle de l'utilisation de python3 pour explorer le contenu d'une page à l'aide du module de requêtes. Il a une certaine valeur de référence. Ceux qui sont intéressés peuvent en savoir plus

1. >

Mon système de bureau personnel utilise Linuxmint. Le système n'a pas installé pip par défaut étant donné que pip sera utilisé pour installer le module de requêtes plus tard, j'installerai pip comme première étape ici.


$ sudo apt install python-pip
Copier après la connexion
Installation réussie, vérifiez la version PIP :


$ pip -V
Copier après la connexion

2. Demandes d'installation Module

Ici, je l'ai installé via pip :


$ pip install requests
Copier après la connexion

Exécuter les demandes d'importation, s'il y a Il n'y a pas d'erreur, cela signifie que l'installation a réussi !

Vérifiez si l'installation est réussie

3. Installez beautifulsoup4

Beautiful Soup est un logiciel qui peut être téléchargé à partir de la bibliothèque HTML ou XML Python pour extraire les données des fichiers. Il permet une navigation habituelle dans les documents et des moyens de rechercher et de modifier des documents via votre convertisseur préféré. Beautiful Soup vous fera gagner des heures, voire des jours de travail.


$ sudo apt-get install python3-bs4
Copier après la connexion
Remarque : j'utilise ici la méthode d'installation python3. Si vous utilisez python2, vous pouvez utiliser la commande suivante pour l'installer.


$ sudo pip install beautifulsoup4
Copier après la connexion

4.Une brève analyse du module de requêtes

1) Envoyer une requête

Tout d'abord, bien sûr, importez le module Requêtes :


>>> import requests
Copier après la connexion
Ensuite, récupérez la page Web explorée cible. Ici, je prends comme exemple ce qui suit :


>>> r = requests.get('http://www.jb51.net/article/124421.htm')
Copier après la connexion
Ici, un objet de réponse nommé r est renvoyé. Nous pouvons obtenir toutes les informations que nous souhaitons à partir de cet objet. Le get ici est la méthode de réponse de http, vous pouvez donc également le remplacer par put, delete, post et head par analogie.

2) Transmettre les paramètres de l'URL

Parfois, nous souhaitons transmettre une sorte de données pour la chaîne de requête de l'URL. Si vous créez l'URL à la main, les données sont placées dans l'URL sous forme de paires clé/valeur, suivies d'un point d'interrogation. Par exemple, cnblogs.com/get?key=val. Les requêtes vous permettent d'utiliser l'argument mot-clé params pour fournir ces paramètres sous forme de dictionnaire de chaînes.

Par exemple, lorsque nous recherchons sur Google le mot-clé "python crawler", des paramètres tels que newwindow (une nouvelle fenêtre s'ouvre), q et oq (mot-clé de recherche) peuvent être formés manuellement dans l'URL, vous pouvez alors utiliser le code suivant :


>>> payload = {'newwindow': '1', 'q': 'python爬虫', 'oq': 'python爬虫'}

>>> r = requests.get("https://www.google.com/search", params=payload)
Copier après la connexion
3) Contenu de la réponse

Obtenez le contenu de la réponse de la page via r.text ou r.content.


>>> import requests

>>> r = requests.get('https://github.com/timeline.json')

>>> r.text
Copier après la connexion
Les requêtes décodent automatiquement le contenu du serveur. La plupart des jeux de caractères Unicode peuvent être décodés de manière transparente. Voici un petit ajout sur la différence entre r.text et r.content Pour faire simple :

resp.text renvoie des données Unicode

resp.content renvoie des données en octets. données binaires ;

Donc, si vous souhaitez obtenir du texte, vous pouvez transmettre r.text, si vous souhaitez obtenir des images ou des fichiers, vous pouvez transmettre r.content.

4) Obtenez l'encodage de la page Web


>>> r = requests.get('http://www.cnblogs.com/')

>>> r.encoding

'utf-8'
Copier après la connexion
5) Obtenez le code d'état de la réponse

Nous pouvons détecter l'état de la réponse code :


>>> r = requests.get('http://www.cnblogs.com/')

>>> r.status_code

200
Copier après la connexion

5. Démonstration de cas

L'entreprise vient d'introduire un système OA récemment, ici j'utilise le page de documentation officielle Prenez ceci comme exemple et capturez uniquement les informations utiles telles que les titres des articles et le contenu de la page.

Environnement de démonstration

Système d'exploitation : linuxmint

Version Python : python 3.5.2

Utilisation des modules : requêtes, beautifulsoup4

Code Comme suit :


#!/usr/bin/env python
# -*- coding: utf-8 -*-
_author_ = 'GavinHsueh'

import requests
import bs4

#要抓取的目标页码地址
url = 'http://www.ranzhi.org/book/ranzhi/about-ranzhi-4.html'

#抓取页码内容,返回响应对象
response = requests.get(url)

#查看响应状态码
status_code = response.status_code

#使用BeautifulSoup解析代码,并锁定页码指定标签内容
content = bs4.BeautifulSoup(response.content.decode("utf-8"), "lxml")
element = content.find_all(id='book')

print(status_code)
print(element)
Copier après la connexion
Le programme s'exécute et renvoie le résultat de l'exploration :

L'exploration est réussie

À propos du problème des résultats d'exploration tronqués

En fait, au début, j'utilisais directement le python2 fourni avec le système par défaut, mais j'ai longtemps eu du mal avec le problème de l'encodage tronqué du contenu renvoyé, j'ai recherché diverses solutions sur Google, mais toutes étaient inefficaces. Après avoir été "rendu fou" par python2, je n'ai eu d'autre choix que d'utiliser honnêtement python3. Concernant le problème du contenu tronqué dans les pages crawlées en python2, les seniors sont invités à partager leurs expériences pour aider les générations futures comme moi à éviter les détours.

Postscript

Python possède de nombreux modules liés aux robots d'exploration, en plus du module de requêtes, il existe également urllib, pycurl et tornado, etc. En comparaison, j'estime personnellement que le module de requêtes est relativement simple et facile à utiliser. Grâce au texte, vous pouvez rapidement apprendre à utiliser le module de requêtes de Python pour explorer le contenu de la page. Mes capacités sont limitées. S'il y a des erreurs dans l'article, n'hésitez pas à m'éclairer. Deuxièmement, si vous avez des questions difficiles sur le contenu de la page explorée par Python, vous êtes également invités à communiquer et à discuter avec tout le monde.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Explication détaillée de la fonction mode en C++ Explication détaillée de la fonction mode en C++ Nov 18, 2023 pm 03:08 PM

Explication détaillée de la fonction mode en C++ En statistiques, le mode fait référence à la valeur qui apparaît le plus fréquemment dans un ensemble de données. En langage C++, nous pouvons trouver le mode dans n’importe quel ensemble de données en écrivant une fonction de mode. La fonction mode peut être implémentée de nombreuses manières différentes, deux des méthodes couramment utilisées seront présentées en détail ci-dessous. La première méthode consiste à utiliser une table de hachage pour compter le nombre d'occurrences de chaque nombre. Tout d’abord, nous devons définir une table de hachage avec chaque nombre comme clé et le nombre d’occurrences comme valeur. Ensuite, pour un ensemble de données donné, nous exécutons

Explication détaillée de l'obtention des droits d'administrateur dans Win11 Explication détaillée de l'obtention des droits d'administrateur dans Win11 Mar 08, 2024 pm 03:06 PM

Le système d'exploitation Windows est l'un des systèmes d'exploitation les plus populaires au monde et sa nouvelle version Win11 a beaucoup attiré l'attention. Dans le système Win11, l'obtention des droits d'administrateur est une opération importante. Les droits d'administrateur permettent aux utilisateurs d'effectuer davantage d'opérations et de paramètres sur le système. Cet article présentera en détail comment obtenir les autorisations d'administrateur dans le système Win11 et comment gérer efficacement les autorisations. Dans le système Win11, les droits d'administrateur sont divisés en deux types : administrateur local et administrateur de domaine. Un administrateur local dispose de tous les droits d'administration sur l'ordinateur local

Explication détaillée du fonctionnement de la division dans Oracle SQL Explication détaillée du fonctionnement de la division dans Oracle SQL Mar 10, 2024 am 09:51 AM

Explication détaillée de l'opération de division dans OracleSQL Dans OracleSQL, l'opération de division est une opération mathématique courante et importante, utilisée pour calculer le résultat de la division de deux nombres. La division est souvent utilisée dans les requêtes de bases de données. Comprendre le fonctionnement de la division et son utilisation dans OracleSQL est donc l'une des compétences essentielles des développeurs de bases de données. Cet article discutera en détail des connaissances pertinentes sur les opérations de division dans OracleSQL et fournira des exemples de code spécifiques pour référence aux lecteurs. 1. Opération de division dans OracleSQL

Explication détaillée de la fonction reste en C++ Explication détaillée de la fonction reste en C++ Nov 18, 2023 pm 02:41 PM

Explication détaillée de la fonction reste en C++ En C++, l'opérateur reste (%) est utilisé pour calculer le reste de la division de deux nombres. Il s'agit d'un opérateur binaire dont les opérandes peuvent être n'importe quel type entier (y compris char, short, int, long, etc.) ou un type nombre à virgule flottante (tel que float, double). L'opérateur reste renvoie un résultat du même signe que le dividende. Par exemple, pour l'opération de reste des entiers, nous pouvons utiliser le code suivant pour implémenter : inta=10;intb=3;

Explication détaillée de l'utilisation de la fonction Vue.nextTick et de son application dans les mises à jour asynchrones Explication détaillée de l'utilisation de la fonction Vue.nextTick et de son application dans les mises à jour asynchrones Jul 26, 2023 am 08:57 AM

Explication détaillée de l'utilisation de la fonction Vue.nextTick et de son application dans les mises à jour asynchrones. Dans le développement de Vue, nous rencontrons souvent des situations où les données doivent être mises à jour de manière asynchrone. Par exemple, les données doivent être mises à jour immédiatement après la modification du DOM ou des opérations associées. à effectuer immédiatement après la mise à jour des données. La fonction .nextTick fournie par Vue a émergé pour résoudre ce type de problème. Cet article présentera en détail l'utilisation de la fonction Vue.nextTick et la combinera avec des exemples de code pour illustrer son application dans les mises à jour asynchrones. 1. Vue.nex

Explication détaillée du rôle et de l'utilisation de l'opérateur modulo PHP Explication détaillée du rôle et de l'utilisation de l'opérateur modulo PHP Mar 19, 2024 pm 04:33 PM

L'opérateur modulo (%) en PHP est utilisé pour obtenir le reste de la division de deux nombres. Dans cet article, nous discuterons en détail du rôle et de l'utilisation de l'opérateur modulo et fournirons des exemples de code spécifiques pour aider les lecteurs à mieux comprendre. 1. Le rôle de l'opérateur modulo En mathématiques, lorsqu'on divise un entier par un autre entier, on obtient un quotient et un reste. Par exemple, lorsque l’on divise 10 par 3, le quotient est 3 et le reste est 1. L'opérateur modulo est utilisé pour obtenir ce reste. 2. Utilisation de l'opérateur modulo En PHP, utilisez le symbole % pour représenter le module

Explication détaillée de la fonction d'appel système Linux system() Explication détaillée de la fonction d'appel système Linux system() Feb 22, 2024 pm 08:21 PM

Explication détaillée de la fonction d'appel système Linux system() L'appel système est une partie très importante du système d'exploitation Linux. Il fournit un moyen d'interagir avec le noyau système. Parmi elles, la fonction system() est l’une des fonctions d’appel système couramment utilisées. Cet article présentera en détail l’utilisation de la fonction system() et fournira des exemples de code correspondants. Concepts de base des appels système Les appels système sont un moyen permettant aux programmes utilisateur d'interagir avec le noyau du système d'exploitation. Les programmes utilisateur demandent au système d'exploitation en appelant des fonctions d'appel système

Explication détaillée de la commande Linux curl Explication détaillée de la commande Linux curl Feb 21, 2024 pm 10:33 PM

Explication détaillée de la commande curl de Linux Résumé : curl est un puissant outil de ligne de commande utilisé pour la communication de données avec le serveur. Cet article présentera l'utilisation de base de la commande curl et fournira des exemples de code réels pour aider les lecteurs à mieux comprendre et appliquer la commande. 1. Qu’est-ce que la boucle ? curl est un outil de ligne de commande utilisé pour envoyer et recevoir diverses requêtes réseau. Il prend en charge plusieurs protocoles, tels que HTTP, FTP, TELNET, etc., et fournit des fonctions riches, telles que le téléchargement de fichiers, le téléchargement de fichiers, la transmission de données, le proxy.

See all articles