


Comment obtenir des données réseau à l'aide du robot d'exploration Web Python
Obtenir des données réseau à l'aide de Python
Obtenir des données sur Internet à l'aide du langage Python est une tâche très courante. Python possède une bibliothèque appelée requêtes, qui est une bibliothèque client HTTP pour Python utilisée pour envoyer des requêtes HTTP aux serveurs Web.
Nous pouvons utiliser la bibliothèque de requêtes pour lancer une requête HTTP vers l'URL spécifiée via le code suivant :
import requests response = requests.get('<http://www.example.com>')
Parmi eux, l'objet response
contiendra la réponse renvoyée par le serveur. Utilisez response.text
pour obtenir le contenu textuel de la réponse. response
对象将包含服务器返回的响应。使用 response.text
可以获取响应的文本内容。
此外,我们还可以使用以下代码获取二进制资源:
import requests response = requests.get('<http://www.example.com/image.png>') with open('image.png', 'wb') as f: f.write(response.content)
使用 response.content
可以获取服务器返回的二进制数据。
编写爬虫代码
爬虫是一种自动化程序,可以通过网络爬取网页数据,并将其存储在数据库或文件中。爬虫在数据采集、信息监控、内容分析等领域有着广泛的应用。Python 语言是爬虫编写的常用语言,因为它具有简单易学、代码量少、库丰富等优点。
我们以“豆瓣电影”为例,介绍如何使用 Python 编写爬虫代码。首先,我们使用 requests 库获取网页的 HTML 代码,然后将整个代码看成一个长字符串,使用正则表达式的捕获组从字符串提取需要的内容。
豆瓣电影 Top250 页面的地址是 https://movie.douban.com/top250?start=0
,其中 start
参数表示从第几个电影开始获取。每页共展示了 25 部电影,如果要获取 Top250 数据,我们共需要访问 10 个页面,对应的地址是 https://movie.douban.com/top250?start=xxx
,这里的 xxx
如果为 0
就是第一页,如果 xxx
的值是 100
,那么我们可以访问到第五页。
我们以获取电影的标题和评分为例,代码如下所示:
import re import requests import time import random for page in range(1, 11): resp = requests.get( url=f'<https://movie.douban.com/top250?start=>{(page - 1) * 25}', headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'} ) # 通过正则表达式获取class属性为title且标签体不以&开头的span标签并用捕获组提取标签内容 pattern1 = re.compile(r'<span class="title">([^&]*?)</span>') titles = pattern1.findall(resp.text) # 通过正则表达式获取class属性为rating_num的span标签并用捕获组提取标签内容 pattern2 = re.compile(r'<span class="rating_num".*?>(.*?)</span>') ranks = pattern2.findall(resp.text) # 使用zip压缩两个列表,循环遍历所有的电影标题和评分 for title, rank in zip(titles, ranks): print(title, rank) # 随机休眠1-5秒,避免爬取页面过于频繁 time.sleep(random.random() * 4 + 1)
在上述代码中,我们通过正则表达式获取标签体为标题和评分的 span 标签,并用捕获组提取标签内容。使用 zip
压缩两个列表,循环遍历所有电影标题和评分。
使用 IP 代理
许多网站对爬虫程序比较反感,因为爬虫程序会耗费掉它们很多的网络带宽,并制造很多无效的流量。为了隐匿身份,通常需要使用 IP 代理来访问网站。商业 IP 代理(如蘑菇代理、芝麻代理、快代理等)是一个好的选择,使用商业 IP 代理可以让被爬取的网站无法获取爬虫程序来源的真实 IP 地址,从而无法简单的通过 IP 地址对爬虫程序进行封禁。
以蘑菇代理为例,我们可以在该网站注册一个账号,然后购买相应的套餐来获得商业 IP 代理。蘑菇代理提供了两种接入代理的方式,分别是 API 私密代理和 HTTP 隧道代理,前者是通过请求蘑菇代理的 API 接口获取代理服务器地址,后者是直接使用统一的代理服务器 IP 和端口。
使用 IP 代理的代码如下所示:
import requests proxies = { 'http': '<http://username:password@ip>:port', 'https': '<https://username:password@ip>:port' } response = requests.get('<http://www.example.com>', proxies=proxies)
其中,username
和 password
分别是蘑菇代理账号的用户名和密码,ip
和 port
response.content
pour obtenir les données binaires renvoyées par le serveur. 🎜🎜Écrire le code du robot🎜🎜Un robot d'exploration est un programme automatisé qui explore les données d'une page Web à travers le réseau et les stocke dans une base de données ou un fichier. Les robots d'exploration sont largement utilisés dans la collecte de données, la surveillance des informations, l'analyse de contenu et d'autres domaines. Le langage Python est un langage couramment utilisé pour l'écriture de robots d'exploration car il présente les avantages d'être facile à apprendre, d'avoir une petite quantité de code et des bibliothèques riches. 🎜🎜Nous prenons "Douban Movie" comme exemple pour présenter comment utiliser Python pour écrire du code de robot. Tout d'abord, nous utilisons la bibliothèque de requêtes pour obtenir le code HTML de la page Web, puis traitons l'intégralité du code comme une longue chaîne et utilisons le groupe de capture de l'expression régulière pour extraire le contenu requis de la chaîne. 🎜🎜L'adresse de la page Douban Movie Top250 est https://movie.douban.com/top250?start=0
, où le paramètre start
indique quel film démarrer depuis. . Un total de 25 films sont affichés sur chaque page. Si nous voulons obtenir les données Top250, nous devons visiter un total de 10 pages. L'adresse correspondante est https://movie.douban.com/top250?start. =xxx
Si xxx
est ici 0
, c'est la première page. Si la valeur de xxx
est 100.
, nous pouvons alors accéder à la page cinq. 🎜🎜Nous prenons comme exemple l'obtention du titre et de la note d'un film. Le code est le suivant : 🎜rrreee🎜Dans le code ci-dessus, nous utilisons des expressions régulières pour obtenir la balise span dont le corps de la balise est le titre et la note, et utilisons un groupe de capture pour extraire le contenu de la balise. Utilisez zip
pour compresser les deux listes, en parcourant tous les titres et classements de films. 🎜🎜Utilisez un proxy IP🎜🎜De nombreux sites Web sont dégoûtés par les robots d'exploration, car ceux-ci consomment une grande partie de la bande passante de leur réseau et créent beaucoup de trafic invalide. Afin de cacher votre identité, vous devez généralement utiliser un proxy IP pour accéder au site Web. Les proxys IP commerciaux (tels que Mushroom Proxy, Sesame Proxy, Fast Proxy, etc.) sont un bon choix. L'utilisation de proxys IP commerciaux peut empêcher le site Web exploré d'obtenir la véritable adresse IP de la source du programme d'exploration, ce qui rend impossible cette opération. utilisez simplement l'adresse IP. Le programme d'exploration est bloqué. 🎜🎜 En prenant Mushroom Agent comme exemple, nous pouvons créer un compte sur le site puis acheter le package correspondant pour obtenir un agent IP commercial. Le proxy Mushroom offre deux façons d'accéder au proxy, à savoir le proxy privé API et le proxy tunnel HTTP. Le premier obtient l'adresse du serveur proxy en demandant l'interface API du proxy Mushroom, et le second utilise directement l'adresse IP et le port du serveur proxy unifié. 🎜🎜Le code d'utilisation du proxy IP est le suivant : 🎜rrreee🎜Parmi eux, username
et password
sont respectivement le nom d'utilisateur et le mot de passe du compte proxy champignon, ip
et port
sont respectivement l'adresse IP et le numéro de port du serveur proxy. Notez que différents fournisseurs de proxy peuvent avoir des méthodes d'accès différentes et doivent être modifiés en conséquence en fonction de la situation réelle. 🎜Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

PHP est principalement la programmation procédurale, mais prend également en charge la programmation orientée objet (POO); Python prend en charge une variété de paradigmes, y compris la POO, la programmation fonctionnelle et procédurale. PHP convient au développement Web, et Python convient à une variété d'applications telles que l'analyse des données et l'apprentissage automatique.

PHP convient au développement Web et au prototypage rapide, et Python convient à la science des données et à l'apprentissage automatique. 1.Php est utilisé pour le développement Web dynamique, avec une syntaxe simple et adapté pour un développement rapide. 2. Python a une syntaxe concise, convient à plusieurs champs et a un écosystème de bibliothèque solide.

Python convient plus aux débutants, avec une courbe d'apprentissage en douceur et une syntaxe concise; JavaScript convient au développement frontal, avec une courbe d'apprentissage abrupte et une syntaxe flexible. 1. La syntaxe Python est intuitive et adaptée à la science des données et au développement back-end. 2. JavaScript est flexible et largement utilisé dans la programmation frontale et côté serveur.

VS Code peut fonctionner sur Windows 8, mais l'expérience peut ne pas être excellente. Assurez-vous d'abord que le système a été mis à jour sur le dernier correctif, puis téléchargez le package d'installation VS Code qui correspond à l'architecture du système et l'installez comme invité. Après l'installation, sachez que certaines extensions peuvent être incompatibles avec Windows 8 et doivent rechercher des extensions alternatives ou utiliser de nouveaux systèmes Windows dans une machine virtuelle. Installez les extensions nécessaires pour vérifier si elles fonctionnent correctement. Bien que le code VS soit possible sur Windows 8, il est recommandé de passer à un système Windows plus récent pour une meilleure expérience de développement et une meilleure sécurité.

Les extensions de code vs posent des risques malveillants, tels que la cachette de code malveillant, l'exploitation des vulnérabilités et la masturbation comme des extensions légitimes. Les méthodes pour identifier les extensions malveillantes comprennent: la vérification des éditeurs, la lecture des commentaires, la vérification du code et l'installation avec prudence. Les mesures de sécurité comprennent également: la sensibilisation à la sécurité, les bonnes habitudes, les mises à jour régulières et les logiciels antivirus.

VS Code peut être utilisé pour écrire Python et fournit de nombreuses fonctionnalités qui en font un outil idéal pour développer des applications Python. Il permet aux utilisateurs de: installer des extensions Python pour obtenir des fonctions telles que la réalisation du code, la mise en évidence de la syntaxe et le débogage. Utilisez le débogueur pour suivre le code étape par étape, trouver et corriger les erreurs. Intégrez Git pour le contrôle de version. Utilisez des outils de mise en forme de code pour maintenir la cohérence du code. Utilisez l'outil de liaison pour repérer les problèmes potentiels à l'avance.

PHP est originaire en 1994 et a été développé par Rasmuslerdorf. Il a été utilisé à l'origine pour suivre les visiteurs du site Web et a progressivement évolué en un langage de script côté serveur et a été largement utilisé dans le développement Web. Python a été développé par Guidovan Rossum à la fin des années 1980 et a été publié pour la première fois en 1991. Il met l'accent sur la lisibilité et la simplicité du code, et convient à l'informatique scientifique, à l'analyse des données et à d'autres domaines.

Dans VS Code, vous pouvez exécuter le programme dans le terminal via les étapes suivantes: Préparez le code et ouvrez le terminal intégré pour vous assurer que le répertoire de code est cohérent avec le répertoire de travail du terminal. Sélectionnez la commande Run en fonction du langage de programmation (tel que Python de Python your_file_name.py) pour vérifier s'il s'exécute avec succès et résoudre les erreurs. Utilisez le débogueur pour améliorer l'efficacité du débogage.
