Maison développement back-end Tutoriel Python 分别用python2和python3伪装浏览器爬取网页内容

分别用python2和python3伪装浏览器爬取网页内容

Oct 18, 2016 pm 01:55 PM
python2 python3 浏览器 爬取

python网页抓取功能非常强大,使用urllib或者urllib2可以很轻松的抓取网页内容。但是很多时候我们要注意,可能很多网站都设置了防采集功能,不是那么轻松就能抓取到想要的内容。

今天我来分享下载python2和python3中都是如何来模拟浏览器来跳过屏蔽进行抓取的。

最基础的抓取:

#! /usr/bin/env python
# -*- coding=utf-8 -*-
# @Author pythontab
import urllib.request
url = "http://www.pythontab.com"
html = urllib.request.urlopen(url).read()
print(html)
Copier après la connexion

但是...有些网站不能抓取,进行了防采集设置,所以我们要变换一下方法

python2中(最新稳定版本python2.7)

#! /usr/bin/env python
# -*- coding=utf-8 -*-
# @Author pythontab.com
import urllib2
url="http://pythontab.com"
req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
             'Accept':'text/html;q=0.9,*/*;q=0.8',
             'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
             'Accept-Encoding':'gzip',
             'Connection':'close',
             'Referer':None #注意如果依然不能抓取的话,这里可以设置抓取网站的host
             }
req_timeout = 5
req = urllib2.Request(url,None,req_header)
resp = urllib2.urlopen(req,None,req_timeout)
html = resp.read()
print(html)
Copier après la connexion

python3中(最新稳定版本python3.3)

#! /usr/bin/env python
# -*- coding=utf-8 -*-
# @Author pythontab
import urllib.request
  
url = "http://www.pythontab.com"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
             'Accept':'text/html;q=0.9,*/*;q=0.8',
             'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
             'Accept-Encoding':'gzip',
             'Connection':'close',
             'Referer':None #注意如果依然不能抓取,这里可以设置抓取网站的host
             }
  
opener = urllib.request.build_opener()
opener.addheaders = [headers]
data = opener.open(url).read()
print(data)
Copier après la connexion


Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article chaud

Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD
Repo: Comment relancer ses coéquipiers
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Musée à deux points: toutes les expositions et où les trouver
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Article chaud

Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD
Repo: Comment relancer ses coéquipiers
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Musée à deux points: toutes les expositions et où les trouver
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Tags d'article chaud

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment changer le navigateur pour la version ordinateur de la page ? Miaodong : Comment configurer le navigateur mobile pour la version ordinateur de la page ? Comment changer le navigateur pour la version ordinateur de la page ? Miaodong : Comment configurer le navigateur mobile pour la version ordinateur de la page ? Mar 20, 2024 pm 04:31 PM

Comment changer le navigateur pour la version ordinateur de la page ? Miaodong : Comment configurer le navigateur mobile pour la version ordinateur de la page ?

Comment configurer le navigateur pour qu'il démarre automatiquement au démarrage ? Comment ouvrir automatiquement le navigateur au démarrage de Win11 ? Comment configurer le navigateur pour qu'il démarre automatiquement au démarrage ? Comment ouvrir automatiquement le navigateur au démarrage de Win11 ? Jun 12, 2024 pm 07:58 PM

Comment configurer le navigateur pour qu'il démarre automatiquement au démarrage ? Comment ouvrir automatiquement le navigateur au démarrage de Win11 ?

Étapes pour résoudre le problème selon lequel le navigateur du système Win7 affiche toujours automatiquement la page Web Étapes pour résoudre le problème selon lequel le navigateur du système Win7 affiche toujours automatiquement la page Web Mar 26, 2024 pm 09:30 PM

Étapes pour résoudre le problème selon lequel le navigateur du système Win7 affiche toujours automatiquement la page Web

Sesame Open Door Site officiel Sesame Open Door application Dernier site Web entrant Sesame Open Door Site officiel Sesame Open Door application Dernier site Web entrant Feb 28, 2025 am 11:18 AM

Sesame Open Door Site officiel Sesame Open Door application Dernier site Web entrant

Effacez le registre de Google Chrome et nettoyez les résidus restants de la désinstallation de Google Chrome Effacez le registre de Google Chrome et nettoyez les résidus restants de la désinstallation de Google Chrome Jun 19, 2024 am 11:09 AM

Effacez le registre de Google Chrome et nettoyez les résidus restants de la désinstallation de Google Chrome

La dernière version de l'entrée du site officiel de la porte ouverte Sesame Gate.io Entrée de l'adresse du lien du site Web officiel La dernière version de l'entrée du site officiel de la porte ouverte Sesame Gate.io Entrée de l'adresse du lien du site Web officiel Feb 28, 2025 am 11:21 AM

La dernière version de l'entrée du site officiel de la porte ouverte Sesame Gate.io Entrée de l'adresse du lien du site Web officiel

Gate.io Sesame Doad Download Chinois Tutoriel Gate.io Sesame Doad Download Chinois Tutoriel Feb 28, 2025 am 10:54 AM

Gate.io Sesame Doad Download Chinois Tutoriel

Raisons et solutions de la vitesse lente du réseau du navigateur (exploration des raisons de la vitesse lente du réseau du navigateur) Raisons et solutions de la vitesse lente du réseau du navigateur (exploration des raisons de la vitesse lente du réseau du navigateur) Apr 25, 2024 pm 03:49 PM

Raisons et solutions de la vitesse lente du réseau du navigateur (exploration des raisons de la vitesse lente du réseau du navigateur)

See all articles