分别用python2和python3伪装浏览器爬取网页内容
Oct 18, 2016 pm 01:55 PMpython网页抓取功能非常强大,使用urllib或者urllib2可以很轻松的抓取网页内容。但是很多时候我们要注意,可能很多网站都设置了防采集功能,不是那么轻松就能抓取到想要的内容。
今天我来分享下载python2和python3中都是如何来模拟浏览器来跳过屏蔽进行抓取的。
最基础的抓取:
#! /usr/bin/env python # -*- coding=utf-8 -*- # @Author pythontab import urllib.request url = "http://www.pythontab.com" html = urllib.request.urlopen(url).read() print(html)
但是...有些网站不能抓取,进行了防采集设置,所以我们要变换一下方法
python2中(最新稳定版本python2.7)
#! /usr/bin/env python # -*- coding=utf-8 -*- # @Author pythontab.com import urllib2 url="http://pythontab.com" req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11', 'Accept':'text/html;q=0.9,*/*;q=0.8', 'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3', 'Accept-Encoding':'gzip', 'Connection':'close', 'Referer':None #注意如果依然不能抓取的话,这里可以设置抓取网站的host } req_timeout = 5 req = urllib2.Request(url,None,req_header) resp = urllib2.urlopen(req,None,req_timeout) html = resp.read() print(html)
python3中(最新稳定版本python3.3)
#! /usr/bin/env python # -*- coding=utf-8 -*- # @Author pythontab import urllib.request url = "http://www.pythontab.com" headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11', 'Accept':'text/html;q=0.9,*/*;q=0.8', 'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3', 'Accept-Encoding':'gzip', 'Connection':'close', 'Referer':None #注意如果依然不能抓取,这里可以设置抓取网站的host } opener = urllib.request.build_opener() opener.addheaders = [headers] data = opener.open(url).read() print(data)

Article chaud

Outils chauds Tags

Article chaud

Tags d'article chaud

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Comment changer le navigateur pour la version ordinateur de la page ? Miaodong : Comment configurer le navigateur mobile pour la version ordinateur de la page ?

Comment configurer le navigateur pour qu'il démarre automatiquement au démarrage ? Comment ouvrir automatiquement le navigateur au démarrage de Win11 ?

Étapes pour résoudre le problème selon lequel le navigateur du système Win7 affiche toujours automatiquement la page Web

Sesame Open Door Site officiel Sesame Open Door application Dernier site Web entrant

Effacez le registre de Google Chrome et nettoyez les résidus restants de la désinstallation de Google Chrome

La dernière version de l'entrée du site officiel de la porte ouverte Sesame Gate.io Entrée de l'adresse du lien du site Web officiel

Gate.io Sesame Doad Download Chinois Tutoriel

Raisons et solutions de la vitesse lente du réseau du navigateur (exploration des raisons de la vitesse lente du réseau du navigateur)
