Qu'est-ce que le robot d'exploration de la bibliothèque de requêtes ? Comment utiliser ? (explication avec exemples)-Tutoriel Python-php.cn

Qu'est-ce que le robot d'exploration de la bibliothèque de requêtes ? Comment utiliser ? (explication avec exemples)

青灯夜游

Libérer： 2018-10-22 16:04:33

avant

3590 Les gens l'ont consulté

Qu'est-ce que le robot d'exploration de la bibliothèque de requêtes ? Comment utiliser ? Cet article vous apporte une introduction à ce qu'est le robot d'exploration de bibliothèque de requêtes ? Comment utiliser ? Expliqué à travers des exemples. Il a une certaine valeur de référence. Les amis dans le besoin peuvent s'y référer. J'espère qu'il vous sera utile.

Utilisez request.get() pour renvoyer l'objet de réponse afin d'explorer les informations d'une seule page JD

import requests
url = "https://item.jd.com/21508090549.html"
try:
	r = requests.get(url)
	r.raise_for_status()          #检验http状态码是否为200
	r.encoding = r.apparent_encoding#识别页面正确编码
	print(r.text[:1000])
except:
	print("爬取失败")

Copier après la connexion

Si vous utilisez le code ci-dessus pour accéder à la page Amazon, vous explorerez le message d'erreur car les robots Amazon Le protocole définit que les navigateurs non traditionnels ne sont pas autorisés à accéder à la page, donc « l'agent utilisateur » dans les informations d'accès de la demande doit être défini

import requests
url = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
	#kv = {&#39;user-agent&#39;:&#39;Mozilla/5.0&#39;}#假装访问浏览器为Mozilla/5.0
	r = requests.get(url)
	r.raise_for_status()#检验http状态码是否为200
	r.encoding = r.apparent_encoding#识别页面正确编码
	print(r.text[:1000])
except:
	print("爬取失败")

Copier après la connexion

Utilisez le code pour imiter Baidu /360 search

Vous devez ajouter le paramètre 'wd=..'/360 de Baidu à l'url qui est 'q=...'

import requests
url = "http://www.baidu.com/s"
keyword="python"
try:
	kv = {&#39;wd&#39;:key}
	r = requests.get(url,params=kv)
	print(r.request.url)
	r.raise_for_status()#检验http状态码是否为200
	r.encoding = r.apparent_encoding#识别页面正确编码
	print(len(r.text))#由于信息量可能特别大，这里只输出长度
except:
	print("爬取失败")

Copier après la connexion

Explorer et enregistrer l'image

import requests
import os
url = "https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1540201265460&di=64720dcd3bbc24b7d855454028173deb&imgtype=0&src=http%3A%2F%2Fpic34.photophoto.cn%2F20150105%2F0005018358919011_b.jpg"
root = "D://pics//"
path = root + url.split(&#39;.&#39;)[-2]+&#39;.&#39;+url.split(&#39;.&#39;)[-1]#得到文件名，生成文件路径
if not os.path.exists(root):
	os.mkdir(root)#如果目录不存在，创建目录
if not os.path.exists(path):#如果文件不存在爬取文件并保存
	r = requests.get(url)
	with open(path,&#39;wb&#39;) as f:#打开文件对象
		f.write(r.content)#写入爬取的图片
		f.close()
		print("文件保存成功")
else:
	print("文件已存在")

Copier après la connexion

Résumé : Ce qui précède représente l'intégralité du contenu de cet article, j'espère qu'il sera utile à l'étude de chacun. Pour plus de didacticiels connexes, veuillez visiter le Tutoriel vidéo C# !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!