Was ist der Anforderungsbibliotheks-Crawler? Wie benutzt man? (Erklärung mit Beispielen)-Python-Tutorial-php.cn

Was ist der Anforderungsbibliotheks-Crawler? Wie benutzt man? (Erklärung mit Beispielen)

青灯夜游

Freigeben： 2018-10-22 16:04:33

nach vorne

3610 Leute haben es durchsucht

Was ist der Anforderungsbibliotheks-Crawler? Wie benutzt man? Dieser Artikel bietet Ihnen eine Einführung in den Anforderungsbibliotheks-Crawler. Wie benutzt man? Anhand von Beispielen erklärt. Es hat einen gewissen Referenzwert. Freunde in Not können sich darauf beziehen. Ich hoffe, es wird Ihnen hilfreich sein.

Verwenden Sie request.get(), um das Antwortobjekt zurückzugeben und einzelne JD-Seiteninformationen zu crawlen.

import requests
url = "https://item.jd.com/21508090549.html"
try:
	r = requests.get(url)
	r.raise_for_status()          #检验http状态码是否为200
	r.encoding = r.apparent_encoding#识别页面正确编码
	print(r.text[:1000])
except:
	print("爬取失败")

Nach dem Login kopieren

Wenn Sie den obigen Code verwenden, um auf die Amazon-Seite zuzugreifen, wird beim Crawlen ein Fehler angezeigt Nachricht aufgrund des Amazon-Robots-Protokolls Es ist definiert, dass Nicht-Mainstream-Browser nicht auf die Seite zugreifen dürfen, daher verwendet die „User-Agent“-Einstellung in den Anforderungszugriffsinformationen

import requests
url = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
	#kv = {&#39;user-agent&#39;:&#39;Mozilla/5.0&#39;}#假装访问浏览器为Mozilla/5.0
	r = requests.get(url)
	r.raise_for_status()#检验http状态码是否为200
	r.encoding = r.apparent_encoding#识别页面正确编码
	print(r.text[:1000])
except:
	print("爬取失败")

Nach dem Login kopieren

Code, um Baidu/360 zu imitieren Suche

muss in der URL enthalten sein. Fügen Sie den Parameter Baidus 'wd=..'/360 ist 'q=...' hinzu.

import requests
url = "http://www.baidu.com/s"
keyword="python"
try:
	kv = {&#39;wd&#39;:key}
	r = requests.get(url,params=kv)
	print(r.request.url)
	r.raise_for_status()#检验http状态码是否为200
	r.encoding = r.apparent_encoding#识别页面正确编码
	print(len(r.text))#由于信息量可能特别大，这里只输出长度
except:
	print("爬取失败")

Nach dem Login kopieren

Crawlen und speichern Sie das Bild

import requests
import os
url = "https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1540201265460&di=64720dcd3bbc24b7d855454028173deb&imgtype=0&src=http%3A%2F%2Fpic34.photophoto.cn%2F20150105%2F0005018358919011_b.jpg"
root = "D://pics//"
path = root + url.split(&#39;.&#39;)[-2]+&#39;.&#39;+url.split(&#39;.&#39;)[-1]#得到文件名，生成文件路径
if not os.path.exists(root):
	os.mkdir(root)#如果目录不存在，创建目录
if not os.path.exists(path):#如果文件不存在爬取文件并保存
	r = requests.get(url)
	with open(path,&#39;wb&#39;) as f:#打开文件对象
		f.write(r.content)#写入爬取的图片
		f.close()
		print("文件保存成功")
else:
	print("文件已存在")

Nach dem Login kopieren

Zusammenfassung: Das Obige ist der gesamte Inhalt dieses Artikels. Ich hoffe, er kann für das Studium aller hilfreich sein. Weitere verwandte Tutorials finden Sie unter C#-Video-Tutorial!

Das obige ist der detaillierte Inhalt vonWas ist der Anforderungsbibliotheks-Crawler? Wie benutzt man? (Erklärung mit Beispielen). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!