Was ist der Anforderungsbibliotheks-Crawler? Wie benutzt man? Dieser Artikel bietet Ihnen eine Einführung in den Anforderungsbibliotheks-Crawler. Wie benutzt man? Anhand von Beispielen erklärt. Es hat einen gewissen Referenzwert. Freunde in Not können sich darauf beziehen. Ich hoffe, es wird Ihnen hilfreich sein.
Verwenden Sie request.get(), um das Antwortobjekt zurückzugeben und einzelne JD-Seiteninformationen zu crawlen.
import requests url = "https://item.jd.com/21508090549.html" try: r = requests.get(url) r.raise_for_status() #检验http状态码是否为200 r.encoding = r.apparent_encoding#识别页面正确编码 print(r.text[:1000]) except: print("爬取失败")
Wenn Sie den obigen Code verwenden, um auf die Amazon-Seite zuzugreifen, wird beim Crawlen ein Fehler angezeigt Nachricht aufgrund des Amazon-Robots-Protokolls Es ist definiert, dass Nicht-Mainstream-Browser nicht auf die Seite zugreifen dürfen, daher verwendet die „User-Agent“-Einstellung in den Anforderungszugriffsinformationen
import requests url = "https://www.amazon.cn/gp/product/B01M8L5Z3Y" try: #kv = {'user-agent':'Mozilla/5.0'}#假装访问浏览器为Mozilla/5.0 r = requests.get(url) r.raise_for_status()#检验http状态码是否为200 r.encoding = r.apparent_encoding#识别页面正确编码 print(r.text[:1000]) except: print("爬取失败")
Code, um Baidu/360 zu imitieren Suche
muss in der URL enthalten sein. Fügen Sie den Parameter Baidus 'wd=..'/360 ist 'q=...' hinzu.
import requests url = "http://www.baidu.com/s" keyword="python" try: kv = {'wd':key} r = requests.get(url,params=kv) print(r.request.url) r.raise_for_status()#检验http状态码是否为200 r.encoding = r.apparent_encoding#识别页面正确编码 print(len(r.text))#由于信息量可能特别大,这里只输出长度 except: print("爬取失败")
Crawlen und speichern Sie das Bild
import requests import os url = "https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1540201265460&di=64720dcd3bbc24b7d855454028173deb&imgtype=0&src=http%3A%2F%2Fpic34.photophoto.cn%2F20150105%2F0005018358919011_b.jpg" root = "D://pics//" path = root + url.split('.')[-2]+'.'+url.split('.')[-1]#得到文件名,生成文件路径 if not os.path.exists(root): os.mkdir(root)#如果目录不存在,创建目录 if not os.path.exists(path):#如果文件不存在爬取文件并保存 r = requests.get(url) with open(path,'wb') as f:#打开文件对象 f.write(r.content)#写入爬取的图片 f.close() print("文件保存成功") else: print("文件已存在")
Zusammenfassung: Das Obige ist der gesamte Inhalt dieses Artikels. Ich hoffe, er kann für das Studium aller hilfreich sein. Weitere verwandte Tutorials finden Sie unter C#-Video-Tutorial!
Das obige ist der detaillierte Inhalt vonWas ist der Anforderungsbibliotheks-Crawler? Wie benutzt man? (Erklärung mit Beispielen). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!