Der Python-Crawler gibt eine 403-Fehlerlösung zurück

伊谢尔伦
Freigeben: 2017-04-29 10:05:50
Original
6455 Leute haben es durchsucht

Problem

Beim Crawlen von Daten lauten die Debugging-Informationen normalerweise wie folgt:

DEBUG: Crawled (200) <GET http://www.php.cn/> (referer: None)
Nach dem Login kopieren

Wenn

DEBUG: Crawled (403) <GET http://www.php.cn/> (referer: None)
Nach dem Login kopieren

erscheint, bedeutet dies, dass die Website Anti-Web verwendet Technologie – Crawling-Technik (von Amazon verwendet), die relativ einfach ist und die Informationen des Benutzeragenten (User Agent) überprüft.

Lösung

Erstellen Sie einen Benutzeragenten im Anforderungsheader, wie unten gezeigt:

def start_requests(self):  
    yield Request("http://www.php.cn/",  
                  headers={&#39;User-Agent&#39;: "your agent string"})
Nach dem Login kopieren


Das obige ist der detaillierte Inhalt vonDer Python-Crawler gibt eine 403-Fehlerlösung zurück. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage