Problem
Beim Crawlen von Daten lauten die Debugging-Informationen normalerweise wie folgt:
DEBUG: Crawled (200) <GET http://www.php.cn/> (referer: None)
Wenn
DEBUG: Crawled (403) <GET http://www.php.cn/> (referer: None)
erscheint, bedeutet dies, dass die Website Anti-Web verwendet Technologie – Crawling-Technik (von Amazon verwendet), die relativ einfach ist und die Informationen des Benutzeragenten (User Agent) überprüft.
Lösung
Erstellen Sie einen Benutzeragenten im Anforderungsheader, wie unten gezeigt:
def start_requests(self): yield Request("http://www.php.cn/", headers={'User-Agent': "your agent string"})
Das obige ist der detaillierte Inhalt vonDer Python-Crawler gibt eine 403-Fehlerlösung zurück. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!