Heim Backend-Entwicklung Python-Tutorial Detaillierte Beschreibung des 403-Zugriffsverbotsfehlers im Python-Crawler

Detaillierte Beschreibung des 403-Zugriffsverbotsfehlers im Python-Crawler

Mar 13, 2017 am 09:44 AM

In diesem Artikel werden hauptsächlich relevante Informationen zur detaillierten Erklärung des 403-Zugriffsverbotsfehlers im Python-Crawler vorgestellt.

Der Python-Crawler behebt den 403-Zugriffsverbotsfehler

Beim Schreiben eines Crawlers in Python tritt bei html.getcode() das 403-Zugriffsverbot auf. Dies ist ein Verbot automatisierter Crawler auf der Website. Um dieses Problem zu lösen, müssen Sie das Python-Modul urllib2 verwenden

Das urllib2-Modul ist ein erweitertes Crawler-Crawling-Modul. Es gibt viele Methoden. Wenn Sie beispielsweise eine Verbindung mit url=http://blog.csdn.NET/qysh123 herstellen, liegt möglicherweise ein 403-Zugriffsverbotsproblem vor Diese Verbindung

Um dieses Problem zu lösen, benötigen Sie die folgenden Schritte:


<span style="font-size:18px;">req = urllib2.Request(url) 
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36") 
req.add_header("GET",url) 
req.add_header("Host","blog.csdn.net") 
req.add_header("Referer","http://blog.csdn.net/")</span>
Nach dem Login kopieren

wobei User-Agent ein browserspezifischer < ist 🎜> Attribut, Sie können den Quellcode über den Browser anzeigen, um

anzuzeigen, und dann


html=urllib2.urlopen(req)


print html.read()
Nach dem Login kopieren
, um die gesamte Webseite herunterzuladen Code ohne 403 Verbotene Zugriffsprobleme.

Für die oben genannten Probleme kann es in eine

Funktion gekapselt werden, um zukünftige Anrufe zu vereinfachen. Der spezifische Code:


#-*-coding:utf-8-*- 
 
import urllib2 
import random 
 
url=&quot;http://blog.csdn.net/qysh123/article/details/44564943&quot; 
 
my_headers=[&quot;Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36&quot;, 
&quot;Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36&quot;, 
&quot;Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0&quot; 
&quot;Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14&quot;, 
&quot;Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)&quot; 
   
] 
def get_content(url,headers): 
  &#39;&#39;&#39;&#39;&#39; 
  @获取403禁止访问的网页 
  &#39;&#39;&#39; 
  randdom_header=random.choice(headers) 
 
  req=urllib2.Request(url) 
  req.add_header(&quot;User-Agent&quot;,randdom_header) 
  req.add_header(&quot;Host&quot;,&quot;blog.csdn.net&quot;) 
  req.add_header(&quot;Referer&quot;,&quot;http://blog.csdn.net/&quot;) 
  req.add_header(&quot;GET&quot;,url) 
 
  content=urllib2.urlopen(req).read() 
  return content 
 
print get_content(url,my_headers)
Nach dem Login kopieren
Die Zufallsfunktion wird verwendet, um automatisch die User-Agent-Informationen des geschriebenen Browsertyps abzurufen. In der

benutzerdefinierten Funktion müssen Sie Ihre eigenen Host-, Referrer- und GET-Informationen schreiben. usw., um diese Probleme zu lösen. Nach diesem Problem können Sie problemlos darauf zugreifen und die 403-Zugriffsinformationen werden nicht mehr angezeigt.

Wenn die Zugriffshäufigkeit zu schnell ist, werden einige Websites natürlich trotzdem gefiltert. Um dieses Problem zu lösen, müssen Sie eine Proxy-IP-Methode verwenden. . . Lösen Sie es gezielt selbst


Vielen Dank fürs Lesen, ich hoffe, es kann allen helfen, vielen Dank für Ihre Unterstützung dieser Website!

Das obige ist der detaillierte Inhalt vonDetaillierte Beschreibung des 403-Zugriffsverbotsfehlers im Python-Crawler. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße Artikel -Tags

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Wie benutze ich eine schöne Suppe, um HTML zu analysieren? Wie benutze ich eine schöne Suppe, um HTML zu analysieren? Mar 10, 2025 pm 06:54 PM

Wie benutze ich eine schöne Suppe, um HTML zu analysieren?

Bildfilterung in Python Bildfilterung in Python Mar 03, 2025 am 09:44 AM

Bildfilterung in Python

So herunterladen Sie Dateien in Python So herunterladen Sie Dateien in Python Mar 01, 2025 am 10:03 AM

So herunterladen Sie Dateien in Python

So verwenden Sie Python, um die ZiPF -Verteilung einer Textdatei zu finden So verwenden Sie Python, um die ZiPF -Verteilung einer Textdatei zu finden Mar 05, 2025 am 09:58 AM

So verwenden Sie Python, um die ZiPF -Verteilung einer Textdatei zu finden

Intro zu Flask: Hinzufügen einer Kontaktseite Hinzufügen Intro zu Flask: Hinzufügen einer Kontaktseite Hinzufügen Feb 28, 2025 am 10:03 AM

Intro zu Flask: Hinzufügen einer Kontaktseite Hinzufügen

Wie man mit PDF -Dokumenten mit Python arbeitet Wie man mit PDF -Dokumenten mit Python arbeitet Mar 02, 2025 am 09:54 AM

Wie man mit PDF -Dokumenten mit Python arbeitet

Wie kann man mit Redis in Django -Anwendungen zwischenstrichen Wie kann man mit Redis in Django -Anwendungen zwischenstrichen Mar 02, 2025 am 10:10 AM

Wie kann man mit Redis in Django -Anwendungen zwischenstrichen

Wie führe ich ein tiefes Lernen mit Tensorflow oder Pytorch durch? Wie führe ich ein tiefes Lernen mit Tensorflow oder Pytorch durch? Mar 10, 2025 pm 06:52 PM

Wie führe ich ein tiefes Lernen mit Tensorflow oder Pytorch durch?

See all articles