Heim Backend-Entwicklung Python-Tutorial Wie Scrapy Proxy-IP, Benutzeragenten und Cookies verwendet, um Anti-Crawler-Strategien zu vermeiden

Wie Scrapy Proxy-IP, Benutzeragenten und Cookies verwendet, um Anti-Crawler-Strategien zu vermeiden

Jun 23, 2023 pm 01:22 PM
cookies 代理ip user agent

Mit der Entwicklung von Webcrawlern beginnen immer mehr Websites und Server, Anti-Crawler-Strategien einzuführen, um zu verhindern, dass Daten in böswilliger Absicht gecrawlt werden. Zu diesen Strategien gehören IP-Blockierung, Erkennung von Benutzeragenten, Überprüfung von Cookies usw. Ohne eine entsprechende Reaktionsstrategie können unsere Crawler leicht als bösartig eingestuft und gesperrt werden. Um diese Situation zu vermeiden, müssen wir daher Richtlinien wie Proxy-IP, Benutzeragent und Cookies im Crawler-Programm des Scrapy-Frameworks anwenden. In diesem Artikel wird detailliert beschrieben, wie diese drei Strategien angewendet werden.

  1. Proxy-IP

Proxy-IP kann unsere echte IP-Adresse effektiv umwandeln und so verhindern, dass der Server unser Crawler-Programm erkennt. Gleichzeitig gibt uns die Proxy-IP auch die Möglichkeit, unter mehreren IPs zu kriechen, wodurch vermieden wird, dass eine einzelne IP aufgrund häufiger Anfragen blockiert wird.

In Scrapy können wir Middleware verwenden, um Proxy-IP-Einstellungen zu implementieren. Zuerst müssen wir relevante Konfigurationen in Settings.py vornehmen, zum Beispiel:

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': None,
    'scrapy_proxies.RandomProxy': 100,
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,
}
Nach dem Login kopieren

In der obigen Konfiguration verwenden wir die Bibliothek scrapy_proxies, um die Proxy-IP-Einstellungen zu implementieren. Unter diesen stellt 100 die Priorität dar, und je kleiner der Wert, desto höher die Priorität. Nach dieser Einstellung wählt Scrapy während des Anfragevorgangs zufällig eine IP-Adresse aus dem Proxy-IP-Pool aus, um die Anfrage zu stellen.

Natürlich können wir auch die Proxy-IP-Quelle anpassen. Beispielsweise können wir die von der kostenlosen Proxy-IP-Website bereitgestellte API verwenden, um die Proxy-IP abzurufen. Das Codebeispiel lautet wie folgt:

class GetProxy(object):
    def __init__(self, proxy_url):
        self.proxy_url = proxy_url

    def get_proxy_ip(self):
        response = requests.get(self.proxy_url)
        if response.status_code == 200:
            json_data = json.loads(response.text)
            proxy = json_data.get('proxy')
            return proxy
        else:
            return None


class RandomProxyMiddleware(object):
    def __init__(self):
        self.proxy_url = 'http://api.xdaili.cn/xdaili-api//greatRecharge/getGreatIp?spiderId=e2f1f0cc6c5e4ef19f884ea6095deda9&orderno=YZ20211298122hJ9cz&returnType=2&count=1'
        self.get_proxy = GetProxy(self.proxy_url)

    def process_request(self, request, spider):
        proxy = self.get_proxy.get_proxy_ip()
        if proxy:
            request.meta['proxy'] = 'http://' + proxy
Nach dem Login kopieren

Im obigen Code definieren wir eine RandomProxyMiddleware-Klasse und verwenden die Requests-Bibliothek, um die Proxy-IP zu erhalten. Durch Hinzufügen der Proxy-IP zum Anforderungsheader können wir die Proxy-IP festlegen.

  1. Benutzeragent

Der Benutzeragent ist Teil des Identifizierungsanforderungsheaders, der Informationen wie das Gerät, das Betriebssystem und den Browser enthält, der die Anforderung initiiert hat. Wenn viele Server Anforderungen verarbeiten, verwenden sie die Benutzeragenteninformationen im Anforderungsheader, um zu bestimmen, ob es sich bei der Anforderung um einen Crawler handelt, und führen so eine Anti-Crawler-Verarbeitung durch.

Ähnlich können wir in Scrapy Middleware verwenden, um Benutzeragenteneinstellungen zu implementieren. Zum Beispiel:

class RandomUserAgent(object):
    def __init__(self):
        self.user_agents = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3']
                  
    def process_request(self, request, spider):
        user_agent = random.choice(self.user_agents)
        request.headers.setdefault('User-Agent', user_agent)
Nach dem Login kopieren

Im obigen Code definieren wir eine RandomUserAgent-Klasse und wählen zufällig einen User-Agent als User-Agent-Informationen im Anforderungsheader aus. Selbst wenn unser Crawler eine große Anzahl von Anfragen sendet, kann er so vermeiden, dass er vom Server als bösartiger Crawler eingestuft wird.

  1. Cookies

Cookies sind Daten, die der Server über das Set-Cookie-Feld im Antwortheader zurückgibt, wenn er auf eine Anfrage antwortet. Wenn der Browser erneut eine Anfrage an den Server initiiert, werden die vorherigen Cookie-Informationen in den Anfrageheader aufgenommen, um die Anmeldebestätigung und andere Vorgänge durchzuführen.

Ähnlich können wir in Scrapy auch Cookies über Middleware setzen. Zum Beispiel:

class RandomCookies(object):
    def __init__(self):
        self.cookies = {
            'example_cookie': 'example_value'
        }
                  
    def process_request(self, request, spider):
        cookie = random.choice(self.cookies)
        request.cookies = cookie
Nach dem Login kopieren

Im obigen Code definieren wir eine RandomCookies-Klasse und wählen zufällig ein Cookie als Cookie-Informationen im Anforderungsheader aus. Auf diese Weise können wir Anmeldeüberprüfungsvorgänge implementieren, indem wir während des Anfragevorgangs Cookies setzen.

Zusammenfassung

Bei der Verwendung von Scrapy zum Daten-Crawling ist es sehr wichtig, die Ideen und Methoden von Anti-Crawler-Strategien zu vermeiden. In diesem Artikel wird detailliert beschrieben, wie Sie Proxy-IP, Benutzeragenten, Cookies und andere Richtlinien über Middleware in Scrapy festlegen, um das Crawler-Programm versteckter und sicherer zu machen.

Das obige ist der detaillierte Inhalt vonWie Scrapy Proxy-IP, Benutzeragenten und Cookies verwendet, um Anti-Crawler-Strategien zu vermeiden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Wie löste ich das Problem der Berechtigungen beim Betrachten der Python -Version in Linux Terminal? Wie löste ich das Problem der Berechtigungen beim Betrachten der Python -Version in Linux Terminal? Apr 01, 2025 pm 05:09 PM

Lösung für Erlaubnisprobleme beim Betrachten der Python -Version in Linux Terminal Wenn Sie versuchen, die Python -Version in Linux Terminal anzuzeigen, geben Sie Python ein ...

Wie kann ich die gesamte Spalte eines Datenrahmens effizient in einen anderen Datenrahmen mit verschiedenen Strukturen in Python kopieren? Wie kann ich die gesamte Spalte eines Datenrahmens effizient in einen anderen Datenrahmen mit verschiedenen Strukturen in Python kopieren? Apr 01, 2025 pm 11:15 PM

Bei der Verwendung von Pythons Pandas -Bibliothek ist das Kopieren von ganzen Spalten zwischen zwei Datenrahmen mit unterschiedlichen Strukturen ein häufiges Problem. Angenommen, wir haben zwei Daten ...

Wie lehre ich innerhalb von 10 Stunden die Grundlagen für Computer-Anfänger-Programmierbasis in Projekt- und problemorientierten Methoden? Wie lehre ich innerhalb von 10 Stunden die Grundlagen für Computer-Anfänger-Programmierbasis in Projekt- und problemorientierten Methoden? Apr 02, 2025 am 07:18 AM

Wie lehre ich innerhalb von 10 Stunden die Grundlagen für Computer -Anfänger für Programmierungen? Wenn Sie nur 10 Stunden Zeit haben, um Computer -Anfänger zu unterrichten, was Sie mit Programmierkenntnissen unterrichten möchten, was würden Sie dann beibringen ...

Wie kann man vom Browser vermeiden, wenn man überall Fiddler für das Lesen des Menschen in der Mitte verwendet? Wie kann man vom Browser vermeiden, wenn man überall Fiddler für das Lesen des Menschen in der Mitte verwendet? Apr 02, 2025 am 07:15 AM

Wie kann man nicht erkannt werden, wenn Sie Fiddlereverywhere für Man-in-the-Middle-Lesungen verwenden, wenn Sie FiddLereverywhere verwenden ...

Was sind reguläre Ausdrücke? Was sind reguläre Ausdrücke? Mar 20, 2025 pm 06:25 PM

Regelmäßige Ausdrücke sind leistungsstarke Tools für Musteranpassung und Textmanipulation in der Programmierung, wodurch die Effizienz bei der Textverarbeitung in verschiedenen Anwendungen verbessert wird.

Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen ohne Serving_forver () an? Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen ohne Serving_forver () an? Apr 01, 2025 pm 10:51 PM

Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen an? Uvicorn ist ein leichter Webserver, der auf ASGI basiert. Eine seiner Kernfunktionen ist es, auf HTTP -Anfragen zu hören und weiterzumachen ...

Was sind einige beliebte Python -Bibliotheken und ihre Verwendung? Was sind einige beliebte Python -Bibliotheken und ihre Verwendung? Mar 21, 2025 pm 06:46 PM

In dem Artikel werden beliebte Python-Bibliotheken wie Numpy, Pandas, Matplotlib, Scikit-Learn, TensorFlow, Django, Flask und Anfragen erörtert, die ihre Verwendung in wissenschaftlichen Computing, Datenanalyse, Visualisierung, maschinellem Lernen, Webentwicklung und h beschreiben

Wie erstelle ich dynamisch ein Objekt über eine Zeichenfolge und rufe seine Methoden in Python auf? Wie erstelle ich dynamisch ein Objekt über eine Zeichenfolge und rufe seine Methoden in Python auf? Apr 01, 2025 pm 11:18 PM

Wie erstellt in Python ein Objekt dynamisch über eine Zeichenfolge und ruft seine Methoden auf? Dies ist eine häufige Programmieranforderung, insbesondere wenn sie konfiguriert oder ausgeführt werden muss ...

See all articles