Rumah pembangunan bahagian belakang Tutorial Python Cara Scrapy menggunakan IP proksi, ejen pengguna dan kuki untuk mengelakkan strategi anti perangkak

Cara Scrapy menggunakan IP proksi, ejen pengguna dan kuki untuk mengelakkan strategi anti perangkak

Jun 23, 2023 pm 01:22 PM
cookies ip proksi user agent

Dengan pembangunan perangkak web, semakin banyak tapak web dan pelayan mula menggunakan strategi anti perangkak untuk mengelakkan data daripada dirangkak secara berniat jahat. Strategi ini termasuk penyekatan IP, pengesanan ejen pengguna, pengesahan Kuki, dsb. Tanpa strategi tindak balas yang sepadan, perangkak kami dengan mudah boleh dilabel sebagai berniat jahat dan diharamkan. Oleh itu, untuk mengelakkan situasi ini, kami perlu menggunakan dasar seperti IP proksi, ejen pengguna dan kuki dalam program perangkak rangka kerja Scrapy. Artikel ini akan memperkenalkan secara terperinci cara menggunakan ketiga-tiga strategi ini.

  1. IP Proksi

IP Proksi boleh mengubah alamat IP sebenar kami dengan berkesan, sekali gus menghalang pelayan daripada mengesan program perangkak kami. Pada masa yang sama, IP proksi juga memberi kami peluang untuk merangkak di bawah berbilang IP, dengan itu mengelakkan situasi di mana satu IP disekat kerana permintaan yang kerap.

Dalam Scrapy, kita boleh menggunakan middlewares untuk menetapkan IP proksi. Mula-mula, kita perlu membuat konfigurasi yang berkaitan dalam settings.py, contohnya:

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': None,
    'scrapy_proxies.RandomProxy': 100,
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,
}
Salin selepas log masuk

Dalam konfigurasi di atas, kami menggunakan perpustakaan scrapy_proxies untuk melaksanakan tetapan IP proksi. Antaranya, 100 mewakili keutamaan, dan semakin kecil nilainya, semakin tinggi keutamaannya. Selepas tetapan ini, semasa proses permintaan, Scrapy akan secara rawak memilih alamat IP daripada kumpulan IP proksi untuk membuat permintaan.

Sudah tentu, kami juga boleh menyesuaikan sumber IP proksi. Sebagai contoh, kita boleh menggunakan API yang disediakan oleh tapak web IP proksi percuma untuk mendapatkan IP proksi. Contoh kod adalah seperti berikut:

class GetProxy(object):
    def __init__(self, proxy_url):
        self.proxy_url = proxy_url

    def get_proxy_ip(self):
        response = requests.get(self.proxy_url)
        if response.status_code == 200:
            json_data = json.loads(response.text)
            proxy = json_data.get('proxy')
            return proxy
        else:
            return None


class RandomProxyMiddleware(object):
    def __init__(self):
        self.proxy_url = 'http://api.xdaili.cn/xdaili-api//greatRecharge/getGreatIp?spiderId=e2f1f0cc6c5e4ef19f884ea6095deda9&orderno=YZ20211298122hJ9cz&returnType=2&count=1'
        self.get_proxy = GetProxy(self.proxy_url)

    def process_request(self, request, spider):
        proxy = self.get_proxy.get_proxy_ip()
        if proxy:
            request.meta['proxy'] = 'http://' + proxy
Salin selepas log masuk

Dalam kod di atas, kami mentakrifkan kelas RandomProxyMiddleware dan menggunakan perpustakaan Requests untuk mendapatkan IP proksi. Dengan menambahkan IP proksi pada pengepala permintaan, kami boleh menetapkan IP proksi.

  1. ejen pengguna

Ejen pengguna ialah sebahagian daripada pengepala permintaan pengenalan dan mengandungi maklumat seperti peranti, sistem pengendalian dan penyemak imbas yang memulakan permintaan. Apabila banyak pelayan memproses permintaan, mereka akan menggunakan maklumat ejen pengguna dalam pengepala permintaan untuk menentukan sama ada permintaan itu adalah perangkak, sekali gus melaksanakan pemprosesan anti perangkak.

Begitu juga, dalam Scrapy, kita boleh menggunakan middlewares untuk melaksanakan tetapan ejen pengguna. Contohnya:

class RandomUserAgent(object):
    def __init__(self):
        self.user_agents = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3']
                  
    def process_request(self, request, spider):
        user_agent = random.choice(self.user_agents)
        request.headers.setdefault('User-Agent', user_agent)
Salin selepas log masuk

Dalam kod di atas, kami mentakrifkan kelas RandomUserAgent dan secara rawak memilih User-Agent sebagai maklumat ejen pengguna dalam pengepala permintaan. Dengan cara ini, walaupun perangkak kami menghantar sejumlah besar permintaan, ia boleh mengelak daripada dianggap sebagai perangkak berniat jahat oleh pelayan.

  1. Kuki

Kuki ialah sekeping data yang dikembalikan oleh pelayan melalui medan Set-Cookie dalam pengepala respons apabila membalas permintaan. Apabila penyemak imbas memulakan permintaan kepada pelayan sekali lagi, maklumat Cookies sebelumnya akan disertakan dalam pengepala permintaan untuk mencapai pengesahan log masuk dan operasi lain.

Begitu juga, dalam Scrapy, kami juga boleh menetapkan Kuki melalui perisian tengah. Contohnya:

class RandomCookies(object):
    def __init__(self):
        self.cookies = {
            'example_cookie': 'example_value'
        }
                  
    def process_request(self, request, spider):
        cookie = random.choice(self.cookies)
        request.cookies = cookie
Salin selepas log masuk

Dalam kod di atas, kami mentakrifkan kelas RandomCookies dan secara rawak memilih Kuki sebagai maklumat Kuki dalam pengepala permintaan. Dengan cara ini, kami boleh melaksanakan operasi pengesahan log masuk dengan menetapkan Kuki semasa proses permintaan.

Ringkasan

Dalam proses menggunakan Scrapy untuk merangkak data, adalah sangat penting untuk mengelakkan strategi anti-crawler. Artikel ini memperincikan cara menetapkan IP proksi, ejen pengguna, Kuki dan dasar lain melalui perisian tengah dalam Scrapy untuk menjadikan program perangkak lebih tersembunyi dan selamat.

Atas ialah kandungan terperinci Cara Scrapy menggunakan IP proksi, ejen pengguna dan kuki untuk mengelakkan strategi anti perangkak. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Bagaimana untuk menyelesaikan masalah kebenaran yang dihadapi semasa melihat versi Python di Terminal Linux? Bagaimana untuk menyelesaikan masalah kebenaran yang dihadapi semasa melihat versi Python di Terminal Linux? Apr 01, 2025 pm 05:09 PM

Penyelesaian kepada Isu Kebenaran Semasa Melihat Versi Python di Terminal Linux Apabila anda cuba melihat versi Python di Terminal Linux, masukkan Python ...

Bagaimana saya menggunakan sup yang indah untuk menghuraikan html? Bagaimana saya menggunakan sup yang indah untuk menghuraikan html? Mar 10, 2025 pm 06:54 PM

Artikel ini menerangkan cara menggunakan sup yang indah, perpustakaan python, untuk menghuraikan html. Ia memperincikan kaedah biasa seperti mencari (), find_all (), pilih (), dan get_text () untuk pengekstrakan data, pengendalian struktur dan kesilapan HTML yang pelbagai, dan alternatif (sel

Serialization dan deserialisasi objek python: Bahagian 1 Serialization dan deserialisasi objek python: Bahagian 1 Mar 08, 2025 am 09:39 AM

Serialization dan deserialization objek Python adalah aspek utama dari mana-mana program bukan remeh. Jika anda menyimpan sesuatu ke fail python, anda melakukan siri objek dan deserialization jika anda membaca fail konfigurasi, atau jika anda menjawab permintaan HTTP. Dalam erti kata, siri dan deserialization adalah perkara yang paling membosankan di dunia. Siapa yang peduli dengan semua format dan protokol ini? Anda mahu berterusan atau mengalirkan beberapa objek python dan mengambilnya sepenuhnya pada masa yang akan datang. Ini adalah cara yang baik untuk melihat dunia pada tahap konseptual. Walau bagaimanapun, pada tahap praktikal, skim siri, format atau protokol yang anda pilih boleh menentukan kelajuan, keselamatan, kebebasan status penyelenggaraan, dan aspek lain dari program

Bagaimana untuk melakukan pembelajaran mendalam dengan Tensorflow atau Pytorch? Bagaimana untuk melakukan pembelajaran mendalam dengan Tensorflow atau Pytorch? Mar 10, 2025 pm 06:52 PM

Artikel ini membandingkan tensorflow dan pytorch untuk pembelajaran mendalam. Ia memperincikan langkah -langkah yang terlibat: penyediaan data, bangunan model, latihan, penilaian, dan penempatan. Perbezaan utama antara rangka kerja, terutamanya mengenai grap pengiraan

Modul Matematik dalam Python: Statistik Modul Matematik dalam Python: Statistik Mar 09, 2025 am 11:40 AM

Modul Statistik Python menyediakan keupayaan analisis statistik data yang kuat untuk membantu kami dengan cepat memahami ciri -ciri keseluruhan data, seperti biostatistik dan analisis perniagaan. Daripada melihat titik data satu demi satu, cuma melihat statistik seperti min atau varians untuk menemui trend dan ciri dalam data asal yang mungkin diabaikan, dan membandingkan dataset besar dengan lebih mudah dan berkesan. Tutorial ini akan menjelaskan cara mengira min dan mengukur tahap penyebaran dataset. Kecuali dinyatakan sebaliknya, semua fungsi dalam modul ini menyokong pengiraan fungsi min () dan bukan hanya menjumlahkan purata. Nombor titik terapung juga boleh digunakan. Import secara rawak Statistik import dari fracti

Mengikis halaman web dalam python dengan sup yang indah: carian dan pengubahsuaian dom Mengikis halaman web dalam python dengan sup yang indah: carian dan pengubahsuaian dom Mar 08, 2025 am 10:36 AM

Tutorial ini dibina pada pengenalan sebelumnya kepada sup yang indah, memberi tumpuan kepada manipulasi DOM di luar navigasi pokok mudah. Kami akan meneroka kaedah dan teknik carian yang cekap untuk mengubahsuai struktur HTML. Satu kaedah carian dom biasa ialah Ex

Bagaimana untuk membuat antara muka baris arahan (CLI) dengan python? Bagaimana untuk membuat antara muka baris arahan (CLI) dengan python? Mar 10, 2025 pm 06:48 PM

Artikel ini membimbing pemaju Python mengenai bangunan baris baris komando (CLI). Butirannya menggunakan perpustakaan seperti Typer, Klik, dan ArgParse, menekankan pengendalian input/output, dan mempromosikan corak reka bentuk mesra pengguna untuk kebolehgunaan CLI yang lebih baik.

Apakah beberapa perpustakaan Python yang popular dan kegunaan mereka? Apakah beberapa perpustakaan Python yang popular dan kegunaan mereka? Mar 21, 2025 pm 06:46 PM

Artikel ini membincangkan perpustakaan Python yang popular seperti Numpy, Pandas, Matplotlib, Scikit-Learn, Tensorflow, Django, Flask, dan Permintaan, memperincikan kegunaan mereka dalam pengkomputeran saintifik, analisis data, visualisasi, pembelajaran mesin, pembangunan web, dan h

See all articles