Menggunakan Selenium dan PhantomJS dalam perangkak Scrapy-Tutorial Python-php.cn

Rumah

pembangunan bahagian belakang

Tutorial Python

Menggunakan Selenium dan PhantomJS dalam perangkak Scrapy

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 22, 2023 pm 06:03 PM

selenium phantomjs scrapy

Menggunakan Selenium dan PhantomJS dalam perangkak Scrapy

Scrapy ialah rangka kerja perangkak web yang sangat baik di bawah Python dan telah digunakan secara meluas dalam pengumpulan dan pemprosesan data dalam pelbagai bidang. Dalam pelaksanaan perangkak, kadangkala perlu untuk mensimulasikan operasi penyemak imbas untuk mendapatkan kandungan yang dibentangkan oleh tapak web tertentu Dalam kes ini, Selenium dan PhantomJS diperlukan.

Selenium mensimulasikan operasi manusia pada penyemak imbas, membolehkan kami mengautomasikan ujian aplikasi web dan mensimulasikan pengguna biasa yang melawati tapak web. PhantomJS ialah penyemak imbas tanpa kepala berdasarkan WebKit Ia boleh menggunakan bahasa skrip untuk mengawal tingkah laku penyemak imbas dan menyokong pelbagai fungsi yang diperlukan untuk pembangunan web, termasuk tangkapan skrin halaman, automasi halaman, pemantauan rangkaian, dll.

Di bawah ini kami memperkenalkan secara terperinci cara menggabungkan Selenium dan PhantomJS dalam Scrapy untuk merealisasikan automasi penyemak imbas.

Mula-mula, perkenalkan modul yang diperlukan pada permulaan fail perangkak:

from selenium import webdriver
from scrapy.http import HtmlResponse
from scrapy.utils.project import get_project_settings

Salin selepas log masuk

Kemudian dalam kaedah start_requests Spider, kami mencipta objek WebDriver melalui PhantomJS dan menetapkan beberapa pilihan penyemak imbas:

class MySpider(Spider):
    name = 'example.com'
    start_urls = ['http://www.example.com']
    
    def __init__(self):
        settings = get_project_settings()
        self.driver = webdriver.PhantomJS(executable_path=settings.get('PHANTOMJS_PATH'))
        super(MySpider, self).__init__()

    def start_requests(self):
        self.driver.get(self.start_urls[0])
        # 进行输入表单、点击等浏览器操作
        # ...

        content = self.driver.page_source.encode('utf-8')
        response = HtmlResponse(url=self.driver.current_url, body=content)
        yield response

Salin selepas log masuk

Di sini kami menetapkan laluan fail boleh laku PhantomJS dan mengakses halaman permulaan melalui kaedah self.driver.get. Seterusnya, kami boleh melakukan operasi automasi penyemak imbas pada halaman ini, seperti memasukkan borang, mengklik butang, dsb., untuk mensimulasikan operasi pengguna. Jika anda ingin mendapatkan kandungan halaman selepas operasi, anda boleh mendapatkan kod sumber HTML melalui self.driver.page_source, kemudian gunakan Scrapy's HtmlResponse untuk menjana objek Respons dan mengembalikannya kepada pemanggil kaedah.

Perlu diingat bahawa selepas menggunakan objek WebDriver, sebaiknya tutup proses penyemak imbas melalui

self.driver.quit()

Salin selepas log masuk

untuk melepaskan sumber sistem.

Sudah tentu, apabila menggunakan Selenium dan PhantomJS, anda perlu memasang pakej perisian yang sepadan dan mengkonfigurasi pembolehubah persekitaran yang berkaitan. Semasa konfigurasi, anda boleh menggunakan kaedah get_project_settings untuk mendapatkan konfigurasi lalai Scrapy, dan kemudian mengubah suai item konfigurasi yang sepadan.

Pada ketika ini, kami boleh menggunakan Selenium dan PhantomJS dalam Scrapy untuk mengautomasikan operasi penyemak imbas, dengan itu mencapai fungsi rangkak data tapak web yang lebih kompleks dan tepat. Mampu menggunakan kaedah ini secara fleksibel adalah kemahiran penting untuk jurutera perangkak yang cekap.

Atas ialah kandungan terperinci Menggunakan Selenium dan PhantomJS dalam perangkak Scrapy. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

1 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Di mana untuk mencari kad kunci kawalan kren di atomfall

1 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7444

Tutorial CakePHP

1371

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Scrapy melaksanakan rangkak dan analisis artikel akaun awam WeChat Jun 22, 2023 am 09:41 AM

Scrapy melaksanakan rangkak artikel dan analisis akaun awam WeChat WeChat ialah aplikasi media sosial yang popular dalam beberapa tahun kebelakangan ini, dan akaun awam yang dikendalikan di dalamnya juga memainkan peranan yang sangat penting. Seperti yang kita sedia maklum, akaun awam WeChat adalah lautan maklumat dan pengetahuan, kerana setiap akaun awam boleh menerbitkan artikel, mesej grafik dan maklumat lain. Maklumat ini boleh digunakan secara meluas dalam banyak bidang, seperti laporan media, penyelidikan akademik, dsb. Jadi, artikel ini akan memperkenalkan cara menggunakan rangka kerja Scrapy untuk merangkak dan menganalisis artikel akaun awam WeChat. Scr

Belajar memasang Selenium dengan mudah menggunakan PyCharm: panduan pemasangan dan konfigurasi PyCharm Jan 04, 2024 pm 09:48 PM

Tutorial Pemasangan PyCharm: Ketahui cara memasang Selenium dengan mudah, contoh kod khusus diperlukan Sebagai pembangun Python, kami selalunya perlu menggunakan pelbagai perpustakaan dan alatan pihak ketiga untuk menyelesaikan pembangunan projek. Antaranya, Selenium ialah perpustakaan yang sangat biasa digunakan untuk ujian automatik dan ujian UI aplikasi web. Sebagai persekitaran pembangunan bersepadu (IDE) untuk pembangunan Python, PyCharm menyediakan kami cara yang mudah dan pantas untuk membangunkan kod Python, jadi bagaimana

Analisis kes buruk: Cara merangkak maklumat syarikat di LinkedIn Jun 23, 2023 am 10:04 AM

Scrapy ialah rangka kerja perangkak berasaskan Python yang boleh mendapatkan maklumat berkaitan dengan cepat dan mudah di Internet. Dalam artikel ini, kami akan menggunakan kes Scrapy untuk menganalisis secara terperinci cara merangkak maklumat syarikat di LinkedIn. Tentukan URL sasaran Mula-mula, kita perlu menjelaskan dengan jelas bahawa sasaran kita ialah maklumat syarikat di LinkedIn. Oleh itu, kita perlu mencari URL halaman maklumat syarikat LinkedIn. Buka laman web LinkedIn, masukkan nama syarikat dalam kotak carian, dan

Kaedah pelaksanaan pemuatan asynchronous Scrapy berdasarkan Ajax Jun 22, 2023 pm 11:09 PM

Scrapy ialah rangka kerja perangkak Python sumber terbuka yang boleh mendapatkan data daripada tapak web dengan cepat dan cekap. Walau bagaimanapun, banyak tapak web menggunakan teknologi pemuatan tak segerak Ajax, menjadikannya mustahil untuk Scrapy mendapatkan data secara langsung. Artikel ini akan memperkenalkan kaedah pelaksanaan Scrapy berdasarkan pemuatan tak segerak Ajax. 1. Prinsip pemuatan tak segerak Ajax Pemuatan tak segerak Ajax: Dalam kaedah pemuatan halaman tradisional, selepas pelayar menghantar permintaan kepada pelayan, ia mesti menunggu pelayan mengembalikan respons dan memuatkan keseluruhan halaman sebelum meneruskan ke langkah seterusnya.

Petua pengoptimuman buruk: Cara mengurangkan rangkak URL pendua dan meningkatkan kecekapan Jun 22, 2023 pm 01:57 PM

Scrapy ialah rangka kerja perangkak Python yang berkuasa yang boleh digunakan untuk mendapatkan sejumlah besar data daripada Internet. Walau bagaimanapun, apabila membangunkan Scrapy, kami sering menghadapi masalah merangkak URL pendua, yang membuang banyak masa dan sumber serta menjejaskan kecekapan. Artikel ini akan memperkenalkan beberapa teknik pengoptimuman Scrapy untuk mengurangkan rangkak URL pendua dan meningkatkan kecekapan perangkak Scrapy. 1. Gunakan atribut start_urls dan allowed_domains dalam perangkak Scrapy untuk

Cara menggunakan Selenium untuk ujian web automatik Aug 02, 2023 pm 07:43 PM

Gambaran Keseluruhan Cara Menggunakan Selenium untuk Pengujian Automasi Web: Ujian automasi web ialah bahagian penting dalam proses pembangunan perisian moden. Selenium ialah alat ujian automatik yang berkuasa yang boleh mensimulasikan operasi pengguna dalam pelayar web dan melaksanakan proses ujian automatik. Artikel ini akan memperkenalkan cara menggunakan Selenium untuk ujian automasi web dan disertakan dengan contoh kod untuk membantu pembaca bermula dengan cepat. Penyediaan persekitaran Sebelum memulakan, anda perlu memasang perpustakaan Selenium dan pemacu penyemak imbas web

Menggunakan Selenium dan PhantomJS dalam perangkak Scrapy Jun 22, 2023 pm 06:03 PM

Menggunakan Selenium dan PhantomJSScrapy dalam perangkak Scrapy Scrapy ialah rangka kerja perangkak web yang sangat baik di bawah Python dan telah digunakan secara meluas dalam pengumpulan dan pemprosesan data dalam pelbagai bidang. Dalam pelaksanaan perangkak, kadangkala perlu untuk mensimulasikan operasi penyemak imbas untuk mendapatkan kandungan yang dibentangkan oleh tapak web tertentu Dalam kes ini, Selenium dan PhantomJS diperlukan. Selenium mensimulasikan operasi manusia pada penyemak imbas, membolehkan kami mengautomasikan ujian aplikasi web

Penggunaan Scrapy yang mendalam: Bagaimana untuk merangkak data HTML, XML dan JSON? Jun 22, 2023 pm 05:58 PM

Scrapy ialah rangka kerja perangkak Python yang berkuasa yang boleh membantu kami mendapatkan data di Internet dengan cepat dan fleksibel. Dalam proses merangkak sebenar, kami sering menghadapi pelbagai format data seperti HTML, XML dan JSON. Dalam artikel ini, kami akan memperkenalkan cara menggunakan Scrapy untuk merangkak ketiga-tiga format data ini masing-masing. 1. Merangkak data HTML dan mencipta projek Scrapy Pertama, kita perlu membuat projek Scrapy. Buka baris arahan dan masukkan arahan berikut: scrapys

See all articles