Mengintegrasikan Selenium dengan Scrapy untuk Halaman Web Dinamik
Pengenalan
Scrapy ialah rangka kerja mengikis web yang berkuasa, tetapi ia menghadapi batasan apabila menemui halaman web dinamik. Selenium, alat ujian pelayar web automatik, boleh mengisi jurang ini dengan mensimulasikan interaksi pengguna dan memaparkan kandungan halaman. Begini cara untuk menyepadukan Selenium dengan Scrapy untuk mengendalikan halaman web dinamik.
Pilihan Penyepaduan Selenium
Terdapat dua pilihan utama untuk menyepadukan Selenium dengan Scrapy:
Pilihan 1: Panggil Selenium dalam Scrapy Parser
Pilihan 2: Gunakan scrapy-selenium Middleware
Contoh Labah-labah Scrapy dengan Selenium
Pertimbangkan labah-labah Scrapy berikut yang menggunakan pilihan penyepaduan pertama :
class ProductSpider(CrawlSpider): name = "product_spider" allowed_domains = ['example.com'] start_urls = ['http://example.com/shanghai'] rules = [ Rule(SgmlLinkExtractor(restrict_xpaths='//div[@id="productList"]//dl[@class="t2"]//dt'), callback='parse_product'), ] def parse_product(self, response): self.log("parsing product %s" % response.url, level=INFO) driver = webdriver.Firefox() driver.get(response.url) # Perform Selenium actions to extract product data product_data = driver.find_element_by_xpath('//h1').text driver.close() # Yield extracted data as a scrapy Item yield {'product_name': product_data}
Contoh Tambahan dan Alternatif
Untuk pengendalian penomboran di eBay menggunakan Scrapy Selenium:
class ProductSpider(scrapy.Spider): # ... def parse(self, response): self.driver.get(response.url) while True: # Get next page link and click it next = self.driver.find_element_by_xpath('//td[@class="pagn-next"]/a') try: next.click() # Scrape data and write to items except: break
Dengan memanfaatkan keupayaan Selenium, anda boleh meningkatkan kefungsian perangkak Scrapy anda untuk mengendalikan dinamik halaman web dengan berkesan.
Atas ialah kandungan terperinci Bagaimanakah Selenium boleh disepadukan dengan Scrapy untuk mengendalikan halaman web dinamik?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!