Dengan perkembangan Internet, data rangkaian menjadi semakin banyak, dan banyak syarikat perlu menangkap sejumlah besar data daripada Internet untuk menganalisis dan membuat keputusan perniagaan. Perangkak web telah menjadi alat penting untuk perusahaan mendapatkan data.
Di antara banyak rangka kerja perangkak web, Scrapy ialah rangka kerja yang sangat popular. Scrapy, sebagai rangka kerja perangkak web sumber terbuka yang ditulis dalam Python, mempunyai kelajuan merangkak yang cekap, seni bina yang fleksibel dan kebolehskalaan yang kuat. Pada masa yang sama, ia juga menyediakan banyak sambungan yang sangat baik, seperti Scrapy-Redis, yang boleh menyokong rangkak berbilang edaran, menjadikan Scrapy bersinar dalam pembangunan perangkak web.
Walau bagaimanapun, sesetengah syarikat juga menggunakan bahasa PHP untuk membangunkan perkhidmatan web mereka sendiri, dan mereka mungkin perlu menukar pembangunan bahagian perangkak kepada kod Python. Pada masa ini, anda perlu menggabungkan kod dan menggunakan Python dan PHP untuk melaksanakan perangkak web.
Seterusnya, kami akan memperkenalkan langkah demi langkah cara menggunakan Scrapy dan PHP untuk melaksanakan perangkak.
Pertama, kita perlu memasang Scrapy, yang boleh dipasang menggunakan pip:
pip install scrapy
Selepas selesai, anda boleh membuat projek Scrapy:
scrapy startproject tutorial
Dengan arahan di atas, Scrapy akan dibuat Direktori bernama tutorial mengandungi struktur projek perangkak yang boleh dimulakan.
Seterusnya, kita perlu mencipta perangkak yang mentakrifkan halaman yang hendak dirangkak, cara mengenal pasti maklumat yang diperlukan dan cara menyimpan data. Dalam Scrapy, setiap perangkak ditakrifkan oleh kelas Spider.
Berikut ialah contoh kelas Spider yang mudah:
import scrapy class MySpider(scrapy.Spider): name = 'myspider' def start_requests(self): urls = [ 'http://www.example.com/1.html', 'http://www.example.com/2.html', 'http://www.example.com/3.html', ] for url in urls: yield scrapy.Request(url=url, callback=self.parse) def parse(self, response): page = response.url.split("/")[-2] filename = f'page-{page}.html' with open(filename, 'wb') as f: f.write(response.body) self.log(f'Saved file {filename}')
Dalam contoh ini, kami mentakrifkan Spider bernama myspider, mentakrifkan URL yang perlu diakses dalam start_requests, dan menerangkan secara parse Cara untuk memproses data yang dirangkak. Dalam contoh mudah ini, kami menyimpan halaman web yang dimuat turun ke fail yang dipanggil "page-X.html".
Seterusnya, kita perlu menentukan skrip PHP untuk memulakan Spider dan memproses data yang dirangkak. Di sini kami menyimpan maklumat log Scrapy dalam fail supaya program PHP boleh membacanya. Begitu juga, kami juga boleh menyimpan data yang dirangkak oleh Scrapy ke dalam pangkalan data untuk analisis seterusnya.
<?php // 启动Spider exec("scrapy crawl myspider -o data.json"); // 读取日志信息 $log = file_get_contents('scrapy.log'); // 解析JSON格式的数据 $data = json_decode(file_get_contents('data.json'), true); // 在此处添加数据处理逻辑 // ... // 输出数据,或者将数据存储到数据库 var_dump($data); ?>
Melalui kod di atas, kami menyedari proses memulakan perangkak Scrapy melalui PHP dan menyimpan data dalam format JSON. Akhir sekali, kita boleh menambah logik pemprosesan data yang sesuai pada program PHP untuk mendapatkan data yang kita perlukan.
Ringkasan:
Artikel ini memperkenalkan cara menggunakan rangka kerja Scrapy dalam Python dan proses menggabungkan Python dan PHP untuk melaksanakan perangkak web. Perlu diingatkan bahawa sepanjang proses, kita perlu memberi perhatian kepada bagaimana data dipindahkan antara kedua-dua bahasa dan cara mengendalikan pengecualian. Melalui kaedah ini, kami boleh dengan cepat dan cekap mendapatkan sejumlah besar data di Internet untuk menyediakan sokongan untuk keputusan risikan perniagaan perusahaan.
Atas ialah kandungan terperinci Rangka kerja perangkak web PHP ScrapyPython + PHP melaksanakan perangkak web. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!