Scrapy ialah rangka kerja perangkak Python yang berkuasa yang boleh membantu kami mendapatkan data di Internet dengan cepat dan fleksibel. Dalam proses merangkak yang sebenar, kami sering menghadapi pelbagai format data seperti HTML, XML dan JSON. Dalam artikel ini, kami akan memperkenalkan cara menggunakan Scrapy untuk merangkak ketiga-tiga format data ini masing-masing.
1. Merangkak data HTML
Pertama, kita perlu mencipta projek Scrapy. Buka baris arahan dan masukkan arahan berikut:
scrapy startproject myproject
Perintah ini akan mencipta projek Scrapy yang dipanggil myproject dalam folder semasa.
Seterusnya, kita perlu menetapkan URL permulaan. Dalam direktori myproject/spiders, cipta fail bernama spider.py, edit fail dan masukkan kod berikut:
import scrapy class MySpider(scrapy.Spider): name = 'myspider' start_urls = ['http://example.com'] def parse(self, response): pass
Kod mula-mula mengimport perpustakaan Scrapy, kemudian mentakrifkan kelas perangkak MySpider dan menetapkan name ialah nama labah-labah myspider, dan menetapkan URL permulaan kepada http://example.com. Akhirnya, kaedah penghuraian ditakrifkan. Kaedah parse akan dipanggil oleh Scrapy secara lalai untuk memproses data respons.
Seterusnya, kita perlu menghuraikan data respons. Teruskan mengedit fail myproject/spiders/spider.py dan tambah kod berikut:
import scrapy class MySpider(scrapy.Spider): name = 'myspider' start_urls = ['http://example.com'] def parse(self, response): title = response.xpath('//title/text()').get() yield {'title': title}
Dalam kod, kami menggunakan kaedah response.xpath() untuk mendapatkan tajuk dalam halaman HTML. Gunakan hasil untuk mengembalikan data jenis kamus, termasuk tajuk yang kami perolehi.
Akhir sekali, kita perlu menjalankan perangkak Scrapy. Masukkan arahan berikut pada baris arahan:
scrapy crawl myspider -o output.json
Arahan ini akan mengeluarkan data ke fail output.json.
2. Merangkak data XML
Begitu juga, kita perlu mencipta projek Scrapy terlebih dahulu. Buka baris arahan dan masukkan arahan berikut:
scrapy startproject myproject
Perintah ini akan mencipta projek Scrapy yang dipanggil myproject dalam folder semasa.
Dalam direktori myproject/spiders, buat fail bernama spider.py, edit fail dan masukkan kod berikut:
import scrapy class MySpider(scrapy.Spider): name = 'myspider' start_urls = ['http://example.com/xml'] def parse(self, response): pass
Dalam kod, kami menetapkan nama labah-labah bernama myspider dan menetapkan URL permulaan kepada http://example.com/xml.
Teruskan mengedit fail myproject/spiders/spider.py dan tambah kod berikut:
import scrapy class MySpider(scrapy.Spider): name = 'myspider' start_urls = ['http://example.com/xml'] def parse(self, response): for item in response.xpath('//item'): yield { 'title': item.xpath('title/text()').get(), 'link': item.xpath('link/text()').get(), 'desc': item.xpath('desc/text()').get(), }
Dalam kod , kami menggunakan kaedah xpath() untuk mendapatkan data dalam halaman XML. Gunakan gelung for untuk melintasi teg item, dapatkan data teks dalam tiga teg tajuk, pautan dan desc, dan gunakan hasil untuk mengembalikan data jenis kamus.
Akhir sekali, kita juga perlu menjalankan perangkak Scrapy. Masukkan arahan berikut pada baris arahan:
scrapy crawl myspider -o output.json
Arahan ini akan mengeluarkan data ke fail output.json.
3. Merangkak data JSON
Begitu juga, kita perlu mencipta projek Scrapy. Buka baris arahan dan masukkan arahan berikut:
scrapy startproject myproject
Perintah ini akan mencipta projek Scrapy yang dipanggil myproject dalam folder semasa.
Dalam direktori myproject/spiders, buat fail bernama spider.py, edit fail dan masukkan kod berikut:
import scrapy class MySpider(scrapy.Spider): name = 'myspider' start_urls = ['http://example.com/json'] def parse(self, response): pass
Dalam kod, kami menetapkan nama labah-labah bernama myspider dan menetapkan URL permulaan kepada http://example.com/json.
Teruskan mengedit fail myproject/spiders/spider.py dan tambah kod berikut:
import scrapy import json class MySpider(scrapy.Spider): name = 'myspider' start_urls = ['http://example.com/json'] def parse(self, response): data = json.loads(response.body) for item in data['items']: yield { 'title': item['title'], 'link': item['link'], 'desc': item['desc'], }
Dalam kod , kami menggunakan kaedah json loads() untuk menghuraikan data format JSON. Gunakan gelung for untuk melintasi tatasusunan item, dapatkan tiga atribut setiap item: tajuk, pautan dan desc, dan gunakan hasil untuk mengembalikan data jenis kamus.
Akhir sekali, anda juga perlu menjalankan perangkak Scrapy. Masukkan arahan berikut pada baris arahan:
scrapy crawl myspider -o output.json
Arahan ini akan mengeluarkan data ke fail output.json.
4. Ringkasan
Dalam artikel ini, kami memperkenalkan cara menggunakan Scrapy untuk merangkak data HTML, XML dan JSON masing-masing. Melalui contoh di atas, anda boleh memahami penggunaan asas Scrapy, dan anda juga boleh mempelajari penggunaan yang lebih maju secara mendalam seperti yang diperlukan.
Atas ialah kandungan terperinci Penggunaan Scrapy yang mendalam: Bagaimana untuk merangkak data HTML, XML dan JSON?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!