


Penggunaan Scrapy yang mendalam: Bagaimana untuk merangkak data HTML, XML dan JSON?
Scrapy ialah rangka kerja perangkak Python yang berkuasa yang boleh membantu kami mendapatkan data di Internet dengan cepat dan fleksibel. Dalam proses merangkak yang sebenar, kami sering menghadapi pelbagai format data seperti HTML, XML dan JSON. Dalam artikel ini, kami akan memperkenalkan cara menggunakan Scrapy untuk merangkak ketiga-tiga format data ini masing-masing.
1. Merangkak data HTML
- Membuat projek Scrapy
Pertama, kita perlu mencipta projek Scrapy. Buka baris arahan dan masukkan arahan berikut:
scrapy startproject myproject
Perintah ini akan mencipta projek Scrapy yang dipanggil myproject dalam folder semasa.
- Tetapkan URL permulaan
Seterusnya, kita perlu menetapkan URL permulaan. Dalam direktori myproject/spiders, cipta fail bernama spider.py, edit fail dan masukkan kod berikut:
import scrapy class MySpider(scrapy.Spider): name = 'myspider' start_urls = ['http://example.com'] def parse(self, response): pass
Kod mula-mula mengimport perpustakaan Scrapy, kemudian mentakrifkan kelas perangkak MySpider dan menetapkan name ialah nama labah-labah myspider, dan menetapkan URL permulaan kepada http://example.com. Akhirnya, kaedah penghuraian ditakrifkan. Kaedah parse akan dipanggil oleh Scrapy secara lalai untuk memproses data respons.
- Menghuraikan data respons
Seterusnya, kita perlu menghuraikan data respons. Teruskan mengedit fail myproject/spiders/spider.py dan tambah kod berikut:
import scrapy class MySpider(scrapy.Spider): name = 'myspider' start_urls = ['http://example.com'] def parse(self, response): title = response.xpath('//title/text()').get() yield {'title': title}
Dalam kod, kami menggunakan kaedah response.xpath() untuk mendapatkan tajuk dalam halaman HTML. Gunakan hasil untuk mengembalikan data jenis kamus, termasuk tajuk yang kami perolehi.
- Menjalankan perangkak
Akhir sekali, kita perlu menjalankan perangkak Scrapy. Masukkan arahan berikut pada baris arahan:
scrapy crawl myspider -o output.json
Arahan ini akan mengeluarkan data ke fail output.json.
2. Merangkak data XML
- Buat projek Scrapy
Begitu juga, kita perlu mencipta projek Scrapy terlebih dahulu. Buka baris arahan dan masukkan arahan berikut:
scrapy startproject myproject
Perintah ini akan mencipta projek Scrapy yang dipanggil myproject dalam folder semasa.
- Tetapkan URL permulaan
Dalam direktori myproject/spiders, buat fail bernama spider.py, edit fail dan masukkan kod berikut:
import scrapy class MySpider(scrapy.Spider): name = 'myspider' start_urls = ['http://example.com/xml'] def parse(self, response): pass
Dalam kod, kami menetapkan nama labah-labah bernama myspider dan menetapkan URL permulaan kepada http://example.com/xml.
- Menghuraikan data respons
Teruskan mengedit fail myproject/spiders/spider.py dan tambah kod berikut:
import scrapy class MySpider(scrapy.Spider): name = 'myspider' start_urls = ['http://example.com/xml'] def parse(self, response): for item in response.xpath('//item'): yield { 'title': item.xpath('title/text()').get(), 'link': item.xpath('link/text()').get(), 'desc': item.xpath('desc/text()').get(), }
Dalam kod , kami menggunakan kaedah xpath() untuk mendapatkan data dalam halaman XML. Gunakan gelung for untuk melintasi teg item, dapatkan data teks dalam tiga teg tajuk, pautan dan desc, dan gunakan hasil untuk mengembalikan data jenis kamus.
- Jalankan perangkak
Akhir sekali, kita juga perlu menjalankan perangkak Scrapy. Masukkan arahan berikut pada baris arahan:
scrapy crawl myspider -o output.json
Arahan ini akan mengeluarkan data ke fail output.json.
3. Merangkak data JSON
- Buat projek Scrapy
Begitu juga, kita perlu mencipta projek Scrapy. Buka baris arahan dan masukkan arahan berikut:
scrapy startproject myproject
Perintah ini akan mencipta projek Scrapy yang dipanggil myproject dalam folder semasa.
- Tetapkan URL permulaan
Dalam direktori myproject/spiders, buat fail bernama spider.py, edit fail dan masukkan kod berikut:
import scrapy class MySpider(scrapy.Spider): name = 'myspider' start_urls = ['http://example.com/json'] def parse(self, response): pass
Dalam kod, kami menetapkan nama labah-labah bernama myspider dan menetapkan URL permulaan kepada http://example.com/json.
- Menghuraikan data respons
Teruskan mengedit fail myproject/spiders/spider.py dan tambah kod berikut:
import scrapy import json class MySpider(scrapy.Spider): name = 'myspider' start_urls = ['http://example.com/json'] def parse(self, response): data = json.loads(response.body) for item in data['items']: yield { 'title': item['title'], 'link': item['link'], 'desc': item['desc'], }
Dalam kod , kami menggunakan kaedah json loads() untuk menghuraikan data format JSON. Gunakan gelung for untuk melintasi tatasusunan item, dapatkan tiga atribut setiap item: tajuk, pautan dan desc, dan gunakan hasil untuk mengembalikan data jenis kamus.
- Jalankan perangkak
Akhir sekali, anda juga perlu menjalankan perangkak Scrapy. Masukkan arahan berikut pada baris arahan:
scrapy crawl myspider -o output.json
Arahan ini akan mengeluarkan data ke fail output.json.
4. Ringkasan
Dalam artikel ini, kami memperkenalkan cara menggunakan Scrapy untuk merangkak data HTML, XML dan JSON masing-masing. Melalui contoh di atas, anda boleh memahami penggunaan asas Scrapy, dan anda juga boleh mempelajari penggunaan yang lebih maju secara mendalam seperti yang diperlukan.
Atas ialah kandungan terperinci Penggunaan Scrapy yang mendalam: Bagaimana untuk merangkak data HTML, XML dan JSON?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Panduan untuk Sempadan Jadual dalam HTML. Di sini kita membincangkan pelbagai cara untuk menentukan sempadan jadual dengan contoh Sempadan Jadual dalam HTML.

Panduan untuk HTML margin-kiri. Di sini kita membincangkan gambaran keseluruhan ringkas tentang HTML margin-left dan Contoh-contohnya bersama-sama dengan Pelaksanaan Kodnya.

Ini ialah panduan untuk Nested Table dalam HTML. Di sini kita membincangkan cara membuat jadual dalam jadual bersama-sama dengan contoh masing-masing.

Panduan untuk Susun Atur Jadual HTML. Di sini kita membincangkan Nilai Susun Atur Jadual HTML bersama-sama dengan contoh dan output n perincian.

Panduan untuk Pemegang Tempat Input HTML. Di sini kita membincangkan Contoh Pemegang Tempat Input HTML bersama-sama dengan kod dan output.

Panduan kepada Senarai Tertib HTML. Di sini kami juga membincangkan pengenalan senarai dan jenis Tertib HTML bersama-sama dengan contoh mereka masing-masing

Panduan untuk Memindahkan Teks dalam HTML. Di sini kita membincangkan pengenalan, cara teg marquee berfungsi dengan sintaks dan contoh untuk dilaksanakan.

Panduan untuk Butang onclick HTML. Di sini kita membincangkan pengenalan, kerja, contoh dan onclick Event masing-masing dalam pelbagai acara.
