Rumah pembangunan bahagian belakang Tutorial Python Penggunaan Scrapy yang mendalam: Bagaimana untuk merangkak data HTML, XML dan JSON?

Penggunaan Scrapy yang mendalam: Bagaimana untuk merangkak data HTML, XML dan JSON?

Jun 22, 2023 pm 05:58 PM
xml html scrapy

Scrapy ialah rangka kerja perangkak Python yang berkuasa yang boleh membantu kami mendapatkan data di Internet dengan cepat dan fleksibel. Dalam proses merangkak yang sebenar, kami sering menghadapi pelbagai format data seperti HTML, XML dan JSON. Dalam artikel ini, kami akan memperkenalkan cara menggunakan Scrapy untuk merangkak ketiga-tiga format data ini masing-masing.

1. Merangkak data HTML

  1. Membuat projek Scrapy

Pertama, kita perlu mencipta projek Scrapy. Buka baris arahan dan masukkan arahan berikut:

scrapy startproject myproject
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk

Perintah ini akan mencipta projek Scrapy yang dipanggil myproject dalam folder semasa.

  1. Tetapkan URL permulaan

Seterusnya, kita perlu menetapkan URL permulaan. Dalam direktori myproject/spiders, cipta fail bernama spider.py, edit fail dan masukkan kod berikut:

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com']

    def parse(self, response):
        pass
Salin selepas log masuk

Kod mula-mula mengimport perpustakaan Scrapy, kemudian mentakrifkan kelas perangkak MySpider dan menetapkan name ialah nama labah-labah myspider, dan menetapkan URL permulaan kepada http://example.com. Akhirnya, kaedah penghuraian ditakrifkan. Kaedah parse akan dipanggil oleh Scrapy secara lalai untuk memproses data respons.

  1. Menghuraikan data respons

Seterusnya, kita perlu menghuraikan data respons. Teruskan mengedit fail myproject/spiders/spider.py dan tambah kod berikut:

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com']

    def parse(self, response):
        title = response.xpath('//title/text()').get()
        yield {'title': title}
Salin selepas log masuk

Dalam kod, kami menggunakan kaedah response.xpath() untuk mendapatkan tajuk dalam halaman HTML. Gunakan hasil untuk mengembalikan data jenis kamus, termasuk tajuk yang kami perolehi.

  1. Menjalankan perangkak

Akhir sekali, kita perlu menjalankan perangkak Scrapy. Masukkan arahan berikut pada baris arahan:

scrapy crawl myspider -o output.json
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk

Arahan ini akan mengeluarkan data ke fail output.json.

2. Merangkak data XML

  1. Buat projek Scrapy

Begitu juga, kita perlu mencipta projek Scrapy terlebih dahulu. Buka baris arahan dan masukkan arahan berikut:

scrapy startproject myproject
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk

Perintah ini akan mencipta projek Scrapy yang dipanggil myproject dalam folder semasa.

  1. Tetapkan URL permulaan

Dalam direktori myproject/spiders, buat fail bernama spider.py, edit fail dan masukkan kod berikut:

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com/xml']

    def parse(self, response):
        pass
Salin selepas log masuk

Dalam kod, kami menetapkan nama labah-labah bernama myspider dan menetapkan URL permulaan kepada http://example.com/xml.

  1. Menghuraikan data respons

Teruskan mengedit fail myproject/spiders/spider.py dan tambah kod berikut:

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com/xml']

    def parse(self, response):
        for item in response.xpath('//item'):
            yield {
                'title': item.xpath('title/text()').get(),
                'link': item.xpath('link/text()').get(),
                'desc': item.xpath('desc/text()').get(),
            }
Salin selepas log masuk

Dalam kod , kami menggunakan kaedah xpath() untuk mendapatkan data dalam halaman XML. Gunakan gelung for untuk melintasi teg item, dapatkan data teks dalam tiga teg tajuk, pautan dan desc, dan gunakan hasil untuk mengembalikan data jenis kamus.

  1. Jalankan perangkak

Akhir sekali, kita juga perlu menjalankan perangkak Scrapy. Masukkan arahan berikut pada baris arahan:

scrapy crawl myspider -o output.json
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk

Arahan ini akan mengeluarkan data ke fail output.json.

3. Merangkak data JSON

  1. Buat projek Scrapy

Begitu juga, kita perlu mencipta projek Scrapy. Buka baris arahan dan masukkan arahan berikut:

scrapy startproject myproject
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk

Perintah ini akan mencipta projek Scrapy yang dipanggil myproject dalam folder semasa.

  1. Tetapkan URL permulaan

Dalam direktori myproject/spiders, buat fail bernama spider.py, edit fail dan masukkan kod berikut:

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com/json']

    def parse(self, response):
        pass
Salin selepas log masuk

Dalam kod, kami menetapkan nama labah-labah bernama myspider dan menetapkan URL permulaan kepada http://example.com/json.

  1. Menghuraikan data respons

Teruskan mengedit fail myproject/spiders/spider.py dan tambah kod berikut:

import scrapy
import json

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com/json']

    def parse(self, response):
        data = json.loads(response.body)
        for item in data['items']:
            yield {
                'title': item['title'],
                'link': item['link'],
                'desc': item['desc'],
            }
Salin selepas log masuk

Dalam kod , kami menggunakan kaedah json loads() untuk menghuraikan data format JSON. Gunakan gelung for untuk melintasi tatasusunan item, dapatkan tiga atribut setiap item: tajuk, pautan dan desc, dan gunakan hasil untuk mengembalikan data jenis kamus.

  1. Jalankan perangkak

Akhir sekali, anda juga perlu menjalankan perangkak Scrapy. Masukkan arahan berikut pada baris arahan:

scrapy crawl myspider -o output.json
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk

Arahan ini akan mengeluarkan data ke fail output.json.

4. Ringkasan

Dalam artikel ini, kami memperkenalkan cara menggunakan Scrapy untuk merangkak data HTML, XML dan JSON masing-masing. Melalui contoh di atas, anda boleh memahami penggunaan asas Scrapy, dan anda juga boleh mempelajari penggunaan yang lebih maju secara mendalam seperti yang diperlukan.

Atas ialah kandungan terperinci Penggunaan Scrapy yang mendalam: Bagaimana untuk merangkak data HTML, XML dan JSON?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Sempadan Jadual dalam HTML Sempadan Jadual dalam HTML Sep 04, 2024 pm 04:49 PM

Panduan untuk Sempadan Jadual dalam HTML. Di sini kita membincangkan pelbagai cara untuk menentukan sempadan jadual dengan contoh Sempadan Jadual dalam HTML.

HTML jidar-kiri HTML jidar-kiri Sep 04, 2024 pm 04:48 PM

Panduan untuk HTML margin-kiri. Di sini kita membincangkan gambaran keseluruhan ringkas tentang HTML margin-left dan Contoh-contohnya bersama-sama dengan Pelaksanaan Kodnya.

Jadual Bersarang dalam HTML Jadual Bersarang dalam HTML Sep 04, 2024 pm 04:49 PM

Ini ialah panduan untuk Nested Table dalam HTML. Di sini kita membincangkan cara membuat jadual dalam jadual bersama-sama dengan contoh masing-masing.

Susun Atur Jadual HTML Susun Atur Jadual HTML Sep 04, 2024 pm 04:54 PM

Panduan untuk Susun Atur Jadual HTML. Di sini kita membincangkan Nilai Susun Atur Jadual HTML bersama-sama dengan contoh dan output n perincian.

Pemegang Tempat Input HTML Pemegang Tempat Input HTML Sep 04, 2024 pm 04:54 PM

Panduan untuk Pemegang Tempat Input HTML. Di sini kita membincangkan Contoh Pemegang Tempat Input HTML bersama-sama dengan kod dan output.

Senarai Tertib HTML Senarai Tertib HTML Sep 04, 2024 pm 04:43 PM

Panduan kepada Senarai Tertib HTML. Di sini kami juga membincangkan pengenalan senarai dan jenis Tertib HTML bersama-sama dengan contoh mereka masing-masing

Memindahkan Teks dalam HTML Memindahkan Teks dalam HTML Sep 04, 2024 pm 04:45 PM

Panduan untuk Memindahkan Teks dalam HTML. Di sini kita membincangkan pengenalan, cara teg marquee berfungsi dengan sintaks dan contoh untuk dilaksanakan.

Butang onclick HTML Butang onclick HTML Sep 04, 2024 pm 04:49 PM

Panduan untuk Butang onclick HTML. Di sini kita membincangkan pengenalan, kerja, contoh dan onclick Event masing-masing dalam pelbagai acara.

See all articles