html kepada json

PHPz
Lepaskan: 2023-04-21 15:16:33
asal
194 orang telah melayarinya

Penukaran HTML kepada JSON: dilaksanakan melalui Python

Dengan peningkatan data besar dan kecerdasan buatan, pemprosesan data dan kemahiran analisis statistik menjadi semakin penting. Untuk pembangun web, HTML ialah salah satu format data yang paling biasa digunakan. Dalam artikel ini, kita akan belajar cara menukar HTML kepada format JSON untuk lebih banyak pemprosesan data dan analisis statistik dalam Python.

Apakah itu JSON?

JSON (JavaScript Object Notation) ialah format pertukaran data yang ringan. Ia berdasarkan sintaks objek JavaScript, tetapi kini telah menjadi format data bebas dan digunakan secara meluas dalam perkhidmatan web dan pertukaran data. Berbanding dengan XML, JSON adalah lebih ringkas, lebih pantas, lebih mudah digunakan dan difahami, jadi ia sering digunakan untuk pertukaran data bahagian hadapan dan belakang.

Mengapa anda perlu menukar HTML kepada JSON?

Pembangunan web selalunya memerlukan pengekstrakan data daripada pelbagai tapak web dan API dan menggunakannya untuk analisis atau paparan dalam tapak web anda sendiri. HTML mungkin salah satu format data, tetapi dalam kebanyakan kes kami mahu menukarnya kepada format JSON. Ini kerana format JSON lebih padat, lebih mudah untuk diproses dan dihantar, dan lebih serba boleh, membolehkan ia digunakan untuk pertukaran data antara pelbagai bahasa dan teknologi.

Atur cara Python untuk menukar HTML kepada JSON

Python ialah bahasa pengaturcaraan yang popular dengan perpustakaan dan alatan yang kaya yang boleh menukar HTML kepada JSON dengan mudah. Dalam artikel ini, kami akan menggunakan perpustakaan Python Beautiful Soup dan lxml untuk menghuraikan HTML dan menukarnya kepada format JSON. Berikut ialah langkah pelaksanaan:

  1. Pasang perpustakaan dan alatan yang diperlukan

Untuk menukar HTML kepada JSON dalam Python, kita perlu menggunakan perpustakaan dan alatan berikut:

  • Sup Cantik: digunakan untuk menghuraikan dokumen HTML
  • lxml: Penghurai Sup Cantik, digunakan untuk menghuraikan dokumen HTML ke dalam struktur pokok
  • json: Perpustakaan JSON terbina dalam Python untuk memproses data JSON

Anda boleh memasang perpustakaan dan alatan ini menggunakan alatan PIP (cth. pip install beautifulsoup4 lxml).

  1. Sediakan dokumen HTML

Sebelum menukar HTML kepada JSON, anda perlu menyediakan dokumen HTML untuk ditukar. Ini boleh menjadi kod HTML yang disalin daripada halaman web, atau dokumen HTML yang dibaca daripada fail setempat. Dalam artikel ini, kami akan menggunakan kod HTML berikut sebagai contoh:



Halaman Web Saya
< ;/ kepala>

Selamat datang ke Halaman Web saya


Ini adalah percubaan pertama saya untuk mencipta Halaman Web.



  1. Gunakan Beautiful Soup dan lxml untuk menghuraikan dokumen HTML

Dengan dokumen HTML, kita boleh menggunakan Sup cantik dan lxml untuk menghuraikannya. Berikut ialah kod Python:

dari bs4 import BeautifulSoup
import lxml

html_doc = """


Halaman Web Saya


Selamat Datang ke Halaman Web saya


ialah percubaan pertama saya untuk mencipta Halaman Web.




"""

sup = BeautifulSoup(html_doc, " lxml" )

Kod ini menghuraikan dokumen HTML ke dalam struktur pokok, dan kita boleh menggunakan fungsi dan kaedah Beautiful Soup untuk mendapatkan pelbagai bahagian dokumen HTML.

  1. Tukar HTML kepada JSON

Kami boleh menukarnya kepada format JSON dengan melintasi dokumen HTML yang dihuraikan. Berikut ialah contoh kod Python:

import json

Dapatkan tajuk HTML

title = soup.title.string

Dapatkan badan HTML

body = sup.body
content_list = []
untuk tag dalam body.descendants:
jika tag.string bukan Tiada:

<code>content_list.append(tag.string.strip())</code>
Salin selepas log masuk

content = " ". join( content_list)

Tukar HTML kepada JSON

web_page = {"title": title, "content": content}
json_data = json.dumps(web_page)

print(json_data)

Hasil output adalah seperti berikut:

{"title": "Halaman Web Saya", "kandungan": "Selamat Datang ke Halaman Web saya Ini adalah yang pertama saya cuba mencipta Halaman Web."}

Dengan melintasi dokumen HTML yang dihuraikan, kami memperoleh tajuk dan kandungan HTML dan menukarnya kepada format JSON. Kami menggunakan perpustakaan json Python untuk menukar data JSON kepada rentetan dan kemudian mencetak data JSON.

Kesimpulan

Dalam artikel ini, kami mempelajari cara menukar HTML kepada format JSON menggunakan Python’s Beautiful Soup dan perpustakaan lxml. Melalui kaedah ini, kami boleh mengekstrak data dari halaman web HTML dan melakukan lebih banyak pemprosesan dan analisis dalam persekitaran Python. Pendekatan ini boleh memainkan peranan penting dalam pembangunan web, pemprosesan data dan analisis data.

Atas ialah kandungan terperinci html kepada json. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan