


Ekstrak nilai atribut menggunakan Beautiful Soup dalam Python
Untuk mengekstrak nilai atribut dengan Beautiful Soup, kita perlu menghuraikan dokumen HTML dan kemudian mengekstrak nilai atribut yang diperlukan. BeautifulSoup ialah perpustakaan Python untuk menghuraikan dokumen HTML dan XML. BeautifulSoup menyediakan pelbagai cara untuk mencari dan menavigasi pepohon hurai untuk mengekstrak data daripada dokumen dengan mudah. Dalam artikel ini, kami akan mengekstrak nilai atribut dengan bantuan Beautiful Soup dalam Python.
Algoritma
Anda boleh mengekstrak nilai atribut menggunakan sup cantik dalam Python dengan mengikut algoritma yang diberikan di bawah.
Gunakan kelas BeautifulSoup dalam perpustakaan bs4 untuk menghuraikan dokumen HTML.
Gunakan kaedah BeautifulSoup yang sesuai (seperti find() atau find_all()) untuk mencari elemen HTML yang mengandungi atribut yang ingin anda ekstrak.
Gunakan pernyataan bersyarat atau kaedah has_attr() untuk menyemak sama ada atribut wujud pada elemen.
Jika atribut wujud, ekstrak nilainya menggunakan kurungan segi empat sama ([]) dan nama atribut sebagai kunci.
Jika harta itu tidak wujud, sila uruskan ralat dengan sewajarnya.
Pasang Sup Cantik
Sebelum menggunakan perpustakaan Beautiful Soup, anda perlu memasangnya menggunakan pengurus pakej Python, arahan pip. Untuk memasang Beautiful Soup, masukkan arahan berikut dalam terminal atau command prompt.
pip install beautifulsoup4
Ekstrak nilai atribut
Untuk mengekstrak nilai atribut daripada teg HTML, kita perlu menggunakan BeautifulSoup terlebih dahulu untuk menghuraikan dokumen HTML. Kemudian gunakan kaedah Beautiful Soup untuk mengekstrak nilai atribut tag tertentu dalam dokumen HTML.
Contoh 1: Ekstrak atribut href menggunakan kaedah find() dan kurungan segi empat sama
Dalam contoh di bawah, kami mula-mula mencipta dokumen HTML dan menghantarnya sebagai rentetan kepada pembina Beautiful Soup dengan jenis parser html.parser. Seterusnya, kami mencari teg "a" menggunakan kaedah find() objek sup. Ini akan mengembalikan kejadian pertama teg "a" dalam dokumen HTML. Akhir sekali, kami mengekstrak nilai atribut href daripada teg "a" menggunakan notasi kurungan segi empat sama. Ini akan mengembalikan nilai atribut href sebagai rentetan.
from bs4 import BeautifulSoup # Parse the HTML document html_doc = """ <html> <body> <a href="https://www.google.com">Google</a> </body> </html> """ soup = BeautifulSoup(html_doc, 'html.parser') # Find the 'a' tag a_tag = soup.find('a') # Extract the value of the 'href' attribute href_value = a_tag['href'] print(href_value)
Output
https://www.google.com
Contoh 2: Gunakan attr untuk mencari elemen dengan atribut khusus
Dalam contoh di bawah, kami menggunakan kaedah find_all() untuk mencari semua teg `a` dengan atribut href. Parameter `attrs` digunakan untuk menentukan atribut yang kami cari. `{‘href’: True}` menyatakan bahawa kita ingin mencari elemen dengan atribut href bagi sebarang nilai.
from bs4 import BeautifulSoup # Parse the HTML document html_doc = """ <html> <body> <a href="https://www.google.com">Google</a> <a href="https://www.python.org">Python</a> <a>No Href</a> </body> </html> """ soup = BeautifulSoup(html_doc, 'html.parser') # Find all 'a' tags with an 'href' attribute a_tags_with_href = soup.find_all('a', attrs={'href': True}) for tag in a_tags_with_href: print(tag['href'])
Output
https://www.google.com https://www.python.org
Contoh 3: Gunakan kaedah find_all() untuk mencari semua kejadian unsur
Kadangkala anda mungkin ingin mencari semua kemunculan elemen HTML pada halaman web. Anda boleh menggunakan kaedah find_all() untuk mencapai ini. Dalam contoh di bawah, kami menggunakan kaedah find_all() untuk mencari semua teg div yang mempunyai kelas kontena. Kemudian kami mengulangi setiap teg div dan mencari teg h1 dan p di dalamnya.
from bs4 import BeautifulSoup # Parse the HTML document html_doc = """ <html> <body> <div class="container"> <h1>Heading 1</h1> <p>Paragraph 1</p> </div> <div class="container"> <h1>Heading 2</h1> <p>Paragraph 2</p> </div> </body> </html> """ soup = BeautifulSoup(html_doc, 'html.parser') # Find all 'div' tags with class='container' div_tags = soup.find_all('div', class_='container') for div in div_tags: h1 = div.find('h1') p = div.find('p') print(h1.text, p.text)
Output
Heading 1 Paragraph 1 Heading 2 Paragraph 2
Contoh 4: Menggunakan select() untuk mencari elemen melalui pemilih CSS
Dalam contoh di bawah, kami menggunakan kaedah select() untuk mencari semua teg h1 di dalam teg div dengan bekas kelas. Pemilih CSS 'div.container h1' digunakan untuk mencapai ini. . digunakan untuk mewakili nama kelas, dan ruang digunakan untuk mewakili pemilih keturunan.
from bs4 import BeautifulSoup # Parse the HTML document html_doc = """ <html> <body> <div class="container"> <h1>Heading 1</h1> <p>Paragraph 1</p> </div> <div class="container"> <h1>Heading 2</h1> <p>Paragraph 2</p> </div> </body> </html> """ soup = BeautifulSoup(html_doc, 'html.parser') # Find all 'h1' tags inside a 'div' tag with class='container' h1_tags = soup.select('div.container h1') for h1 in h1_tags: print(h1.text)
Output
Heading 1 Heading 2
Kesimpulan
Dalam artikel ini, kami membincangkan cara mengekstrak nilai atribut daripada dokumen HTML menggunakan perpustakaan Beautiful Soup dalam Python. Dengan menggunakan kaedah yang disediakan oleh BeautifulSoup, kami boleh mengekstrak data yang diperlukan dengan mudah daripada dokumen HTML dan XML.
Atas ialah kandungan terperinci Ekstrak nilai atribut menggunakan Beautiful Soup dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Penyelesaian kepada Isu Kebenaran Semasa Melihat Versi Python di Terminal Linux Apabila anda cuba melihat versi Python di Terminal Linux, masukkan Python ...

Apabila menggunakan Perpustakaan Pandas Python, bagaimana untuk menyalin seluruh lajur antara dua data data dengan struktur yang berbeza adalah masalah biasa. Katakan kita mempunyai dua DAT ...

Bagaimana Mengajar Asas Pengaturcaraan Pemula Komputer Dalam masa 10 jam? Sekiranya anda hanya mempunyai 10 jam untuk mengajar pemula komputer beberapa pengetahuan pengaturcaraan, apa yang akan anda pilih untuk mengajar ...

Cara mengelakkan dikesan semasa menggunakan fiddlerevery di mana untuk bacaan lelaki-dalam-pertengahan apabila anda menggunakan fiddlerevery di mana ...

Ekspresi biasa adalah alat yang berkuasa untuk memadankan corak dan manipulasi teks dalam pengaturcaraan, meningkatkan kecekapan dalam pemprosesan teks merentasi pelbagai aplikasi.

Bagaimanakah Uvicorn terus mendengar permintaan HTTP? Uvicorn adalah pelayan web ringan berdasarkan ASGI. Salah satu fungsi terasnya ialah mendengar permintaan HTTP dan teruskan ...

Di Python, bagaimana untuk membuat objek secara dinamik melalui rentetan dan panggil kaedahnya? Ini adalah keperluan pengaturcaraan yang biasa, terutamanya jika perlu dikonfigurasikan atau dijalankan ...

Artikel ini membincangkan perpustakaan Python yang popular seperti Numpy, Pandas, Matplotlib, Scikit-Learn, Tensorflow, Django, Flask, dan Permintaan, memperincikan kegunaan mereka dalam pengkomputeran saintifik, analisis data, visualisasi, pembelajaran mesin, pembangunan web, dan h
