Jadual Kandungan
Algoritma
Pasang Sup Cantik
Ekstrak nilai atribut
Contoh 1: Ekstrak atribut href menggunakan kaedah find() dan kurungan segi empat sama
Output
Contoh 2: Gunakan attr untuk mencari elemen dengan atribut khusus
Contoh 3: Gunakan kaedah find_all() untuk mencari semua kejadian unsur
Contoh 4: Menggunakan select() untuk mencari elemen melalui pemilih CSS
Kesimpulan
Rumah pembangunan bahagian belakang Tutorial Python Ekstrak nilai atribut menggunakan Beautiful Soup dalam Python

Ekstrak nilai atribut menggunakan Beautiful Soup dalam Python

Sep 10, 2023 pm 07:05 PM

使用Python中的Beautiful Soup提取属性值

Untuk mengekstrak nilai atribut dengan Beautiful Soup, kita perlu menghuraikan dokumen HTML dan kemudian mengekstrak nilai atribut yang diperlukan. BeautifulSoup ialah perpustakaan Python untuk menghuraikan dokumen HTML dan XML. BeautifulSoup menyediakan pelbagai cara untuk mencari dan menavigasi pepohon hurai untuk mengekstrak data daripada dokumen dengan mudah. Dalam artikel ini, kami akan mengekstrak nilai atribut dengan bantuan Beautiful Soup dalam Python.

Algoritma

Anda boleh mengekstrak nilai atribut menggunakan sup cantik dalam Python dengan mengikut algoritma yang diberikan di bawah.

  • Gunakan kelas BeautifulSoup dalam perpustakaan bs4 untuk menghuraikan dokumen HTML.

  • Gunakan kaedah BeautifulSoup yang sesuai (seperti find() atau find_all()) untuk mencari elemen HTML yang mengandungi atribut yang ingin anda ekstrak.

  • Gunakan pernyataan bersyarat atau kaedah has_attr() untuk menyemak sama ada atribut wujud pada elemen.

  • Jika atribut wujud, ekstrak nilainya menggunakan kurungan segi empat sama ([]) dan nama atribut sebagai kunci.

  • Jika harta itu tidak wujud, sila uruskan ralat dengan sewajarnya.

Pasang Sup Cantik

Sebelum menggunakan perpustakaan Beautiful Soup, anda perlu memasangnya menggunakan pengurus pakej Python, arahan pip. Untuk memasang Beautiful Soup, masukkan arahan berikut dalam terminal atau command prompt.

pip install beautifulsoup4
Salin selepas log masuk

Ekstrak nilai atribut

Untuk mengekstrak nilai atribut daripada teg HTML, kita perlu menggunakan BeautifulSoup terlebih dahulu untuk menghuraikan dokumen HTML. Kemudian gunakan kaedah Beautiful Soup untuk mengekstrak nilai atribut tag tertentu dalam dokumen HTML.

Contoh 1: Ekstrak atribut href menggunakan kaedah find() dan kurungan segi empat sama

Dalam contoh di bawah, kami mula-mula mencipta dokumen HTML dan menghantarnya sebagai rentetan kepada pembina Beautiful Soup dengan jenis parser html.parser. Seterusnya, kami mencari teg "a" menggunakan kaedah find() objek sup. Ini akan mengembalikan kejadian pertama teg "a" dalam dokumen HTML. Akhir sekali, kami mengekstrak nilai atribut href daripada teg "a" menggunakan notasi kurungan segi empat sama. Ini akan mengembalikan nilai atribut href sebagai rentetan.

from bs4 import BeautifulSoup

# Parse the HTML document
html_doc = """
<html>
<body>
   <a href="https://www.google.com">Google</a>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Find the 'a' tag
a_tag = soup.find('a')

# Extract the value of the 'href' attribute
href_value = a_tag['href']

print(href_value)
Salin selepas log masuk

Output

https://www.google.com
Salin selepas log masuk

Contoh 2: Gunakan attr untuk mencari elemen dengan atribut khusus

Dalam contoh di bawah, kami menggunakan kaedah find_all() untuk mencari semua teg `a` dengan atribut href. Parameter `attrs` digunakan untuk menentukan atribut yang kami cari. `{‘href’: True}` menyatakan bahawa kita ingin mencari elemen dengan atribut href bagi sebarang nilai.

from bs4 import BeautifulSoup

# Parse the HTML document
html_doc = """
<html>
<body>
   <a href="https://www.google.com">Google</a>
   <a href="https://www.python.org">Python</a>
   <a>No Href</a>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Find all 'a' tags with an 'href' attribute
a_tags_with_href = soup.find_all('a', attrs={'href': True})
for tag in a_tags_with_href:
   print(tag['href'])
Salin selepas log masuk

Output

https://www.google.com
https://www.python.org
Salin selepas log masuk

Contoh 3: Gunakan kaedah find_all() untuk mencari semua kejadian unsur

Kadangkala anda mungkin ingin mencari semua kemunculan elemen HTML pada halaman web. Anda boleh menggunakan kaedah find_all() untuk mencapai ini. Dalam contoh di bawah, kami menggunakan kaedah find_all() untuk mencari semua teg div yang mempunyai kelas kontena. Kemudian kami mengulangi setiap teg div dan mencari teg h1 dan p di dalamnya.

from bs4 import BeautifulSoup

# Parse the HTML document
html_doc = """
<html>
<body>
   <div class="container">
      <h1>Heading 1</h1>
      <p>Paragraph 1</p>
   </div>
   <div class="container">
      <h1>Heading 2</h1>
      <p>Paragraph 2</p>
   </div>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Find all 'div' tags with class='container'
div_tags = soup.find_all('div', class_='container')
for div in div_tags:
   h1 = div.find('h1')
   p = div.find('p')
   print(h1.text, p.text)
Salin selepas log masuk

Output

Heading 1 Paragraph 1
Heading 2 Paragraph 2
Salin selepas log masuk

Contoh 4: Menggunakan select() untuk mencari elemen melalui pemilih CSS

Dalam contoh di bawah, kami menggunakan kaedah select() untuk mencari semua teg h1 di dalam teg div dengan bekas kelas. Pemilih CSS 'div.container h1' digunakan untuk mencapai ini. . digunakan untuk mewakili nama kelas, dan ruang digunakan untuk mewakili pemilih keturunan.

from bs4 import BeautifulSoup

# Parse the HTML document
html_doc = """
<html>
<body>
   <div class="container">
      <h1>Heading 1</h1>
      <p>Paragraph 1</p>
   </div>
   <div class="container">
      <h1>Heading 2</h1>
      <p>Paragraph 2</p>
   </div>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Find all 'h1' tags inside a 'div' tag with class='container'
h1_tags = soup.select('div.container h1')
for h1 in h1_tags:
   print(h1.text)
Salin selepas log masuk

Output

Heading 1
Heading 2
Salin selepas log masuk

Kesimpulan

Dalam artikel ini, kami membincangkan cara mengekstrak nilai atribut daripada dokumen HTML menggunakan perpustakaan Beautiful Soup dalam Python. Dengan menggunakan kaedah yang disediakan oleh BeautifulSoup, kami boleh mengekstrak data yang diperlukan dengan mudah daripada dokumen HTML dan XML.

Atas ialah kandungan terperinci Ekstrak nilai atribut menggunakan Beautiful Soup dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Bagaimana untuk menyelesaikan masalah kebenaran yang dihadapi semasa melihat versi Python di Terminal Linux? Bagaimana untuk menyelesaikan masalah kebenaran yang dihadapi semasa melihat versi Python di Terminal Linux? Apr 01, 2025 pm 05:09 PM

Penyelesaian kepada Isu Kebenaran Semasa Melihat Versi Python di Terminal Linux Apabila anda cuba melihat versi Python di Terminal Linux, masukkan Python ...

Bagaimana cara menyalin seluruh lajur satu data ke dalam data data lain dengan struktur yang berbeza di Python? Bagaimana cara menyalin seluruh lajur satu data ke dalam data data lain dengan struktur yang berbeza di Python? Apr 01, 2025 pm 11:15 PM

Apabila menggunakan Perpustakaan Pandas Python, bagaimana untuk menyalin seluruh lajur antara dua data data dengan struktur yang berbeza adalah masalah biasa. Katakan kita mempunyai dua DAT ...

Bagaimana Mengajar Asas Pengaturcaraan Pemula Komputer Dalam Kaedah Projek dan Masalah Dikemukakan Dalam masa 10 Jam? Bagaimana Mengajar Asas Pengaturcaraan Pemula Komputer Dalam Kaedah Projek dan Masalah Dikemukakan Dalam masa 10 Jam? Apr 02, 2025 am 07:18 AM

Bagaimana Mengajar Asas Pengaturcaraan Pemula Komputer Dalam masa 10 jam? Sekiranya anda hanya mempunyai 10 jam untuk mengajar pemula komputer beberapa pengetahuan pengaturcaraan, apa yang akan anda pilih untuk mengajar ...

Bagaimana untuk mengelakkan dikesan oleh penyemak imbas apabila menggunakan fiddler di mana-mana untuk membaca lelaki-dalam-tengah? Bagaimana untuk mengelakkan dikesan oleh penyemak imbas apabila menggunakan fiddler di mana-mana untuk membaca lelaki-dalam-tengah? Apr 02, 2025 am 07:15 AM

Cara mengelakkan dikesan semasa menggunakan fiddlerevery di mana untuk bacaan lelaki-dalam-pertengahan apabila anda menggunakan fiddlerevery di mana ...

Apakah ungkapan biasa? Apakah ungkapan biasa? Mar 20, 2025 pm 06:25 PM

Ekspresi biasa adalah alat yang berkuasa untuk memadankan corak dan manipulasi teks dalam pengaturcaraan, meningkatkan kecekapan dalam pemprosesan teks merentasi pelbagai aplikasi.

Bagaimanakah uvicorn terus mendengar permintaan http tanpa serving_forever ()? Bagaimanakah uvicorn terus mendengar permintaan http tanpa serving_forever ()? Apr 01, 2025 pm 10:51 PM

Bagaimanakah Uvicorn terus mendengar permintaan HTTP? Uvicorn adalah pelayan web ringan berdasarkan ASGI. Salah satu fungsi terasnya ialah mendengar permintaan HTTP dan teruskan ...

Bagaimana secara dinamik membuat objek melalui rentetan dan panggil kaedahnya dalam Python? Bagaimana secara dinamik membuat objek melalui rentetan dan panggil kaedahnya dalam Python? Apr 01, 2025 pm 11:18 PM

Di Python, bagaimana untuk membuat objek secara dinamik melalui rentetan dan panggil kaedahnya? Ini adalah keperluan pengaturcaraan yang biasa, terutamanya jika perlu dikonfigurasikan atau dijalankan ...

Apakah beberapa perpustakaan Python yang popular dan kegunaan mereka? Apakah beberapa perpustakaan Python yang popular dan kegunaan mereka? Mar 21, 2025 pm 06:46 PM

Artikel ini membincangkan perpustakaan Python yang popular seperti Numpy, Pandas, Matplotlib, Scikit-Learn, Tensorflow, Django, Flask, dan Permintaan, memperincikan kegunaan mereka dalam pengkomputeran saintifik, analisis data, visualisasi, pembelajaran mesin, pembangunan web, dan h

See all articles