Untuk mengekstrak nilai atribut dengan Beautiful Soup, kita perlu menghuraikan dokumen HTML dan kemudian mengekstrak nilai atribut yang diperlukan. BeautifulSoup ialah perpustakaan Python untuk menghuraikan dokumen HTML dan XML. BeautifulSoup menyediakan pelbagai cara untuk mencari dan menavigasi pepohon hurai untuk mengekstrak data daripada dokumen dengan mudah. Dalam artikel ini, kami akan mengekstrak nilai atribut dengan bantuan Beautiful Soup dalam Python.
Anda boleh mengekstrak nilai atribut menggunakan sup cantik dalam Python dengan mengikut algoritma yang diberikan di bawah.
Gunakan kelas BeautifulSoup dalam perpustakaan bs4 untuk menghuraikan dokumen HTML.
Gunakan kaedah BeautifulSoup yang sesuai (seperti find() atau find_all()) untuk mencari elemen HTML yang mengandungi atribut yang ingin anda ekstrak.
Gunakan pernyataan bersyarat atau kaedah has_attr() untuk menyemak sama ada atribut wujud pada elemen.
Jika atribut wujud, ekstrak nilainya menggunakan kurungan segi empat sama ([]) dan nama atribut sebagai kunci.
Jika harta itu tidak wujud, sila uruskan ralat dengan sewajarnya.
Sebelum menggunakan perpustakaan Beautiful Soup, anda perlu memasangnya menggunakan pengurus pakej Python, arahan pip. Untuk memasang Beautiful Soup, masukkan arahan berikut dalam terminal atau command prompt.
pip install beautifulsoup4
Untuk mengekstrak nilai atribut daripada teg HTML, kita perlu menggunakan BeautifulSoup terlebih dahulu untuk menghuraikan dokumen HTML. Kemudian gunakan kaedah Beautiful Soup untuk mengekstrak nilai atribut tag tertentu dalam dokumen HTML.
Dalam contoh di bawah, kami mula-mula mencipta dokumen HTML dan menghantarnya sebagai rentetan kepada pembina Beautiful Soup dengan jenis parser html.parser. Seterusnya, kami mencari teg "a" menggunakan kaedah find() objek sup. Ini akan mengembalikan kejadian pertama teg "a" dalam dokumen HTML. Akhir sekali, kami mengekstrak nilai atribut href daripada teg "a" menggunakan notasi kurungan segi empat sama. Ini akan mengembalikan nilai atribut href sebagai rentetan.
from bs4 import BeautifulSoup # Parse the HTML document html_doc = """ <html> <body> <a href="https://www.google.com">Google</a> </body> </html> """ soup = BeautifulSoup(html_doc, 'html.parser') # Find the 'a' tag a_tag = soup.find('a') # Extract the value of the 'href' attribute href_value = a_tag['href'] print(href_value)
https://www.google.com
Dalam contoh di bawah, kami menggunakan kaedah find_all() untuk mencari semua teg `a` dengan atribut href. Parameter `attrs` digunakan untuk menentukan atribut yang kami cari. `{‘href’: True}` menyatakan bahawa kita ingin mencari elemen dengan atribut href bagi sebarang nilai.
from bs4 import BeautifulSoup # Parse the HTML document html_doc = """ <html> <body> <a href="https://www.google.com">Google</a> <a href="https://www.python.org">Python</a> <a>No Href</a> </body> </html> """ soup = BeautifulSoup(html_doc, 'html.parser') # Find all 'a' tags with an 'href' attribute a_tags_with_href = soup.find_all('a', attrs={'href': True}) for tag in a_tags_with_href: print(tag['href'])
https://www.google.com https://www.python.org
Kadangkala anda mungkin ingin mencari semua kemunculan elemen HTML pada halaman web. Anda boleh menggunakan kaedah find_all() untuk mencapai ini. Dalam contoh di bawah, kami menggunakan kaedah find_all() untuk mencari semua teg div yang mempunyai kelas kontena. Kemudian kami mengulangi setiap teg div dan mencari teg h1 dan p di dalamnya.
from bs4 import BeautifulSoup # Parse the HTML document html_doc = """ <html> <body> <div class="container"> <h1>Heading 1</h1> <p>Paragraph 1</p> </div> <div class="container"> <h1>Heading 2</h1> <p>Paragraph 2</p> </div> </body> </html> """ soup = BeautifulSoup(html_doc, 'html.parser') # Find all 'div' tags with class='container' div_tags = soup.find_all('div', class_='container') for div in div_tags: h1 = div.find('h1') p = div.find('p') print(h1.text, p.text)
Heading 1 Paragraph 1 Heading 2 Paragraph 2
Dalam contoh di bawah, kami menggunakan kaedah select() untuk mencari semua teg h1 di dalam teg div dengan bekas kelas. Pemilih CSS 'div.container h1' digunakan untuk mencapai ini. . digunakan untuk mewakili nama kelas, dan ruang digunakan untuk mewakili pemilih keturunan.
from bs4 import BeautifulSoup # Parse the HTML document html_doc = """ <html> <body> <div class="container"> <h1>Heading 1</h1> <p>Paragraph 1</p> </div> <div class="container"> <h1>Heading 2</h1> <p>Paragraph 2</p> </div> </body> </html> """ soup = BeautifulSoup(html_doc, 'html.parser') # Find all 'h1' tags inside a 'div' tag with class='container' h1_tags = soup.select('div.container h1') for h1 in h1_tags: print(h1.text)
Heading 1 Heading 2
Dalam artikel ini, kami membincangkan cara mengekstrak nilai atribut daripada dokumen HTML menggunakan perpustakaan Beautiful Soup dalam Python. Dengan menggunakan kaedah yang disediakan oleh BeautifulSoup, kami boleh mengekstrak data yang diperlukan dengan mudah daripada dokumen HTML dan XML.
Atas ialah kandungan terperinci Ekstrak nilai atribut menggunakan Beautiful Soup dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!