Dalam pembangunan web, kami selalunya perlu mengendalikan tag HTML untuk mencapai fungsi yang diperlukan. Tetapi kadangkala, kod HTML yang kami perolehi mengandungi beberapa teg yang kami tidak perlukan atau tidak mahu paparkan Pada masa ini, kami perlu melakukan operasi penggantian teg. Artikel ini akan memperkenalkan pengetahuan dan kaedah yang berkaitan dengan penggantian teg HTML.
Apabila menggantikan teg, kaedah yang paling biasa ialah menggunakan ungkapan biasa untuk dipadankan dan diganti. Ungkapan biasa ialah alat padanan teks yang berkuasa yang boleh digunakan untuk memadankan teg dalam teks HTML.
Berikut ialah contoh mudah, kami akan menggantikan semua tag dalam teks html dengan tag span.
import re html = '<div><a href="http://www.baidu.com">百度</a></div>' pattern = re.compile(r'<a.*?>(.*?)</a>') result = re.sub(pattern, r'<span></span>', html) print(result) # '<div><span>百度</span></div>'
Dalam kod di atas, kami menggunakan ungkapan biasa untuk memadankan teg a, mengekstrak kandungan di tengah teg dan kemudian menggantikannya dengan kandungan di tengah teg span. Antaranya, .*?
bermaksud memadankan mana-mana aksara (mod tidak tamak), .*
bermaksud memadankan mana-mana aksara (mod tamak) dan bermaksud merujuk set pertama kandungan dipadankan.
Selain contoh mudah ini, ungkapan biasa juga boleh melaksanakan fungsi penggantian teg HTML yang lebih kompleks.
Selain ungkapan biasa, kaedah lain yang sangat biasa untuk menggantikan teg HTML ialah menggunakan perpustakaan BeautifulSoup. BeautifulSoup ialah perpustakaan Python yang boleh mengekstrak data daripada fail HTML atau XML. Ia boleh menghuraikan dokumen HTML dan menyediakan API untuk memanipulasi dokumen HTML.
Berikut ialah contoh mudah, kami akan menggantikan semua tag img dalam teks html dengan tag div.
from bs4 import BeautifulSoup html = '<div><img src="1.jpg"><img src="2.jpg"></div>' soup = BeautifulSoup(html, 'html.parser') for img in soup.find_all('img'): div = soup.new_tag('div') div.string = img['src'] img.replace_with(div) print(soup.prettify()) # '<div><div>1.jpg</div><div>2.jpg</div></div>'
Dalam kod di atas, kami mula-mula menggunakan perpustakaan BeautifulSoup untuk menghuraikan teks HTML, dan kemudian menggunakan kaedah find_all()
untuk mencari semua teg img. Kemudian gelung melalui semua teg img, gunakan kaedah new_tag()
untuk mencipta teg div baharu dan tetapkan nilai atribut src dalam teg img kepada kandungan dalam teg div. Akhir sekali, gunakan kaedah replace_with()
untuk menggantikan teg img dengan teg div.
Selain menggantikan teg, BeautifulSoup juga menyediakan beberapa kaedah mudah untuk menambah, memadam, mengubah suai teg, dsb. Jika kita perlu melakukan sejumlah besar operasi teg dalam HTML, menggunakan BeautifulSoup boleh mengurangkan jumlah kod dan meningkatkan kecekapan pembangunan.
Penggantian teg HTML ialah operasi yang biasa digunakan dalam pembangunan web, yang membolehkan kami memproses kandungan dalam teks HTML dengan lebih mudah. Artikel ini memperkenalkan dua kaedah penggantian teg HTML yang biasa digunakan: ungkapan biasa dan perpustakaan BeautifulSoup. Ekspresi biasa ialah alat pemadanan teks yang berkuasa yang boleh merealisasikan kebanyakan fungsi penggantian teg HTML manakala perpustakaan BeautifulSoup menyediakan API yang lebih mudah yang boleh melaksanakan operasi teg yang lebih kompleks. Pada masa yang sama, kami juga boleh menggabungkan kedua-dua kaedah dan menggunakan kelebihan masing-masing untuk mencapai fungsi penggantian label yang lebih berkuasa dan cekap.
Atas ialah kandungan terperinci menggantikan tag html. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!