Saya perlu membelah rentetan dengan bilangan tag tertentu (<li>, <lu> ...)
. Saya tahu ungkapan biasa
pattern = <li>|<ul>|<ol>|<li>|<dl>|<dt>|<dd>|<h1>|<h2>| <h3>|<h4>|<h5>|<h6>
和 re.split
Pada asasnya ia menyelesaikan kerja
test_string = '<p> Some text some text some text. </p> <p> Another text another text </p>. <li> some list </li>. <ul> another list </ul>' res = re.search(test_string, pattern) -> `['<p> Some text some text some text. </p> <p> Another text another text </p>. ', ' some list </li>. ', ' another list </ul>']`
Tetapi saya ingin menangkap teg pembuka dan penutup dan menyimpan teg dalam teks berpecah. Sesuatu yang serupa
['<p> Some text some text some text. </p> <p> Another text another text </p>. ', '<li> some list </li>. ', '<ul>another list </ul>']`
Untuk menjawab soalan khusus anda:
Dan padankan bukannya berpecah.
1
merujuk kepada apa yang ditangkap dalam tag pembukaan.Serupa dengan:
Walau bagaimanapun, dalam kebanyakan kes sebenar ini tidak mencukupi untuk mengendalikan HTML dan anda harus mempertimbangkan penghurai DOM.