문자열을 특정 태그 수로 분할해야 합니다 (<li>, <lu> ...)
. 정규식을 알아냈습니다
pattern = <li>|<ul>|<ol>|<li>|<dl>|<dt>|<dd>|<h1>|<h2>| <h3>|<h4>|<h5>|<h6>
和 re.split
기본적으로 작업이 완료됩니다
으아악하지만 여는 태그와 닫는 태그를 캡처하여 분할된 텍스트에 태그를 유지하고 싶습니다. 비슷한거
test_string = '<p> Some text some text some text. </p> <p> Another text another text </p>. <li> some list </li>. <ul> another list </ul>' res = re.search(test_string, pattern) -> `['<p> Some text some text some text. </p> <p> Another text another text </p>. ', ' some list </li>. ', ' another list </ul>']`
특정 질문에 답변하려면:
으아악그리고 분할 대신 일치합니다.
1
은 여는 태그에 담긴 내용을 말합니다.유사한 것:
으아악그러나 대부분의 실제 경우 이는 HTML을 처리하기에 충분하지 않으며 DOM 파서를 고려해야 합니다.