BeautifulSoup: Top-Level-Text mit klassischer Tag-Suchfunktion kombinieren?

Question

Ich versuche, BeautifulSoup zu verwenden, um Informationen aus einem nicht einheitlich strukturierten HTML-Block zu extrahieren. Ich suche nach einer Möglichkeit, Textblöcke zwischen Tags in der Such-/Filterausgabe zu kombinieren. Zum Beispiel aus HTML: DescriptionSection1

line1
line2

P粉905144514 · Answer

要获得输出，您可以先选择，然后选择它的next_sibling。

示例

from bs4 import BeautifulSoup
html = '''

    Description
    Section1
    
        line1
        line2
        line3
    
    Section2
    Content2    

'''
soup = BeautifulSoup(html)

data = []

for e in soup.select('strong'):
    data.extend([e,e.next_sibling.strip()])

data

输出

[Description,
 'Section1',
 Section2,
 'Content2']