BeautifulSoup を使用して、不均一な構造の HTML ブロックから情報を抽出しようとしています。検索/フィルター出力のタグ間のテキストのブロックを結合する方法を探しています。たとえば、HTML から:
リーリー特定の種類のタグ (上記の例では ul
と li
) を無視し、タグなしの最上位テキストをキャプチャする出力リストを作成したいと考えています。私が見つけた最も近いのは .select(':not(ul,li)')
または .find_all(['strong'])
ですが、どちらも機能しませんトップレベルのテキストとさまざまなターゲットタグを同時に表示します。理想的な動作は次のとおりです:
次の出力が生成されます:
ああああ
出力を取得するには、まず
###例### リーリー ###出力### リーリーを選択し、次にその
next_sibling
を選択します。