1つの一般的なDOM検索方法は
です。この方法は、元の注文を保持している要素のリストをタグに追加します。ただし、単にで拡張すると、適切なHTMLタグではなく、要素が文字列として追加される可能性があります。
extend()
extend()
上記の例は、この文字列ベースの追加を示しています。 適切なHTMLタグとして要素を追加するには、
import requests from bs4 import BeautifulSoup req = requests.get('https://en.wikipedia.org/wiki/Python_(programming_language)') soup = BeautifulSoup(req.text, "lxml") new_soup = BeautifulSoup("<ol></ol>", "lxml") new_soup.ol.extend(['
wrap()
unwrap()
ここで、
soup = BeautifulSoup("<p>We will <i>try</i> to get rid of <b>tags</b> that make text <b>bold</b> or <i>italic</i>. The content <i>within</i> the <b>tags</b> should still be <b>preserved</b>.</p>", "lxml") for unwanted_tag in soup.find_all(["b", "i"]): unwanted_tag.unwrap() print(soup.p.contents) soup.p.smooth() print(soup.p.contents)
メソッドは、これらの文字列を単一の文字列に連結して、出力を簡素化します。
unwrap()
NavigableStrings
結論smooth()
これらのチュートリアルは、美しいスープでウェブスクレイピングの基盤を提供します。 Webページを解析し、データを抽出し、HTML構造を変更し、結果をローカルに保存する方法を学びました。 これにより、さまざまなアプリケーションのWebコンテンツを効果的に処理および操作することができます。
以上が美しいスープでPythonでWebページを削る:検索とDOMの変更の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。