Python と BeautifulSoup を使用した Web ページのリンクの取得
Web ページからのリンクの抽出は、Web スクレイピングの一般的なタスクです。これは、Python の BeautifulSoup ライブラリを使用して簡単に実現できます。
SoupStrainer の使用
最適なパフォーマンスを得るには、BeautifulSoup の SoupStrainer を利用してください。このクラスを使用すると、目的のタグ タイプを指定することで、対象を絞った解析が可能になります。リンクを取得するには、次のコマンドを使用します。
parse_only=SoupStrainer('a')
リンク URL の取得
リンクの URL を取得するには、「a」タグの「href」属性を調べます。 :
for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')): if link.has_attr('href'): print(link['href'])
美しいスープドキュメント
詳細なガイダンスについては、広範な BeautifulSoup ドキュメントを参照してください:
追加Notes
SoupStrainer は、メモリ消費量と処理時間を削減することでパフォーマンスを向上させます。これは、解析されるコンテンツが事前にわかっている場合に特に役立ちます。
以上がPython と BeautifulSoup を使用して Web ページのリンクを効率的に抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。