Webスクレイピング:Webページからデータを効率的に抽出
このチュートリアルでは、Webページのコンテンツのレンダリング方法と、Python、リクエスト、美しいスープ、セレンを使用してそれを削る方法を説明しています。 ダイナミックコンテンツのスクレイピング、特にコメントに焦点を当てますいつウェブスクレイピングが必要ですか?
Webスクレイピングは、Webページから情報を自動的に取得、解析、抽出します。 APIが利用できないときの最後の手段です。 これらの欠点を考慮してください:
ブラウザでは、HTMLソースを表示できます。 「Vagrantの紹介」ソースは、記事のコンテンツ自体とは無関係の模倣されたJavaScriptのかなりの部分を明らかにしています。 小さな抜粋を以下に示します:
これが実際のHTML:
のサンプルです
static vs. dynamic scraping
静的スクレイピング
ダイナミックスクレイピング
ウェブサイトからコメントをこすりましょう(例:Codecanyonコメント)。 Seleniumを使用して、コメントURLに移動します
コメント要素を見つけるには、ページを検査する必要があります(右クリック、「検査」)。 Seleniumのは、非同期負荷を処理するのに役立ちます:
必要なデータがAPIを介して容易に入手できない場合、 このチュートリアルには、Envato Tutsのソフトウェア開発者兼ライターであるEsther Vaatiからの貢献が組み込まれています。from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://codecanyon.net/item/whatshelp-whatsapp-help-and-support-plugin-for-javascript/42202303/comments')
以上が美しいスープとセレンでモダンなウェブスクレイピングの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。