Selenium を使用して Python で Web ページ データをクロールする方法
1. Selenium とは
Web クローラーは、Web ページ上のデータを自動的に取得できる、Python プログラミングにおける非常に便利な技術です。
Selenium は、ボタンのクリックやフォームへの入力など、ブラウザーでのユーザー操作をシミュレートできる自動テスト ツールです。 BeautifulSoup やリクエストなどの一般的に使用されるクローラー ライブラリとは異なり、Selenium は JavaScript によって動的に読み込まれるコンテンツを処理できるため、ユーザー インタラクションをシミュレートして取得する必要があるデータには非常に適しています。
2. Selenium のインストール
Selenium を使用するには、まずインストールする必要があります。 pip コマンドを使用して、Selenium ライブラリをインストールできます。
pip install selenium
インストールが完了したら、Selenium で動作するブラウザ ドライバもダウンロードする必要があります。この記事では Chrome ブラウザを例に説明していますので、Chrome ブラウザのバージョンに応じた ChromeDriver をダウンロードする必要があります。ダウンロード アドレス: sites.google.com/a/chromium.…
ダウンロードして解凍した後、chromedriver.exe ファイルを適切な場所に置き、その場所を覚えておきます。後で必要になります。コード。
3. Web ページ データのクロール
以下は簡単な例で、Selenium を使用して Web ページをクロールし、ページ タイトルを出力します。
from selenium import webdriver # 指定chromedriver.exe的路径 driver_path = r"C:\path\to\chromedriver.exe" # 创建一个WebDriver实例,指定使用Chrome浏览器 driver = webdriver.Chrome(driver_path) # 访问目标网站 driver.get("https://www.example.com") # 获取网页标题 page_title = driver.title print("Page Title:", page_title) # 关闭浏览器 driver.quit()
4. ユーザー操作のシミュレーション
Selenium は、ボタンのクリック、フォームへの入力など、ブラウザーでのさまざまなユーザー操作をシミュレートできます。以下は、Selenium を使用して Web サイトでログイン操作を実行する例です。
from selenium import webdriver from selenium.webdriver.common.keys import Keys driver_path = r"C:\path\to\chromedriver.exe" driver = webdriver.Chrome(driver_path) driver.get("https://www.example.com/login") # 定位用户名和密码输入框 username_input = driver.find_element_by_name("username") password_input = driver.find_element_by_name("password") # 输入用户名和密码 username_input.send_keys("your_username") password_input.send_keys("your_password") # 模拟点击登录按钮 login_button = driver.find_element_by_xpath("//button[@type='submit']") login_button.click() # 其他操作... # 关闭浏览器 driver.quit()
Selenium のさまざまな機能を組み合わせることで、さまざまな Web サイト上のデータをクロールする強力な Web クローラーを作成できます。ただし、クロールする場合は、対象の Web サイトの robots.txt 規制に従い、Web サイトのデータ スクレイピング ポリシーを尊重する必要があることに注意してください。さらに、クロールが頻繁すぎると Web サイトに負担がかかり、クロール防止メカニズムが作動する可能性もあるため、クロール速度を合理的に制御することをお勧めします。
5. 動的に読み込まれるコンテンツの処理
動的に読み込まれるコンテンツを含む一部の Web サイトでは、Selenium が提供する明示的待機メカニズムと暗黙的待機メカニズムを使用して、Web ページ上の要素が確実にロードされるようにすることができます。ロードされました。
1. 明示的な待機
明示的な待機とは、特定の待機条件を設定し、指定された時間内に要素が条件を満たすのを待つことを指します。
from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC driver_path = r"C:\path\to\chromedriver.exe" driver = webdriver.Chrome(driver_path) driver.get("https://www.example.com/dynamic-content") # 等待指定元素出现,最多等待10秒 element = WebDriverWait(driver, 10).until( EC.presence_of_element_located((By.ID, "dynamic-element-id")) ) # 操作该元素... driver.quit()
2. 暗黙的な待機
暗黙的な待機とは、グローバルな待機時間を設定することで、この時間内に要素が出現しない場合、例外がスローされます。
rree以上がSelenium を使用して Python で Web ページ データをクロールする方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









PHPとPythonには独自の利点と短所があり、選択はプロジェクトのニーズと個人的な好みに依存します。 1.PHPは、大規模なWebアプリケーションの迅速な開発とメンテナンスに適しています。 2。Pythonは、データサイエンスと機械学習の分野を支配しています。

Pytorch GPUアクセラレーションを有効にすることで、CentOSシステムでは、PytorchのCUDA、CUDNN、およびGPUバージョンのインストールが必要です。次の手順では、プロセスをガイドします。CUDAおよびCUDNNのインストールでは、CUDAバージョンの互換性が決定されます。NVIDIA-SMIコマンドを使用して、NVIDIAグラフィックスカードでサポートされているCUDAバージョンを表示します。たとえば、MX450グラフィックカードはCUDA11.1以上をサポートする場合があります。 cudatoolkitのダウンロードとインストール:nvidiacudatoolkitの公式Webサイトにアクセスし、グラフィックカードでサポートされている最高のCUDAバージョンに従って、対応するバージョンをダウンロードしてインストールします。 cudnnライブラリをインストールする:

PythonとJavaScriptには、コミュニティ、ライブラリ、リソースの観点から、独自の利点と短所があります。 1)Pythonコミュニティはフレンドリーで初心者に適していますが、フロントエンドの開発リソースはJavaScriptほど豊富ではありません。 2)Pythonはデータサイエンスおよび機械学習ライブラリで強力ですが、JavaScriptはフロントエンド開発ライブラリとフレームワークで優れています。 3)どちらも豊富な学習リソースを持っていますが、Pythonは公式文書から始めるのに適していますが、JavaScriptはMDNWebDocsにより優れています。選択は、プロジェクトのニーズと個人的な関心に基づいている必要があります。

DockerはLinuxカーネル機能を使用して、効率的で孤立したアプリケーションランニング環境を提供します。その作業原則は次のとおりです。1。ミラーは、アプリケーションを実行するために必要なすべてを含む読み取り専用テンプレートとして使用されます。 2。ユニオンファイルシステム(UnionFS)は、違いを保存するだけで、スペースを節約し、高速化する複数のファイルシステムをスタックします。 3.デーモンはミラーとコンテナを管理し、クライアントはそれらをインタラクションに使用します。 4。名前空間とcgroupsは、コンテナの分離とリソースの制限を実装します。 5.複数のネットワークモードは、コンテナの相互接続をサポートします。これらのコア概念を理解することによってのみ、Dockerをよりよく利用できます。

MINIOオブジェクトストレージ:CENTOSシステムの下での高性能展開Minioは、Amazons3と互換性のあるGO言語に基づいて開発された高性能の分散オブジェクトストレージシステムです。 Java、Python、JavaScript、Goなど、さまざまなクライアント言語をサポートしています。この記事では、CentosシステムへのMinioのインストールと互換性を簡単に紹介します。 Centosバージョンの互換性Minioは、Centos7.9を含むがこれらに限定されない複数のCentosバージョンで検証されています。

Pytorchの分散トレーニングでは、Centosシステムでトレーニングには次の手順が必要です。Pytorchのインストール:PythonとPipがCentosシステムにインストールされていることです。 CUDAバージョンに応じて、Pytorchの公式Webサイトから適切なインストールコマンドを入手してください。 CPUのみのトレーニングには、次のコマンドを使用できます。PipinstalltorchtorchtorchvisionTorchaudioGPUサポートが必要な場合は、CUDAとCUDNNの対応するバージョンがインストールされ、インストールに対応するPytorchバージョンを使用してください。分散環境構成:分散トレーニングには、通常、複数のマシンまたは単一マシンの複数GPUが必要です。場所

PytorchをCentosシステムにインストールする場合、適切なバージョンを慎重に選択し、次の重要な要因を検討する必要があります。1。システム環境互換性:オペレーティングシステム:Centos7以上を使用することをお勧めします。 Cuda and Cudnn:PytorchバージョンとCudaバージョンは密接に関連しています。たとえば、pytorch1.9.0にはcuda11.1が必要ですが、pytorch2.0.1にはcuda11.3が必要です。 CUDNNバージョンは、CUDAバージョンとも一致する必要があります。 Pytorchバージョンを選択する前に、互換性のあるCUDAおよびCUDNNバージョンがインストールされていることを確認してください。 Pythonバージョン:Pytorch公式支店

NGINXのインストールをインストールするには、次の手順に従う必要があります。開発ツール、PCRE-Devel、OpenSSL-Develなどの依存関係のインストール。 nginxソースコードパッケージをダウンロードし、それを解凍してコンパイルしてインストールし、/usr/local/nginxとしてインストールパスを指定します。 nginxユーザーとユーザーグループを作成し、アクセス許可を設定します。構成ファイルnginx.confを変更し、リスニングポートとドメイン名/IPアドレスを構成します。 nginxサービスを開始します。依存関係の問題、ポート競合、構成ファイルエラーなど、一般的なエラーに注意する必要があります。パフォーマンスの最適化は、キャッシュをオンにしたり、ワーカープロセスの数を調整するなど、特定の状況に応じて調整する必要があります。
