URL を変更せずに Web サイトのコンテンツをスクレイピング
Web 開発では、外部 Web サイトのコンテンツをスクレイピングする必要があるシナリオがあります。自分のページに特定の情報を表示します。これは、スクレイピングの行為によってページの URL が変更される場合に問題が生じる可能性があります。
質問:
ページの URL (例: 、http://localhost/web/Login.html) は、ログイン ボタンをクリックすると、スクレイピングされた Web サイトの Web サイト (例: http://mail.in.com/mails/inbox.php?nomail=...) に変更されます。 。 URL を変更せずに目的のコンテンツをスクラップするにはどうすればよいですか?
回答:
この問題に対処する適切な解決策は、PHP Simple HTML DOM Parser を使用することです。このライブラリは、高速かつ簡単で多用途な HTML 解析機能を提供することに優れています。これにより、独自の URL を変更せずに、HTML ページ内の個々の要素を操作したりアクセスしたりできるようになります。
Google メイン ページからすべてのリンクを取得する方法を示す、公式 Web サイトの次の例を考えてみましょう。
<code class="php">// Create DOM from URL or file $html = file_get_html('http://www.google.com/'); // Find all images foreach($html->find('img') as $element) echo $element->src . '<br>'; // Find all links foreach($html->find('a') as $element) echo $element->href . '<br>';</code>
PHP Simple HTML DOM Parser を利用すると、URL の整合性を損なうことなく、Web ページのコンテンツを効果的にスクレイピングし、必要な情報を自分のページに表示できます。
以上がページの URL を変更せずに Web サイトのコンテンツをスクレイピングする方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。