PHP による Web スクレイピング
質問:
タイトル、 PHP の外部ライブラリを使用せずに、指定された URL から画像、テキストまたは説明を取得しますか?
回答:
このタスクを簡素化するには、simple_html_dom ライブラリの利用を検討してください。次の例は、このライブラリを使用してタイトルと最初の画像を取得する方法を示しています。
<code class="php">require 'simple_html_dom.php'; $html = file_get_html('http://www.google.com/'); $title = $html->find('title', 0); $image = $html->find('img', 0); echo $title->plaintext . "<br>\n"; echo $image->src;</code>
外部ライブラリを避けたい場合は、正規表現を使用してデータを抽出できますが、この方法は HTML では推奨されません。
<code class="php">$data = file_get_contents('http://www.google.com/'); preg_match('/<title>([^<]+)<\/title>/i', $data, $matches); $title = $matches[1]; preg_match('/<img[^>]*src=["\']([^\'"']+)["\'][^>]*>/i', $data, $matches); $img = $matches[1]; echo $title . "<br>\n"; echo $img;</code>
以上がWebスクレイピングのやり方の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。