ホームページ バックエンド開発 PHPチュートリアル PHP を使用したリンクのスクレイピング

PHP を使用したリンクのスクレイピング

Jun 23, 2016 pm 02:36 PM

PHP によるリンクのスクレイピング

by justin、2007 年 8 月 11 日

FROM:http://www.merchantos.com/makebeta/php/scraping-links-with-php/#curl_content

この中でチュートリアルでは、任意の Web ページからリンクを収集する PHP スクリプトを作成する方法を学びます。

学ぶ内容 cURL を使用して Web サイト (URL) からコンテンツを取得する方法。 PHP DOM 関数を呼び出して HTML を解析し、リンクを抽出できるようにします。 XPath を使用して、ページの特定の部分からリンクを取得します。スクレイピングしたリンクを MySQL データベースに保存します。それをすべてリンク スクレーパーにまとめます。スクレーパーを他に使用できるものは何ですか。コンテンツのスクレイピングに関連する法的問題。必要なもの PHP と MySQL の基本的な知識。 PHP 5 を実行している Web サーバー。PHP の cURL 拡張子。 MySQL?リンクを保存したい場合。ページのコンテンツを取得する

cURL は、PHP でリモート サーバーにリクエストを行うための優れたツールです。ほぼあらゆる方法でブラウザを模倣できます。ターゲット サイトのコンテンツを取得するコードは次のとおりです:

$ch = curl_init();curl_setopt($ch, CURLOPT_USERAGENT, $userAgent);curl_setopt($ch, CURLOPT_URL,$target_url);curl_setopt($ch, CURLOPT_FAILONERROR, true);curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);curl_setopt($ch, CURLOPT_AUTOREFERER, true);curl_setopt($ch, CURLOPT_RETURNTRANSFER,true);curl_setopt($ch, CURLOPT_TIMEOUT, 10);$html = curl_exec($ch);if (!$html) {echo "<br />cURL error number:" .curl_errno($ch);echo "<br />cURL error:" . curl_error($ch);exit;}
ログイン後にコピー

リクエストが成功すると、$html には $target_url のコンテンツが入力されます。呼び出しが失敗した場合は、失敗に関するエラー メッセージが表示されます。

curl_setopt($ch, CURLOPT_URL,$target_url);
ログイン後にコピー

この行は、どの URL がリクエストされるかを決定します。たとえば、このサイトをスクレイピングしたい場合は、$target_url = “/makebeta/” となります。設定されている残りのオプションについては説明しません (CURLOPT_USERAGENT を除く ? 以下を参照)。ここで、PHP と cURL に関する詳細なチュートリアルを読むことができます。

ヒント: ユーザー エージェントを偽る

間違ったユーザー エージェント文字列を表示すると、多くの Web サイトはうまくいきません。ユーザーエージェント文字列とは何ですか?これは、Web サーバーへのすべてのリクエストの一部であり、どの種類のエージェント (ブラウザ、スパイダーなど) がコンテンツをリクエストしているかをサーバーに伝えます。一部の Web サイトでは、ユーザー エージェントに応じて異なるコンテンツが提供されるため、試してみることをお勧めします。これは、cURL で、オプションとして CURLOPT_USERAGENT を指定して、curl_setopt() を呼び出して実行します。

$userAgent = 'Googlebot/2.1 (http://www.googlebot.com/bot.html)';curl_setopt($ch, CURLOPT_USERAGENT, $userAgent);
ログイン後にコピー

これにより、cURL のユーザー エージェントが Google のユーザー エージェントを模倣するように設定されます。ユーザー エージェントの包括的なリストは、ここで見つけることができます: ユーザー エージェント。

一般的なユーザー エージェント

私はあなたのために少し作業を行い、最も一般的なユーザー エージェントを集めました:

検索エンジン ユーザー エージェント Google ? Googlebot/2.​​1 ( http://www.googlebot.com/bot.html) Google イメージ ? Googlebot-Image/1.0 ( http://www.googlebot.com/bot.html) MSN ライブ ? msnbot-Products/1.0 (+http://search.msn.com/msnbot.htm) Yahoo ? Mozilla/5.0 (互換性; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) ブラウザ ユーザー エージェントに問い合わせます Firefox (WindowsXP) ? Mozilla/5.0 (Windows; U; Windows NT 5.1; en-GB; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6 IE 7 ? Mozilla/4.0 (互換性; MSIE 7.0; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30) IE 6 ? Mozilla/4.0 (互換性; MSIE 6.0; Windows NT 5.1; .NET CLR 1.1.4322) Safari ? Mozilla/5.0 (Macintosh; U; Intel Mac OS X; en) AppleWebKit/522.11 (Gecko のような KHTML) Safari/3.0.2 Opera ? Opera/9.00 (Windows NT 5.1; U; en) PHP の DOM 関数を使用して HTML を解析する

PHP は、HTML コンテンツを操作するための非常に優れたツールである DOM 関数を提供します。 DOM 関数を使用すると、HTML (または XML) をオブジェクト構造 (または DOM、ドキュメント オブジェクト モデル) に解析できます。やり方を見てみましょう:

すごい

すごい、本当に簡単ですか?はい!これで、HTML 内のあらゆるものにきれいな方法でアクセスするために使用できる、すばらしい DOMDocument オブジェクトができました。私はこれを Russll Beattie の投稿で発見しました:Using PHP TO Scrape Sites As Feeds, thanks Russell!

ヒント: お気付きかもしれませんが、loadHTML() の前に @ を付けています。これにより、HTML パーサーがスローする迷惑な警告が抑制されます。標準に準拠していないコードを含む多くのページ。

XPath を使用すると、必要なリンクを簡単に取得できます。

次に、DOM の本当の魔法である XPath について説明します。 XPath を使用すると、DOM ノード (HTML のタグとも呼ばれる) のコレクションを収集できます。順序なしリスト内のリンクのみを取得したいとします。必要なのは、「/html/body//ul//li//a」のようなクエリを作成し、それを XPath->evaluate() に渡すことだけです。 XPath の使用方法をすべて説明するつもりはありません。私は自分自身で学んでいるだけであり、他の人がすでに素晴らしい例のリストを作成しているからです (XPath の例)。これは、XPath を使用してページ上のすべてのリンクを取得するコード スニペットです:

リンクを反復して保存します

次に、XPath を使用して収集したすべてのリンクを反復処理し、データベースに保存します。まず、リンクを反復処理するコード:

$dom = new DOMDocument();@$dom->loadHTML($html);
ログイン後にコピー
$xpath = new DOMXPath($dom);$hrefs = $xpath->evaluate("/html/body//a");
ログイン後にコピー
for ($i = 0; $i < $hrefs->length; $i++) {$href = $hrefs->item($i);$url = $href->getAttribute('href');storeLink($url,$target_url);}
ログイン後にコピー
 
ログイン後にコピー
ログイン後にコピー
 
ログイン後にコピー
ログイン後にコピー
FULL PROGRAM:
ログイン後にコピー

$userAgent = 'Googlebot/2.1 (http://www.googlebot.com/bot.html)';curl_setopt($ch, CURLOPT_USERAGENT, $userAgent);curl_setopt($ch, CURLOPT_URL,$target_url);curl_setopt($ch, CURLOPT_FAILONERROR, true);curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);curl_setopt($ch, CURLOPT_AUTOREFERER, true);curl_setopt($ch, CURLOPT_RETURNTRANSFER,true);curl_setopt($ch, CURLOPT_TIMEOUT, 10);$html = curl_exec($ch);if (!$html) { echo "
cURL error number:" .curl_errno($ch); echo "
cURL error:" . curl_error($ch); exit;}$dom = new DOMDocument();@$dom->loadHTML($html);$xpath = new DOMXPath($dom);$hrefs = $xpath->evaluate("/html/body//a");

for ($i = 0; $i < $hrefs->length; $i++) { $href = $hrefs->item($i); $url = $href->getAttribute('href'); echo $url; echo "
"; }

?>
ログイン後にコピー
then you can store url to your database. more details from here:http://www.merchantos.com/makebeta/php/scraping-links-with-php/#curl_content
ログイン後にコピー
ログイン後にコピー
REF:tutorial on PHP and cURL 
ログイン後にコピー
You can find a comprehensive list of user agents here: User Agents.
ログイン後にコピー
Using PHP TO Scrape Sites As Feeds
ログイン後にコピー
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

PHPのさまざまなエラータイプを説明します(通知、警告、致命的なエラー、解析エラー)。 PHPのさまざまなエラータイプを説明します(通知、警告、致命的なエラー、解析エラー)。 Apr 08, 2025 am 12:03 AM

PHPには4つの主要なエラータイプがあります。1。notice:わずかなものは、未定義の変数へのアクセスなど、プログラムを中断しません。 2。警告:通知よりも深刻で、ファイルを含むなど、プログラムを終了しません。 3。ファタラー:最も深刻なのは、機能を呼び出すなど、プログラムを終了します。 4。ParseError:構文エラーは、エンドタグの追加を忘れるなど、プログラムの実行を防ぎます。

PHPとPython:2つの一般的なプログラミング言語を比較します PHPとPython:2つの一般的なプログラミング言語を比較します Apr 14, 2025 am 12:13 AM

PHPとPythonにはそれぞれ独自の利点があり、プロジェクトの要件に従って選択します。 1.PHPは、特にWebサイトの迅速な開発とメンテナンスに適しています。 2。Pythonは、データサイエンス、機械学習、人工知能に適しており、簡潔な構文を備えており、初心者に適しています。

PHPでの安全なパスワードハッシュ(例:Password_hash、password_verify)を説明します。 MD5またはSHA1を使用してみませんか? PHPでの安全なパスワードハッシュ(例:Password_hash、password_verify)を説明します。 MD5またはSHA1を使用してみませんか? Apr 17, 2025 am 12:06 AM

PHPでは、Password_hashとpassword_verify関数を使用して安全なパスワードハッシュを実装する必要があり、MD5またはSHA1を使用しないでください。 1)password_hashセキュリティを強化するために、塩値を含むハッシュを生成します。 2)password_verifyハッシュ値を比較して、パスワードを確認し、セキュリティを確保します。 3)MD5とSHA1は脆弱であり、塩の値が不足しており、最新のパスワードセキュリティには適していません。

アクション中のPHP:実際の例とアプリケーション アクション中のPHP:実際の例とアプリケーション Apr 14, 2025 am 12:19 AM

PHPは、電子商取引、コンテンツ管理システム、API開発で広く使用されています。 1)eコマース:ショッピングカート機能と支払い処理に使用。 2)コンテンツ管理システム:動的コンテンツの生成とユーザー管理に使用されます。 3)API開発:RESTFUL API開発とAPIセキュリティに使用されます。パフォーマンスの最適化とベストプラクティスを通じて、PHPアプリケーションの効率と保守性が向上します。

HTTPリクエストメソッド(取得、投稿、配置、削除など)とは何ですか?それぞれを使用する必要がありますか? HTTPリクエストメソッド(取得、投稿、配置、削除など)とは何ですか?それぞれを使用する必要がありますか? Apr 09, 2025 am 12:09 AM

HTTPリクエストメソッドには、それぞれリソースを取得、送信、更新、削除するために使用されるGET、POST、PUT、および削除が含まれます。 1. GETメソッドは、リソースを取得するために使用され、読み取り操作に適しています。 2. POSTメソッドはデータの送信に使用され、新しいリソースを作成するためによく使用されます。 3. PUTメソッドは、リソースの更新に使用され、完全な更新に適しています。 4.削除メソッドは、リソースの削除に使用され、削除操作に適しています。

PHP:Web開発の重要な言語 PHP:Web開発の重要な言語 Apr 13, 2025 am 12:08 AM

PHPは、サーバー側で広く使用されているスクリプト言語で、特にWeb開発に適しています。 1.PHPは、HTMLを埋め込み、HTTP要求と応答を処理し、さまざまなデータベースをサポートできます。 2.PHPは、ダイナミックWebコンテンツ、プロセスフォームデータ、アクセスデータベースなどを生成するために使用され、強力なコミュニティサポートとオープンソースリソースを備えています。 3。PHPは解釈された言語であり、実行プロセスには語彙分析、文法分析、編集、実行が含まれます。 4.PHPは、ユーザー登録システムなどの高度なアプリケーションについてMySQLと組み合わせることができます。 5。PHPをデバッグするときは、error_reporting()やvar_dump()などの関数を使用できます。 6. PHPコードを最適化して、キャッシュメカニズムを使用し、データベースクエリを最適化し、組み込み関数を使用します。 7

PHPは、ファイルを安全に処理する方法をどのように処理しますか? PHPは、ファイルを安全に処理する方法をどのように処理しますか? Apr 10, 2025 am 09:37 AM

PHPは、$ \ _ファイル変数を介してファイルのアップロードを処理します。セキュリティを確保するための方法には次のものが含まれます。1。アップロードエラー、2。ファイルの種類とサイズを確認する、3。ファイル上書きを防ぐ、4。ファイルを永続的なストレージの場所に移動します。

PHP OOPで、self ::、parent ::、and static ::の違いを説明します。 PHP OOPで、self ::、parent ::、and static ::の違いを説明します。 Apr 09, 2025 am 12:04 AM

Phpoopでは、self ::は現在のクラスを指し、親::は親クラスを指し、静的::は後期静的結合に使用されます。 1.Self ::静的方法と一定の呼び出しに使用されますが、後期静的結合をサポートしていません。 2.Parent ::サブクラスには、親クラスのメソッドを呼び出すために使用され、プライベートメソッドにアクセスできません。 3.Static ::継承と多型に適した後期静的結合をサポートしますが、コードの読みやすさに影響を与える可能性があります。

See all articles