PHP で大量の Web ページを収集する効率的かつ実現可能な方法をお探しですか?-PHPチュートリアル-php.cn

ホームページ

バックエンド開発

PHPチュートリアル

PHP で大量の Web ページを収集する効率的かつ実現可能な方法をお探しですか?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 13, 2016 pm 12:05 PM

curl header nbsp

PHP で大量の Web ページを収集する効率的かつ実行可能な方法を見つける方法についてアドバイスを求めてください

この投稿は、oasisxp によって最終編集されました: 2014-08-25 13:45:08 PHP の CURL を使用して、Xiami.com から音楽情報を収集します。
ただし、収集が 50 件程度になると停止し、2 回目に実行すると収集できなくなります。 IP、収集は許可されていないため、基本的にデータの収集は非常に遅いです。
この種のビッグデータはどのように収集すればよいでしょうか?
私のコードに問題がある可能性もあります。
以下はコードの一部です。

$j=0;<br />	//起始ID<br />	$id = 200000;<br />	//采集1000条<br />	//保存采集的数据<br />	$data = array();<br />	while($j<1000){<br />		$url = 'http://www.xiami.com/song/'.($id++);<br />		$ch = curl_init();<br />		$status = curl_getinfo($ch);<br />		///$status['redirect_url'] ;// 跳转到的新地址<br />		$header[]='Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8';<br />		$header[]='Accept-Encoding:gzip,deflate,sdch';<br />		$header[]='Accept-Language:zh-CN,zh;q=0.8';<br />		$header[]='Cache-Control:max-age=0';<br />		$header[]='Connection:keep-alive';<br />		$header[]='Cookie:_unsign_token=a35437bd35c221c09a0e6f564e17c225; __gads=ID=7fcc242f6fd63d77:T=1408774454:S=ALNI_Mae8MH6vL5z6q4NlGYzyqgD4jHeEg; bdshare_firstime=1408774454639; _xiamitoken=3541aab48832ba3ceb089de7f39b9b0f; pnm_cku822=211n%2BqZ9mgNqgJnCG0Zu8%2BzyLTPuc%2B7wbrff98%3D%7CnOiH84T3jPCG%2FIr%2BiPOG8lI%3D%7CneiHGXz6UeRW5k4rRCFXIkcoTdd7ym3fZdO2FrY%3D%7Cmu6b9JHlkuGa5pDqnOie5ZDkmeqb4ZTule6V7ZjjlOib7JrmkvdX%7Cm%2B%2BT%2FGIUew96DXsUYBd4HawbrTOXOVI4iyOLIYUqT%2B9P%7CmO6BH2wDcB9rHGsYdwRrH2gfbAN%2FDH8QZBNkF3gDeQqqCg%3D%3D%7Cme6d7oHyneiH84Twn%2BmR64TzUw%3D%3D; CNZZDATA921634=cnzz_eid%3D1437506062-1408774274-%26ntime%3D1408937320; CNZZDATA2629111=cnzz_eid%3D2021816723-1408774274-%26ntime%3D1408937320; isg=075E6FBDF77039CEB63A1BA239420244';<br />		$header[]='Host:www.xiami.com';<br />		$header[]='User-Agent:Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1653.0 Safari/537.36';<br /><br />		curl_setopt($ch, CURLOPT_URL, $url);	//要访问的地址<br />		curl_setopt($ch, CURLOPT_HTTPHEADER, $header);	//设置http头<br />		curl_setopt($ch, CURLOPT_HEADER, 0);	//显示返回的Header区域内容<br />		curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);	//获取的信息以文件流的形式返回<br />		curl_setopt($ch, CURLOPT_TIMEOUT, 20);	//设置超时限制防止死循环<br />		$content = curl_exec($ch);	//执行操作<br />		$curl_errno = curl_errno($ch);<br />		$curl_error = curl_error($ch);<br />		curl_close($ch);	//关闭CURL会话<br />		preg_match('/name="description"\s+content="《(.+)》演唱者(.+)，所属专辑《(.+)》/', $content,$matches);<br />		//如果歌曲名字为空，跳过<br />		if(empty($matches[1]) || trim($matches[1]) == ''){<br />			continue;<br />		}<br />		<br />		//匹配出的数据<br />		$data[$id]['song'] = empty($matches[1])?' ':$matches[1];<br />		$data[$id]['songer'] = empty($matches[2])?' ':$matches[2];<br />		$data[$id]['album'] = empty($matches[3])?' ':$matches[3];<br />		<br />		preg_match('/album\/(\d+)/', $content,$matches);<br /><br />		$data[$id]['albumId'] = empty($matches[1])?0:$matches[1];<br /><br />		preg_match('/\/artist\/(\d+)/', $content,$matches);<br />		$data[$id]['songerId'] = empty($matches[1])?0:$matches[1];<br /><br />		//歌词<div class="lrc_main"><br />		preg_match('/<div class="lrc_main">(.*)<\/div>/Us', $content,$matches);<br />		$data[$id]['lrc'] =  empty($matches[1])?' ':addslashes($matches[1]);<br />		//分享 分享<em>(3269)</em><br />		preg_match('/分享<em>\((\d+)\)<\/em>/Us', $content,$matches);<br />		$data[$id]['share'] =  empty($matches[1]) ? 0:$matches[1];<br />		//评论次数 <p class="wall_list_count"><span>920<br />		preg_match('/<p class="wall_list_count"><span>(\d+)<\/span>/Us', $content,$matches);<br />		$data[$id]['comment_count'] =  empty($matches[1])?0:$matches[1];<br /><br /><br />		//入库操作<br />		//print_r($data);<br />		//_____________________________<br />		$j++;<br />		usleep(3000);<br />	}

ログイン後にコピー

-----解決策------ - -
様、snoopy クラスを使用してください
-----解決策---------

この投稿の最終編集者は PhpNewnew 2014-08-27 22:09:20

Ruby または Go を使用してください

冗談ですが、逃げたくても逃げられます。それでも実行しますコマンドラインモードで実行....
------解決策-----
xiami.com サーバーには制限があり、収集が禁止されているはずです

1. URL リクエストごとに 10 ～ 20 ダースのみを収集し、その後ジャンプして収集を続行することもできます。仮想マシン上で実行し、CPU を長時間使用すると、プロセスが強制終了される可能性があります。

2. ヘッダーのユーザーエージェントと Cookie を変更することをお勧めします。各 URL リクエスト。

3. それでもダメなら機関車を使ってみてください！

4. 電車が動かないなら、この駅は諦めてください!
------解決策---------
同じページを実行するために foreach をループに分割する。
ブラウザまたは cronrab が初めて http://localhost/caiji.php?num=1 を実行するとき、完了するたびに $_GET['num'] 1; と同じスクリプトが繰り返されます。 'num']==1000、終了し、curl は実行されなくなります。

if($_GET['num']){<br />$url = 'http://www.xiami.com/song/'.$_GET['num'];<br />//你的代码<br />$_GET['num'])++;<br />}<br />if($_GET['num']<1001){<br />        $ch = curl_init();<br />	curl_setopt($ch, CURLOPT_URL,"http://localhost/caiji.php?num=".$_GET['num']));<br />	curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);<br />	curl_setopt($ch, CURLOPT_CONNECTTIMEOUT ,2); <br />	curl_setopt($ch, CURLOPT_TIMEOUT ,2);<br />	curl_exec($ch);<br />	curl_close($ch);<br />}else{<br />   exit;<br />}<br />

ログイン後にコピー

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7675

CakePHP チュートリアル

1393

C# チュートリアル

1207

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

Related knowledge

解決策: 組織では PIN を変更する必要があります。 Oct 04, 2023 pm 05:45 PM

ログイン画面に「組織から PIN の変更を求められています」というメッセージが表示されます。これは、個人のデバイスを制御できる組織ベースのアカウント設定を使用しているコンピューターで PIN の有効期限の制限に達した場合に発生します。ただし、個人アカウントを使用して Windows をセットアップした場合、エラーメッセージは表示されないのが理想的です。常にそうとは限りませんが。エラーが発生したほとんどのユーザーは、個人アカウントを使用して報告します。私の組織が Windows 11 で PIN を変更するように要求するのはなぜですか?アカウントが組織に関連付けられている可能性があるため、主なアプローチはこれを確認することです。ドメイン管理者に問い合わせると解決できます。さらに、ローカルポリシー設定が間違っていたり、レジストリキーが間違っていたりすると、エラーが発生する可能性があります。今すぐ

Windows 11 でウィンドウの境界線の設定を調整する方法: 色とサイズを変更する Sep 22, 2023 am 11:37 AM

Windows 11 では、新鮮でエレガントなデザインが前面に押し出されており、最新のインターフェイスにより、ウィンドウの境界線などの細部をカスタマイズして変更することができます。このガイドでは、Windows オペレーティングシステムで自分のスタイルを反映した環境を作成するのに役立つ手順について説明します。ウィンドウの境界線の設定を変更するにはどうすればよいですか? + を押して設定アプリを開きます。 Windows [個人用設定] に移動し、[色の設定] をクリックします。ウィンドウの境界線の色の変更設定ウィンドウ 11" width="643" height="500" > [タイトルバーとウィンドウの境界線にアクセントカラーを表示する] オプションを見つけて、その横にあるスイッチを切り替えます。 [スタート] メニューとタスクバーにアクセントカラーを表示するにはスタートメニューとタスクバーにテーマの色を表示するには、[スタートメニューとタスクバーにテーマを表示] をオンにします。

Windows 11でタイトルバーの色を変更するにはどうすればよいですか? Sep 14, 2023 pm 03:33 PM

デフォルトでは、Windows 11 のタイトルバーの色は、選択したダーク/ライトテーマによって異なります。ただし、任意の色に変更できます。このガイドでは、デスクトップエクスペリエンスを変更し、視覚的に魅力的なものにするためにカスタマイズする 3 つの方法について、段階的な手順を説明します。アクティブなウィンドウと非アクティブなウィンドウのタイトルバーの色を変更することはできますか?はい、設定アプリを使用してアクティブなウィンドウのタイトルバーの色を変更したり、レジストリエディターを使用して非アクティブなウィンドウのタイトルバーの色を変更したりできます。これらの手順を学習するには、次のセクションに進んでください。 Windows 11でタイトルバーの色を変更するにはどうすればよいですか? 1. 設定アプリを使用して + を押して設定ウィンドウを開きます。 Windows「個人用設定」に進み、

Windows 11/10修復におけるOOBELANGUAGEエラーの問題 Jul 16, 2023 pm 03:29 PM

Windows インストーラーページに「問題が発生しました」というメッセージとともに「OOBELANGUAGE」というメッセージが表示されますか?このようなエラーが原因で Windows のインストールが停止することがあります。 OOBE とは、すぐに使えるエクスペリエンスを意味します。エラーメッセージが示すように、これは OOBE 言語の選択に関連する問題です。心配する必要はありません。OOBE 画面自体から気の利いたレジストリ編集を行うことで、この問題を解決できます。クイックフィックス – 1. OOBE アプリの下部にある [再試行] ボタンをクリックします。これにより、問題が発生することなくプロセスが続行されます。 2. 電源ボタンを使用してシステムを強制的にシャットダウンします。システムの再起動後、OOBE が続行されます。 3. システムをインターネットから切断します。 OOBE のすべての側面をオフラインモードで完了する

Windows 11 でタスクバーのサムネイルプレビューを有効または無効にする方法 Sep 15, 2023 pm 03:57 PM

タスクバーのサムネイルは楽しい場合もありますが、気が散ったり煩わしい場合もあります。この領域にマウスを移動する頻度を考えると、重要なウィンドウを誤って閉じてしまったことが何度かある可能性があります。もう 1 つの欠点は、より多くのシステムリソースを使用することです。そのため、リソース効率を高める方法を探している場合は、それを無効にする方法を説明します。ただし、ハードウェアの仕様が対応可能で、プレビューが気に入った場合は、有効にすることができます。 Windows 11でタスクバーのサムネイルプレビューを有効にする方法は? 1. 設定アプリを使用してキーをタップし、[設定] をクリックします。 Windows では、「システム」をクリックし、「バージョン情報」を選択します。「システムの詳細設定」をクリックします。 [詳細設定] タブに移動し、[パフォーマンス] の下の [設定] を選択します。「視覚効果」を選択します

Windows 11 でのディスプレイスケーリングガイド Sep 19, 2023 pm 06:45 PM

Windows 11 のディスプレイスケーリングに関しては、好みが人それぞれ異なります。大きなアイコンを好む人もいれば、小さなアイコンを好む人もいます。ただし、適切なスケーリングが重要であることには誰もが同意します。フォントのスケーリングが不十分であったり、画像が過度にスケーリングされたりすると、作業中の生産性が大幅に低下する可能性があるため、システムの機能を最大限に活用するためにカスタマイズする方法を知る必要があります。カスタムズームの利点: これは、画面上のテキストを読むのが難しい人にとって便利な機能です。一度に画面上でより多くの情報を確認できるようになります。特定のモニターおよびアプリケーションにのみ適用するカスタム拡張プロファイルを作成できます。ローエンドハードウェアのパフォーマンスの向上に役立ちます。画面上の内容をより詳細に制御できるようになります。 Windows 11の使用方法

Windows 11で明るさを調整する10の方法 Dec 18, 2023 pm 02:21 PM

画面の明るさは、最新のコンピューティングデバイスを使用する上で不可欠な部分であり、特に長時間画面を見る場合には重要です。目の疲れを軽減し、可読性を向上させ、コンテンツを簡単かつ効率的に表示するのに役立ちます。ただし、設定によっては、特に新しい UI が変更された Windows 11 では、明るさの管理が難しい場合があります。明るさの調整に問題がある場合は、Windows 11 で明るさを管理するすべての方法を次に示します。 Windows 11で明るさを変更する方法【10の方法を解説】シングルモニターユーザーは、次の方法でWindows 11の明るさを調整できます。これには、ラップトップだけでなく、単一のモニターを使用するデスクトップシステムも含まれます。はじめましょう。方法 1: アクションセンターを使用するアクションセンターにアクセスできる

Windows Serverでアクティベーションエラーコード0xc004f069を修正する方法 Jul 22, 2023 am 09:49 AM

Windows のライセンス認証プロセスが突然切り替わり、このエラーコード 0xc004f069 を含むエラーメッセージが表示されることがあります。ライセンス認証プロセスはオンラインですが、Windows Server を実行している一部の古いシステムではこの問題が発生する可能性があります。これらの初期チェックを実行し、システムのアクティブ化に役に立たない場合は、問題を解決するための主要な解決策に進んでください。回避策 – エラーメッセージとアクティベーションウィンドウを閉じます。次に、コンピュータを再起動します。 Windows ライセンス認証プロセスを最初から再試行します。解決策 1 – ターミナルからアクティブ化する cmd ターミナルから Windows Server Edition システムをアクティブ化します。ステージ – 1 Windows Server のバージョンを確認する使用している W の種類を確認する必要があります

See all articles