ホームページ バックエンド開発 PHPチュートリアル CURLデータ収集による通常処理関数get_matchesの使い方_PHPチュートリアル

CURLデータ収集による通常処理関数get_matchesの使い方_PHPチュートリアル

Jul 21, 2016 pm 03:11 PM
curl get 使用 関数 に基づく 対処する データ収集 通常

最初の 2 つのブログ投稿に基づく:

curlデータ収集に基づくシングルページコレクション関数get_htmlの使用法

curlデータ収集に基づくシングルページ並列収集関数get_htmlsの使用法

必要な HTML ファイルを取得しました。次に、取得したファイルを処理して、必要な収集データを取得する必要があります。

HTML ドキュメントにはペアになっていないタグが多く、厳密ではないため、HTML ドキュメントの解析には XML のような解析クラスはありません。このとき、Simplehtmldom は HTML ドキュメントを操作する JQuery に似た解析クラスです。必要なデータを取得するのは非常に便利ですが、残念ながら遅いです。これは、ここでの説明の焦点では​​ありません。私は主に、収集する必要がある情報を迅速に取得できるように、収集する必要があるデータを照合するために正規表現を使用します。

get_html は返されたデータを判断できますが、get_htmls は判断できないことを考慮して、デバッグと呼び出しを容易にするために次の 2 つの関数が作成されています:

コードをコピー コードは次のとおりです:

function get_matches($pattern ,$html ,$err_msg,$multi=false,$flags=0,$offset=0){
if(!$multi){
if(!preg_match($pattern,$html,$matches,$flags,$ offset)) {O echo $ERR_MSG. "! エラー メッセージ:" .get_preg_msg (). "N" を返します。 AGS, $ offset)){
echo $err_msg."! エラー メッセージ: ".get_preg_err_msg() ."n"; preg_err_msg(){
$error_code = preg_last_error (); $err_msg = 'PREG_INTERNAL_ERROR';
ブレーク; ';
UTF8_ERROR:
$ err_msg = 'PREG_BAD_UTF8_ERROR';
ブレイク D_UTF8_OFFSET_ERROR';
ブレイク; ; T デフォルト: '不明なエラー!' を返します
$ err_msg = 'http://www.baidu.com';
$html = get_html($url); $matches = get_matches('!!',$html ,'リンクが見つかりません',true);
if($matches){
var_dump($matches);
}


または次のように呼び出します:



コードをコピーします

コードは次のとおりです:

$urls = array('http://www.baidu.com','http://www.hao123.com');
$htmls = get_htmls($urls);
foreach($htmls as $html ){
$matches = get_matches('!!',$html,'リンクが見つかりません',true);
if($matches){
var_dump($ matchs);
}
}

を実行することで、単一ページのコレクションであっても、複数ページのコレクションであっても、最終的には 1 ページしか処理できません。 true または false で正しいデータを取得します。正規表現を使用するときに通常のバックトレースを超える問題が発生したため、通常の情報を求める get_preg_err_msg が追加されました。

データを収集するとき、リスト ページが収集されることが多く、リスト ページから取得したコンテンツ ページのリンクに基づいてコンテンツ ページが収集されるため、またはそれ以上のレベルで、ネストされたループが多くなり、コードが不十分に感じられるでしょう。それでは、コレクション リスト ページのコードをコレクション コンテンツ ページのコードから分離したり、より多くのレベルのコレクション コードを分離したり、ループを簡素化したりすることはできるでしょうか?

www.bkjia.comtru​​ehttp://www.bkjia.com/PHPjc/326889.html技術記事前の 2 つのブログ投稿によると:curl データ コレクションに基づく単一ページ コレクション関数 get_html の使用curl データ コレクションに基づく単一ページ パラレル コレクション関数 get_htmls の使用は、すでに利用可能です...
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

BTCC チュートリアル: BTCC 取引所で MetaMask ウォレットをバインドして使用する方法は? BTCC チュートリアル: BTCC 取引所で MetaMask ウォレットをバインドして使用する方法は? Apr 26, 2024 am 09:40 AM

MetaMask (中国語ではリトル フォックス ウォレットとも呼ばれます) は、無料で評判の高い暗号化ウォレット ソフトウェアです。現在、BTCC は MetaMask ウォレットへのバインドをサポートしており、バインド後は MetaMask ウォレットを使用してすぐにログイン、値の保存、コインの購入などが可能になり、初回バインドで 20 USDT のトライアル ボーナスも獲得できます。 BTCCMetaMask ウォレットのチュートリアルでは、MetaMask の登録方法と使用方法、および BTCC で Little Fox ウォレットをバインドして使用する方法を詳しく紹介します。メタマスクウォレットとは何ですか? 3,000 万人を超えるユーザーを抱える MetaMask Little Fox ウォレットは、現在最も人気のある暗号通貨ウォレットの 1 つです。無料で使用でき、拡張機能としてネットワーク上にインストールできます。

golang 関数で新しい関数を動的に作成するためのヒント golang 関数で新しい関数を動的に作成するためのヒント Apr 25, 2024 pm 02:39 PM

Go 言語は、クロージャとリフレクションという 2 つの動的関数作成テクノロジを提供します。クロージャを使用すると、クロージャ スコープ内の変数にアクセスでき、リフレクションでは FuncOf 関数を使用して新しい関数を作成できます。これらのテクノロジーは、HTTP ルーターのカスタマイズ、高度にカスタマイズ可能なシステムの実装、プラグイン可能なコンポーネントの構築に役立ちます。

C++ 関数の命名におけるパラメーターの順序に関する考慮事項 C++ 関数の命名におけるパラメーターの順序に関する考慮事項 Apr 24, 2024 pm 04:21 PM

C++ 関数の名前付けでは、読みやすさを向上させ、エラーを減らし、リファクタリングを容易にするために、パラメーターの順序を考慮することが重要です。一般的なパラメータの順序規則には、アクション-オブジェクト、オブジェクト-アクション、意味論的な意味、および標準ライブラリへの準拠が含まれます。最適な順序は、関数の目的、パラメーターの種類、潜在的な混乱、および言語規約によって異なります。

Java で効率的で保守しやすい関数を記述するにはどうすればよいでしょうか? Java で効率的で保守しやすい関数を記述するにはどうすればよいでしょうか? Apr 24, 2024 am 11:33 AM

効率的で保守しやすい Java 関数を作成するための鍵は、シンプルに保つことです。意味のある名前を付けてください。特殊な状況に対処します。適切な可視性を使用してください。

C++関数のデフォルトパラメータと可変パラメータの長所と短所の比較 C++関数のデフォルトパラメータと可変パラメータの長所と短所の比較 Apr 21, 2024 am 10:21 AM

C++ 関数のデフォルト パラメーターの利点には、呼び出しの簡素化、可読性の向上、エラーの回避などがあります。欠点は、柔軟性が限られていることと、名前の制限があることです。可変引数パラメーターの利点には、無制限の柔軟性と動的バインディングが含まれます。欠点としては、複雑さの増大、暗黙的な型変換、デバッグの難しさなどが挙げられます。

Excel関数の公式の完全なコレクション Excel関数の公式の完全なコレクション May 07, 2024 pm 12:04 PM

1. SUM 関数は、列またはセルのグループ内の数値を合計するために使用されます (例: =SUM(A1:J10))。 2. AVERAGE 関数は、列またはセルのグループ内の数値の平均を計算するために使用されます (例: =AVERAGE(A1:A10))。 3. COUNT 関数。列またはセルのグループ内の数値またはテキストの数をカウントするために使用されます。例: =COUNT(A1:A10)。 4. IF 関数。指定された条件に基づいて論理的な判断を行い、結果を返すために使用されます。対応する結果。

Golang 正規表現を使用して複数の単語または文字列を照合するにはどうすればよいですか? Golang 正規表現を使用して複数の単語または文字列を照合するにはどうすればよいですか? May 31, 2024 am 10:32 AM

Golang の正規表現では、パイプ文字 | を使用して複数の単語または文字列を一致させ、各オプションを論理 OR 式として区切ります。例: 「fox」または「dog」に一致します: fox|dog は「quick」、「brown」または「lazy」に一致します: (quick|brown|lazy) 「Go」、「Python」または「Java」に一致します: Go| Python |Java は単語または 4 桁の郵便番号と一致します: ([a-zA

参照型を返す C++ 関数の利点は何ですか? 参照型を返す C++ 関数の利点は何ですか? Apr 20, 2024 pm 09:12 PM

C++ で参照型を返す関数の利点は次のとおりです。 パフォーマンスの向上: 参照による受け渡しによりオブジェクトのコピーが回避され、メモリと時間が節約されます。直接変更: 呼び出し元は、返された参照オブジェクトを再割り当てせずに直接変更できます。コードの簡素化: 参照渡しによりコードが簡素化され、追加の代入操作は必要ありません。

See all articles