PHPデータクローリングcurlサンプルの詳細説明-PHPチュートリアル-php.cn

PHPデータクローリングcurlサンプルの詳細説明

小云云

リリース： 2023-03-20 19:26:01

オリジナル

2044 人が閲覧しました

まず第一に、ページデータコンテンツには 2 つの方法があることを知っておく必要があります (クロールされるデータの方法は 2 つだけです)。1 つ目は直接レンダリング (テンプレートページへの mvc テンプレートの割り当てに基づいて)、2 つ目は取得です。インターフェイスを介して JS によってレンダリングされます (インターフェイスによって返されます))

次に、データを探している場合:

直接アクセスされたアドレスが、必要なコンテンツ (テンプレートページに割り当てられた) のテキストを取得できるかどうかによって異なります。 mvc テンプレートに基づいています)

そうでない場合は、それがそうであるかどうかを確認してください。どのインターフェースが取得されているかを確認してください。

以降のリンクについても同じことが当てはまります:

直接レンダリングされる場合、データとタグは 3 番目の方法で分離できます。 xpath や csspath などのパーティーライブラリ

直接レンダリングされない場合、JS は次の訪問のために組み合わせる必要があるパラメーターに従って (Cookie を使用した) リンクをつなぎ合わせる必要があります

注 1:値を何度も取得できないため、手動で変更する必要があります。 Cookie

注 2: インターフェースの場合、URL のパラメーターが変更されるため、リクエストされた URL は毎日変更されることに注意してください。、クロールダウンできなくなります（このようにURLをデータベースに保存し、クロール時に確認できます）出てきて、パラメーターをスペルアウトして、それらをcurlに投げます）

注3：また、 WeChat の速度制限については知りません。時間に制限がない場合は、1 ラウンドを約 10 秒で登るだけです

最も重要なことは、クロールする前にログインをシミュレートする必要がないものもあります。ログインしたら、インターフェイスを見つけてブラウザで実行してみてください (データが返された場合は、リクエストに必要な Cookie とパラメータだけを持ってくる必要があることがわかります) コードのスキャンをシミュレートする必要はありません。