まず第一に、ページ データ コンテンツには 2 つの方法があることを知っておく必要があります (クロールされるデータの方法は 2 つだけです)。1 つ目は直接レンダリング (テンプレート ページへの mvc テンプレートの割り当てに基づいて)、2 つ目は取得です。インターフェイスを介して JS によってレンダリングされます (インターフェイスによって返されます))
次に、データを探している場合:
直接アクセスされたアドレスが、必要なコンテンツ (テンプレート ページに割り当てられた) のテキストを取得できるかどうかによって異なります。 mvc テンプレートに基づいています)
そうでない場合は、それがそうであるかどうかを確認してください。どのインターフェースが取得されているかを確認してください。
以降のリンクについても同じことが当てはまります:
直接レンダリングされる場合、データとタグは 3 番目の方法で分離できます。 xpath や csspath などのパーティー ライブラリ
直接レンダリングされない場合、JS は次の訪問のために組み合わせる必要があるパラメーターに従って (Cookie を使用した) リンクをつなぎ合わせる必要があります
注 1:値を何度も取得できないため、手動で変更する必要があります。 Cookie
注 2: インターフェースの場合、URL のパラメーターが変更されるため、リクエストされた URL は毎日変更されることに注意してください。 、クロールダウンできなくなります(このようにURLをデータベースに保存し、クロール時に確認できます)出てきて、パラメーターをスペルアウトして、それらをcurlに投げます)
注3:また、 WeChat の速度制限については知りません。時間に制限がない場合は、1 ラウンドを約 10 秒で登るだけです
最も重要なことは、クロールする前にログインをシミュレートする必要がないものもあります。ログインしたら、インターフェイスを見つけてブラウザで実行してみてください (データが返された場合は、リクエストに必要な Cookie とパラメータだけを持ってくる必要があることがわかります) コードのスキャンをシミュレートする必要はありません。
関連する推奨事項:
以上がPHPデータクローリングcurlサンプルの詳細説明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。