python - 抓包只抓到json,真实的地址却找不到
PHPz
PHPz 2017-04-18 10:22:53
0
2
785

用charles对一览(https://www.yilan.io/home/?ca...)进行抓包,该页面是懒加载形式,每一次加载会生成一个recommended(登录情况下文件名变化但是原理相同),这个文件里面有json可以取得想要的数据。
但是post的地址(见图片顶部)如果直接复制访问会报404,不知道该如何获得可以获取数据的真实地址,并进行若干个recommended的批量抓取呢?
谢谢!

PHPz
PHPz

学习是最好的投资!

全員に返信(2)
巴扎黑

私の方法について話しましょう。データをクロールしました。 firebug を使用しています。開いた後、次のパスを見つけました。 https://www.yilan.io/article/recommended

投稿するコンテンツを確認した後、このデータセット {"skip":0,"limit":20} が必要です。以下のコードを書き始めてください:

リーリー

実行結果は以下の通りです:

リーリー

その後、必要なコンテンツを抽出するだけです。制限の値を変更して、一度に取得するコンテンツの量を変更できます。
ウェブサイトは投稿されたデータをバックグラウンドでチェックする場合があり、エラーがある場合は 404 が発生するため、パスを直接開いてアクセスすることはできません。

いいねを押す +0
大家讲道理

おそらく HTTP HEADERS の設定が不適切であると思われます。具体的には、通常のブラウザをシミュレートする一連の HEADERS を用意するか、ブラウザ内でリクエストを追跡することができます。

いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート