python - 抓包只抓到json,真实的地址却找不到
PHPz
PHPz 2017-04-18 10:22:53
0
2
791

用charles对一览(https://www.yilan.io/home/?ca...)进行抓包,该页面是懒加载形式,每一次加载会生成一个recommended(登录情况下文件名变化但是原理相同),这个文件里面有json可以取得想要的数据。
但是post的地址(见图片顶部)如果直接复制访问会报404,不知道该如何获得可以获取数据的真实地址,并进行若干个recommended的批量抓取呢?
谢谢!

PHPz
PHPz

学习是最好的投资!

모든 응답(2)
巴扎黑

내 방법을 알려주세요. 데이터를 크롤링했습니다. 나는 Firebug를 사용하고 있는데, 열어보니 다음 경로를 발견했습니다. https://www.yilan.io/article/recommended

게시할 콘텐츠를 살펴본 후 이 데이터 세트가 필요합니다. ":0," 제한":20}. 아래에서 코드 작성을 시작하세요.

으아악

실행 결과는 다음과 같습니다.

으아악

그런 다음 원하는 콘텐츠를 추출하면 한 번에 얻을 수 있는 콘텐츠의 양이 변경되도록 제한 값을 변경할 수 있습니다.
웹사이트에서는 백그라운드에서 게시한 데이터를 확인할 수 있으며, 오류가 있는 경우 404가 발생하므로 해당 경로에 직접 접근할 수 없습니다.

大家讲道理

아마도 HTTP HEADERS 설정이 부적절할 것 같습니다. 구체적으로 설정하는 방법을 알 수 없습니다. 일반 브라우저를 시뮬레이션하는 HEADERS 세트를 만들거나 브라우저에서 요청을 추적할 수 있습니다.

최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿