用charles对一览(https://www.yilan.io/home/?ca...)进行抓包,该页面是懒加载形式,每一次加载会生成一个recommended(登录情况下文件名变化但是原理相同),这个文件里面有json可以取得想要的数据。但是post的地址(见图片顶部)如果直接复制访问会报404,不知道该如何获得可以获取数据的真实地址,并进行若干个recommended的批量抓取呢?谢谢!
学习是最好的投资!
내 방법을 알려주세요. 데이터를 크롤링했습니다. 나는 Firebug를 사용하고 있는데, 열어보니 다음 경로를 발견했습니다. https://www.yilan.io/article/recommended 게시할 콘텐츠를 살펴본 후 이 데이터 세트가 필요합니다. ":0," 제한":20}. 아래에서 코드 작성을 시작하세요.
https://www.yilan.io/article/recommended
실행 결과는 다음과 같습니다.
그런 다음 원하는 콘텐츠를 추출하면 한 번에 얻을 수 있는 콘텐츠의 양이 변경되도록 제한 값을 변경할 수 있습니다. 웹사이트에서는 백그라운드에서 게시한 데이터를 확인할 수 있으며, 오류가 있는 경우 404가 발생하므로 해당 경로에 직접 접근할 수 없습니다.
아마도 HTTP HEADERS 설정이 부적절할 것 같습니다. 구체적으로 설정하는 방법을 알 수 없습니다. 일반 브라우저를 시뮬레이션하는 HEADERS 세트를 만들거나 브라우저에서 요청을 추적할 수 있습니다.
내 방법을 알려주세요. 데이터를 크롤링했습니다. 나는 Firebug를 사용하고 있는데, 열어보니 다음 경로를 발견했습니다.
으아악https://www.yilan.io/article/recommended
게시할 콘텐츠를 살펴본 후 이 데이터 세트가 필요합니다. ":0," 제한":20}. 아래에서 코드 작성을 시작하세요.
실행 결과는 다음과 같습니다.
으아악그런 다음 원하는 콘텐츠를 추출하면 한 번에 얻을 수 있는 콘텐츠의 양이 변경되도록 제한 값을 변경할 수 있습니다.
웹사이트에서는 백그라운드에서 게시한 데이터를 확인할 수 있으며, 오류가 있는 경우 404가 발생하므로 해당 경로에 직접 접근할 수 없습니다.
아마도 HTTP HEADERS 설정이 부적절할 것 같습니다. 구체적으로 설정하는 방법을 알 수 없습니다. 일반 브라우저를 시뮬레이션하는 HEADERS 세트를 만들거나 브라우저에서 요청을 추적할 수 있습니다.