python - 爬虫获取所有数据的思路是什么
ringa_lee
ringa_lee 2017-04-18 10:19:45
0
6
642

比如一个网站有下一页,我要怎么能把所有下一页爬完呢,用递归吗,递归深度不会有限制吗,初学,希望得到指点

ringa_lee
ringa_lee

ringa_lee

모든 응답(6)
大家讲道理

재귀, 메시지 큐, 크롤링 페이지 저장(redis, 데이터베이스)

巴扎黑

당신이 언급하는 모든 데이터가 작은 도메인 이름의 모든 데이터이고 원리를 자세히 연구하고 싶지 않다면 scrapy를 배우십시오.

참조하는 모든 데이터가 전체 네트워크 데이터이고 크롤링이 너비 우선인지 깊이 우선인지 등을 알고 싶다면 먼저 10,000개 이상의 서버가 있어야 합니다.

刘奇

동일한 웹사이트라면 재귀를 이용해 크롤링하면 왜 끝까지 크롤링이 안되나요?

巴扎黑

웹사이트의 구조가 단순하고 반복적인 경우 먼저 페이지 번호 URL의 패턴을 분석한 다음 첫 번째 페이지에서 직접 총 페이지 수를 가져온 다음 다른 페이지의 URL을 수동으로 구성할 수 있습니다.

洪涛

우선 크롤링의 개념에 대해 간단히 설명하겠습니다. www.xxx.com/post/1.html과 같이 페이지 링크가 매우 간단한 경우 재귀 또는 루프를 작성하여 크롤링할 수 있습니다.

페이지 링크를 알 수 없는 경우 크롤링된 페이지를 가져와서 태그 링크를 구문 분석한 다음 크롤링을 계속할 수 있습니다. 이 과정에서 새 링크를 크롤링할 때 크롤링된 링크를 저장해야 합니다. 이전에 크롤링한 후 재귀적으로 크롤링

크롤링 아이디어: URL을 통해 크롤링 -> 크롤링된 콘텐츠에서 새 URL을 구문 분석 -> URL을 통해 크롤링 ->...-> 새 링크를 만들 때 재귀

마지막으로 Python 세계에는 매우 강력한 크롤러 프레임워크인 scrapy가 있습니다. 이는 기본적으로 약간의 학습을 통해 포털을 마스터할 수 있습니다.

阿神

으아아아

중국 신용 블랙리스트 웹사이트의 모든 사진을 로컬에 저장하는 간단한 코드 웹사이트 자체는 간단합니다! 그런데 그 자리에서 홈페이지가 다운됐고, 저는 술에 취해버렸어요!

최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿