用Python爬取某网站两个月的数据,程序“卡顿”,但并未报错,也未结束。如上图所示。例如,我把时间循环设置为2016.8.1--2016.10.1,抓取到数据的就只能到2016.9.4,然后程序也没运行结束,但数据库也一直没有更多的数据进入。出现“卡顿”。
然后我换了台配置更好的电脑,情况会好很多,可以抓取半年的数据。本来我想抓一年的数据,但抓取到半年的数据的数据后,也会出现如图所示的情况,并且数据库也一直未添加更多的数据。即“卡顿”。
我想知道有没有办法能够一次抓取的数据多点??
认证0级讲师
방해 이유가 무엇인가요? 다음과 같은 방법으로 분석할 수 있습니다.
1. 네트워크 때문인지 확인하기 위한 패킷 캡처 분석 2. 크롤러를 작성하는 데 사용한 프레임워크는 무엇입니까? 로그를 확인하세요. 3. URL 풀이 처리되었는지 확인하고 크롤링 대기열에 새로운 대상 작업이 추가되지 않았는지 확인하세요.
멀티스레딩을 사용하면 각 스레드가 한 달의 데이터를 처리하므로 특정 달의 데이터에 문제가 있더라도 대부분의 데이터 무결성이 보장됩니다. 문제가 있는 달을 자세히 분석할 수 있습니다.
방해 이유가 무엇인가요? 다음과 같은 방법으로 분석할 수 있습니다.
1. 네트워크 때문인지 확인하기 위한 패킷 캡처 분석
2. 크롤러를 작성하는 데 사용한 프레임워크는 무엇입니까? 로그를 확인하세요.
3. URL 풀이 처리되었는지 확인하고 크롤링 대기열에 새로운 대상 작업이 추가되지 않았는지 확인하세요.
멀티스레딩을 사용하면 각 스레드가 한 달의 데이터를 처리하므로 특정 달의 데이터에 문제가 있더라도 대부분의 데이터 무결성이 보장됩니다. 문제가 있는 달을 자세히 분석할 수 있습니다.