Python爬虫程序运行“卡顿”
PHP中文网
PHP中文网 2017-04-18 09:29:28
0
2
769


用Python爬取某网站两个月的数据,程序“卡顿”,但并未报错,也未结束。如上图所示。
例如,我把时间循环设置为2016.8.1--2016.10.1,抓取到数据的就只能到2016.9.4,然后程序也没运行结束,但数据库也一直没有更多的数据进入。出现“卡顿”。

然后我换了台配置更好的电脑,情况会好很多,可以抓取半年的数据。本来我想抓一年的数据,但抓取到半年的数据的数据后,也会出现如图所示的情况,并且数据库也一直未添加更多的数据。即“卡顿”。

我想知道有没有办法能够一次抓取的数据多点??

PHP中文网
PHP中文网

认证0级讲师

répondre à tous(2)
PHPzhong

Quelle est la raison de l'obstruction ? Vous pouvez l'analyser des manières suivantes :

1. Analyse de capture de paquets pour voir si cela est dû au réseau ;
2. Quel framework avez-vous utilisé pour écrire le robot ? S'agit-il d'un framework urllib2 ou scrapy ?
3. Vérifiez si le pool d'URL a été traité et si aucune nouvelle tâche cible n'a été ajoutée à la file d'attente d'exploration.

Ty80

Vous pouvez utiliser le multithreading, chaque thread traite les données d'un mois, de sorte que même s'il y a un problème avec les données d'un mois, l'intégrité de la plupart des données peut toujours être garantie, puis les données du mois avec le problème peut être analysé en détail.

Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal