Comment améliorer l'efficacité de l'analyse du robot d'exploration Python ?

Question

Nous utilisons maintenant l'exploration multithread dans l'environnement Windows, en utilisant beautifulsoup+lxml pour l'analyse. N threads d'analyse-&gt;file d'attente d'analyse-&gt;1 fil d'analyse-&gt;file d'attente de stockage-&gt;1 L'efficacité de l'exécution complète du le thread de stockage est bloqué dans le thread d'analyse à forte intensité de calcul...

为情所困 · Answer

En fait, je pense que vous l'avez réécrit en premierN个爬取线程 可以换成协程/线程池实现, 因为你在频繁创建线程本省一种性能耗费, 用线程池虽然可以减少这部分的损耗, 但是上下文切换还是无法避免, 所以协程这方面, 应该是比较合适的.
1个解析线程 换成 进程池,多开几个进程去计算密集处理, 其余应该可以不用改, 如果还想再搞, 将核心部分用c/c++, j'espère que cela pourra vous aider

怪我咯 · Answer

Mon approche est multi-processus. L’avantage du multi-processus est que lorsque les performances d’une seule machine ne suffisent pas, vous pouvez à tout moment passer à un robot distribué.

淡淡烟草味 · Answer

Vous pouvez trouver le robot d'exploration asynchrone Tornade en ligne, je l'utilise