Python クローラーの解析効率を向上させるにはどうすればよいですか?

Question

現在使用されているのは、Windows 環境でマルチスレッド方式でクロールし、解析に beautifulsoup+lxml を使用することです。 N 個のクローリング スレッド -> 解析キュー -> 1 個の解析スレッド -> ストレージ キュー -> 1 効率ストレージ スレッドの実行全体のうちの 1 つが、計算負荷の高い解析スレッドに滞留しています...

为情所困 · Answer

実際、あなたが先に書き直したかと思いますN个爬取线程 可以换成协程/线程池实现, 因为你在频繁创建线程本省一种性能耗费, 用线程池虽然可以减少这部分的损耗, 但是上下文切换还是无法避免, 所以协程这方面, 应该是比较合适的.
1个解析线程 换成 进程池,多开几个进程去计算密集处理, 其余应该可以不用改, 如果还想再搞, 将核心部分用c/c++、お役に立てれば幸いです

怪我咯 · Answer

私のアプローチはマルチプロセスです。マルチプロセスの利点は、単一マシンのパフォーマンスが十分ではない場合に、いつでも分散クローラに切り替えることができることです。

淡淡烟草味 · Answer

tornade 非同期クローラーはオンラインで見つけることができます。私はこれを使用しています