node.js - Python有了asyncio和aiohttp在爬虫这类型IO任务中多线程/多进程还有存在的必要吗？

Question

最近正在学习Python中的异步编程，看了一些博客后做了一些小测验：对比asyncio+aiohttp的爬虫和asyncio+aiohttp+concurrent.futures(线程池/进程池)在效率中的差异，注释：在爬虫中我几乎没有使用任何计算性任务...

伊谢尔伦 · Answer

私は Python クローラーについてはあまり知りませんが、一般的に Scrapy は、ツイストされた非同期フレームワークに基づいてクローラーを作成するために使用されます。

複数のプロセスで複数のコアを使いこなすのが現状ではマルチプロセス+コルーチンが理想的です

リクエストでは同期メソッドが引き続き使用されるため、スレッドがブロックされてしまいます。この場合、asyncio で asyncio.sleep メソッドの代わりに time.sleep メソッドを使用することは意味がありません。

伊谢尔伦 · Answer

この記事をチェックしてください: http://aosabook.org/en/500L/a...

PHP中文网 · Answer

asyncioは、複数の非同期タスクを1つのスレッドで処理するcoroutineの考え方を採用しています。 timing、非同期IOなどの非同期タスクとは何ですか。

しかし、タスクが非同期をサポートしていない場合はどうなるでしょうか?

たとえば、ブロッキング IO の読み書きや、時間のかかる 多くの計算の実行などです。 Coroutinesはタスクのブロックの問題を解決し、マルチプロセスとマルチスレッドの利点を反映します。

2 つの使用シナリオは異なります。さまざまなシナリオ、さまざまな計画。

PHP中文网 · Answer

asyncio は関連するサードパーティライブラリのサポートを必要とするため、基本的にシリアルポート、リクエストや http を含むネットワークプロトコルなど、すべてのオリジナルのサードパーティライブラリを個別に記述する必要があります。使用されるライブラリの多くはすでに非同期です。リクエストも含まれます

PHPz · Answer

asyncio をサポートするには非同期 API が必要です (同期ノンブロッキング API も利用可能ですが、Python にはそのようなものがないため、ハックする必要がある場合があります)。 setInterval

同期ブロッキングAPIの場合、1つのコールバックがスタックすると他のコールバックは実行できなくなります。これまで見てきた IO API は基本的にブロックしていることを確認してください。

黄舟 · Answer

Python のマルチスレッドは GIL の存在により実用的ではありませんが、マルチプロセスは依然として非常に便利です

代码

补充