node.js - Python有了asyncio和aiohttp在爬虫这类型IO任务中多线程/多进程还有存在的必要吗？

Question

最近正在学习Python中的异步编程，看了一些博客后做了一些小测验：对比asyncio+aiohttp的爬虫和asyncio+aiohttp+concurrent.futures(线程池/进程池)在效率中的差异，注释：在爬虫中我几乎没有使用任何计算性任务...

伊谢尔伦 · Answer

對Python爬蟲的了解的不多,但是一般做爬蟲不是用Scrapy的嗎.那個本身就是基於twisted異步框架的.

多進程可以充分利用多核心,目前來說理想的是多進程+協程.

因為requests中還是使用同步的方法,所以會阻塞線程,這樣的話用異步也沒有意義了.你可以理解成在asyncio中使用time.sleep方法而不是asyncio.sleep方法.

伊谢尔伦 · Answer

看看這篇文章: http://aosabook.org/en/500L/a...

PHP中文网 · Answer

asyncio採用的是協程的思想，就是在一個執行緒中處理多個非同步任務。非同步任務有那些呢，例如定時，異步IO等等。

但是如果任務不支援非同步呢？

例如讀寫一個阻塞IO，或是進項耗時的大量的計算。協程就會任務阻塞問題，多進程多執行緒的優點就體現出來了。

兩者的使用場景不一樣。不同場景，不同方案。

PHP中文网 · Answer

asyncio需要相關的第三方的庫支持，所以，基本上原來有的第三方庫都需要單獨寫，如串口，網絡協議，包括requests和http這些，不好，好的情況下，經過這兩個版本的時間，很多用到的函式庫都已經有了異步的了。包括requests.

PHPz · Answer

asyncio 需要非同步的 API 來配對（同步非阻塞 API 也可以，但是 Python 沒有setInterval這種東西，可能需要 Hack 一下）。

如果是同步阻塞的 API，一個回呼卡了其它回呼都不能執行。你可以看一看，你到目前見到的 IO API 基本上都是阻塞的。

黄舟 · Answer

Python多執行緒由於GIL的存在並不實用，但多進程還是很有用的