多线程 - 为何python子线程会等待很长时间

Question

背景：运行一个爬虫，开了10个线程，每个线程先去爬取指定数量的代理作为自己的代理池，然后开始工作。 问题：下面是爬虫日志的两行，可以看到在第一行任务处等待了45秒，而这里不过是输出一条信息，十分不理解为...

高洛峰 · Answer

發現描述的問題主要是對sqlite的不當使用引起的，之前的設計是開啟一個連接，直到完成代理池內所有代理的驗證，並抓取到一定數量的代理後再關閉連接，且每當有代理資訊的加入、修改、刪除都會去寫資料文件，所以導致粗粒度的sqlite長時間處於加鎖狀態。

發現此問題後做了優化，起始新建連接讀取完庫存代理後馬上關閉連接，之後所有的代理新增、更新、刪除數據都暫存在類變量中，直到獲取了所有需要的代理後，開啟一個新連接，用executemany更新數據，然後關閉連接，完成預定任務，速度就上去了。

不過還是無法理解為什麼原來的情形下，執行緒調度機制會允許那個因為資料庫阻塞的執行緒一直佔資源，而不是及時切換呢？

伊谢尔伦 · Answer

所以你的線程是阻塞在寫入數據庫這一關, 既然你用到的是sqlite那麼就再送你一道洪荒之力, 加速數據庫寫入操作:

import sqlite3

...
conn = sqlite3.connect('xxx.db')
cur = conn.cursor()
cur.execute("CREATE TABLE xxx")  # 建个表
cur.execute("PRAGMA synchronous = OFF")  # 关闭磁盘同步
cur.execute("BEGIN TRANSACTION")  # 开始事务处理
cur.executemany("INSERT INTO names VALUES (?,?)", lst)  # 批量插入爬到的数据
conn.commit()
conn.close()
...

用到了三個加速sqlite寫入速度的方法

關閉磁碟同步
SQLite 事務
executemany 批次插入

PS: 另外, 如果記憶體寬裕, 完全可以把資料庫檔案丟到tmpfs目錄, 這樣就會大大消除磁碟I/O帶來的影響(相當於直接在記憶體中寫入)