如何提升分組速度

Question

我有一個擁有超過3B行的大表格，我的查詢現在需要3天才能執行。這是我的查詢：insertintofrequencywords(word,frequency,filename)selectword,count(*)asfrequency,max(filename)fromallwordstempgroupbyword基本上，我的查詢是從allwordstemp表格按照word分組，並且我想知道當

P粉741678385 · Answer

您的篩選條件似乎是基於頻率，而不是單字或檔案名稱。所以我首先會按頻率對所有單字進行索引。

然後，假設頻率是一個整數，我會新增一個WHERE子句，如下所示：

select word, max(filename)
from allwordstemp
where frequency = 1
group by word

以上將提供您一個在各種檔案名稱中僅出現一次的所有單字清單。

希望這對您有幫助，祝一切順利！