MySQL 中的高效簡單隨機取樣
許多應用程式需要能夠從大型資料庫表中提取簡單隨機樣本。然而,對於具有數百萬行的表,使用看似直觀的方法 SELECT * FROM table ORDER BY RAND() LIMIT 10000 可能會非常緩慢。
更快的解
更有效的方法是使用 rand()函數為每一行分配一個隨機數,然後基於此過濾表number:
SELECT * FROM table WHERE rand() <= 0.3
工作原理
此方法為每行產生一個0 到1 之間的隨機數。如果該數字小於或等於 0.3 (30%),則選擇該行作為樣本。
優點
改進版本
為了提高效率,請考慮將行採樣到所需樣本大小的 2-5倍,並使用隨機數字對它們進行排序索引,然後將結果修剪到所需的大小:
SELECT COUNT(*) FROM table; -- Use this to determine rand_low and rand_high SELECT * FROM table WHERE frozen_rand BETWEEN %(rand_low)s AND %(rand_high)s ORDER BY RAND() LIMIT 1000
此方法使用索引掃描來減小結果的大小排序前的數據,使其適合大型表。
以上是如何在MySQL中有效率地進行簡單隨機取樣?的詳細內容。更多資訊請關注PHP中文網其他相關文章!