Redis基數統計HyperLogLog小記憶體大用處-PHP开发-PHP中文網

Redis基數統計HyperLogLog小記憶體大用處

高洛峰

發布： 2016-11-23 09:34:01

原創

1532 人瀏覽過

我們一直都知道，redis幾大常用資料結構，字串、雜湊、列表、集合、有序集合。其實後來Redis做了許多補充，其中之一就是HyperLogLog，另外的還有GEO（地理位置），是3.2版本加的。

這裡我們就來簡單介紹下HyperLogLog結構。

先說用處：這個結構可以非常省內存的去統計各種計數，比如註冊ip數、每日訪問IP數、頁面實時UV（PV肯定字符串就搞定了）、在線用戶數等。

這裡看到所有的用處都是xxx數，所以這個資料結構的特點就是，可以比較準確的估算出你要統計的數量，但是卻無法知道統計的詳細內容。例如統計每日存取IP數，可以取得當時造訪過的IP總數量，但沒辦法知道這些IP都是什麼。

有得必有失，當然你要統計上面提到的那些內容，可以用集合來處理，這樣可以知道數量，也能獲得所有的詳細列表。但是一個大型的網站，每天IP例如有100萬個呢，我們粗算一個IP消耗15字節，那麼100萬個IP就是15M，如果1千萬，就是150M。

再來看看我們的HyperLogLog，在Redis中每個鍵佔用的內容都是12K，理論儲存近似接近2^64個值，不管儲存的內容是什麼。 12K，知道這個資料結構的作用了吧。這也是為什麼他不能知道裡面的詳細內容了。這是一個基於基數估算的演算法，只能比較準確的估算出基數，可以使用少量固定的記憶體去儲存並識別集合中的唯一元素。而這個估計的基數不一定準確，是一個帶有 0.81% 標準誤差（standard error）的近似值。

這裡當你記錄的內容越多，和集合使用的內容就越容易產生鮮明的對比，因為HyperLogLog結構，在範圍允許的情況下無論多少值，都置灰佔用12K內存。

這樣比如我們把每日IP記錄下來，假設每天有一億個IP訪問，如果使用集合的話，一天的內存使用就是1.5G，假設我們存儲一個月的記錄，就需要45G容量。但使用HyperLogLog的話，一天12K，一個月360K。如果我們不需要知道IP具體資訊的話，完全可以把這些記錄留在記憶體一年、或不刪都行。如果需要，我們也會把所有的IP存取記錄透過其他途徑儲存起來。把每天的資訊儲存起來，我們可以計算每月IP總數（MERGE），一年的IP總數等（去重）。

下面介紹一下HyperLogLog的指令，其實他跟集合的指令比較像，只是指令少，不能取得列表而已。另外這個資料結構需要2.8.9以上的版本才能使用哦~

PFADD

在執行這個指令之後，HyperLogLog內部的結構會被更新，並有所回饋，如果執行完之後HyperLogLog內部的基數估算發生了變化，那麼就會返回1，否則（認為已經存在）就返回0。
這個指令還有一個比較神器的就是可以只有鍵，沒有值，這樣的意思就是只是創建空的鍵，不放值。
如果這個鍵存在，不做任何事情，返回0；不存在的話就創建，並返回1。

這個指令的時間複雜度為O(1)，所以就放心用吧~

指令範例：

redis> PFADD  ip:20160929  "1.1.1.1"  "2.2.2.2"  "3.3.3.3"
(integer) 1
redis> PFADD  ip:20160929 "2.2.2.2"  "4.4.4.4"  "5.5.5.5"  # 存在就只加新的
(integer) 1
redis> PFCOUNT  ip:20160929  # 元素估计数量没有变化
(integer) 5
redis> PFADD  ip:20160929 "2.2.2.2"  # 存在就不会增加
(integer) 0

登入後複製

其實我們發現在少的時候還是挺準的，哈哈。

PFCOUNT

其實在上面的學習中我們已經用過這個了，這裡再來介紹下。

當指令作用於單一鍵的時候，回傳這個鍵的基數估算值。如果鍵不存在，則傳回0。
當作用於多個鍵的時候，傳回這些鍵的並集估算值。類似於把這些鍵都合併了之後，在呼叫這個指令輸出。

這個指令在作用於單一值的時候，時間複雜度為O(1)，並且具有非常低的平均常數時間；在作用於N個值的時候，時間複雜度為O(N)，這個指令的常數複雜度會比較低。

指令範例：

redis> PFADD  ip:20160929  "1.1.1.1"  "2.2.2.2"  "3.3.3.3"
(integer) 1
redis> PFCOUNT  ip:20160929
(integer) 3
redis> PFADD  ip:20160928  "1.1.1.1"  "4.4.4.4"  "5.5.5.5"
(integer) 1
redis> PFCOUNT  ip:20160928  ip:20160929
(integer) 5

登入後複製

PFMERGE

合併（merge）多個HyperLogLog為一個HyperLogLog。其實這個也很好理解，而合併後的估算基數也近似於所有HyperLogLog估算基數的並集。

這個指令的第一個參數為目標鍵，剩下的參數就是要合併的HyperLogLog。命令執行時，如果目標鍵不存在，則建立後再執行合併。

這個指令的時間複雜度為O(N)，其中N為要合併的HyperLogLog的個數。不過這個指令的常數時間複雜度比較高。

指令範例：

edis> PFADD  ip:20160929  "1.1.1.1"  "2.2.2.2"  "3.3.3.3"
(integer) 1
redis> PFADD  ip:20160928  "1.1.1.1"  "4.4.4.4"  "5.5.5.5"
(integer) 1
redis> PFMERGE ip:201609   ip:20160928   ip:20160929
OK
redis> PFCOUNT  ip:201609
(integer) 5

登入後複製

到此HyperLogLog所有的命令就都介绍完了，没错，目前就只有这三个。其实也很简单的，知道了这个结构的用法，也就知道什么时候适合用了，对我们非常珍贵的内存还是很有帮助。