Redis資料類型學習之HyperLogLog淺析
這篇文章帶大家了解Redis資料類型中的HyperLogLog,通常用來統計一個集合中不重複的元素個數,希望對大家有幫助!
今天是星期五,你正開心的摸魚,產品經理透過電子郵件給你發了一個需求文件。需求大概是:公司要統計網站每天的訪客 IP,而且這個統計是一個長期的行為,短則數月、長則幾年。
你看完需求就覺得這so easy 啊,使用Redis 的集合類型可以輕鬆實現這個功能:每天產生一個集合類型的鍵,使用SADD 儲存每天的訪客IP,使用SCARD 指令就可以輕鬆得到每天訪客IP 的數量。
你很快就敲完了程式碼並通過測試,這個功能就上線了。上線後運行一段時間發現 Redis 所在伺服器開始告警,原因是某些鍵的記憶體佔用過大,你看了一下發現這些鍵都是儲存訪客 IP 的集合鍵。你這才拍了一下腦袋,知道自己給自己挖了一個大坑。
假設儲存一個 IPv4 格式的 IP 位址最多需要 15 個位元組,網站每天最多有 100 萬個訪客造訪網站。這些集合鍵一個月就將使用 0.45 GB 的內存,一年將佔用 5.4 GB 的內存,這還只是估算了 IPv4 格式的情況下,若是 IPv6 格式將佔用更多的內存。 SADD 和 SCARD 的時間複雜度雖然都是 O(1),但是它們對記憶體的消耗是無法接受的。
你在 Redis 的官方網站翻了翻,發現 Redis 還提供了一種資料類型 HyperLogLog,它既可以實現產品的需求還佔用更少的記憶體。 【相關推薦:Redis影片教學】
HyperLogLog 演算法
HyperLogLog 是一個專門為了計算集合的基數而創建的機率演算法,它可以計算出一個給定集合的近似基數。
近似基數並非集合的實際基數,它可能會比實際的基數小一點或大一點,但是估算基數和實際基數之間的誤差會處於一個合理的範圍之內,對於那些不要求十分精確的統計量就可以使用HyperLogLog 演算法。
HyperLogLog 的優點在於它計算近似基數所需的記憶體並不會因為集合的大小而改變,無論集合包含的元素有多少個,HyperLogLog 進行計算所需的記憶體總是固定的,而且是非常少的。
Redis 的每個 HyperLogLog 類型只需要使用 12KB 記憶體空間,就可以對接近:264 個元素進行計數,而演算法的標準誤差僅為 0.81%。
如果使用 HyperLogLog 類型實現上述功能,每天有 100 萬個訪客的情況下,1 個月也只佔用 360KB 的記憶體。
PFADD
透過 PFADD 指令可以對給定的一個或多個集合元素進行計數。
PFADD key element [element...]
#根據給定的元素是否已經進行過計數,PFADD 指令可能回傳0,也可能回傳1:
- 如果給定的所有元素都已經進行過計數,那麼PFADD 指令將會傳回0,表示HyperLogLog 計算出的近似基數沒有改變。
- 如果給定的元素中出現了至少一個先前沒有進行過計數的元素,導致 HyperLogLog 計算的近似基數發生了變化,那麼 PFADD 指令將會傳回 1。
例如:
redis> PFADD letters a b c -- 第一次添加 (integer) 1 redis> PFADD letters a -- 第二次添加 (integer) 0
如果在呼叫該命令時僅指定key 而不指定元素也是可以的,如果key 存在,則不會有任何操作,如果不存在,則會建立一個資料結構(返回1)。
PFCOUNT
透過 PFCOUNT 指令可以取得 HyperLogLog 為集合計算的近似基底數。若給定的 key 不存在將傳回 0。
PFCOUNT key [key...]
例如:
redis> PFCOUNT letters (integer) 3
當向PFCOUNT 傳入多個HyperLogLog 時,PFCOUNT 指令將先對所有的HyperLogLog 求並集,然後傳回近似基數。
redis> PFADD letters1 a b c (integer) 1 redis> PFADD letters2 c d e (integer) 1 redis> PFCOUNT letters1 letters2 (integer) 5
PFMERGE
PFMERGE 指令可以對多個 HyperLogLog 執行並集計算,然後把計算出來的並集 HyperLogLog 儲存到指定的鍵中。
PFMERGE destKey sourceKey [sourceKey...]
#如果指定的鍵已經存在,PFMERGE 指令將覆蓋現有的鍵。
redis> PFADD letters1 a b c (integer) 1 redis> PFADD letters2 c d e (integer) 1 redis> PFMERGE res letters1 letters2 OK redis> PFCOUNT res (integer) 5
可以看到PFMERGE 和PFCOUNT 指令十分相似,實際上PFCOUNT 指令在計算多個HyperLogLog 的近似基底數時會執行以下操作:
#在內部調用PFMERGE 指令,計算所有給定HyperLogLog 的並集,並將這個並集儲存到一個臨時的HyperLogLog 中。
對暫存 HyperLogLog 執行 PFCOUNT 指令,得到它的近似基數。
刪除臨時 HyperLogLog。
傳回所得的近似基數。
當程式需要對多個HyperLogLog 呼叫PFCOUNT 指令,而這個呼叫可能會重複執行多次時,可以考慮把這個呼叫替換成對應的PFMERGE 指令呼叫:透過把並集的計算結果儲存到指定的HyperLogLog 中而不是每次都重新計算並集,程式可以最大程度地減少不必要的並集計算。
業務場景
HyperLogLog 的特色十分適合:計數(月度、年度統計)、去重(垃圾簡訊偵測)等場景。
更多程式相關知識,請造訪:程式設計入門! !
以上是Redis資料類型學習之HyperLogLog淺析的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

Redis集群模式通過分片將Redis實例部署到多個服務器,提高可擴展性和可用性。搭建步驟如下:創建奇數個Redis實例,端口不同;創建3個sentinel實例,監控Redis實例並進行故障轉移;配置sentinel配置文件,添加監控Redis實例信息和故障轉移設置;配置Redis實例配置文件,啟用集群模式並指定集群信息文件路徑;創建nodes.conf文件,包含各Redis實例的信息;啟動集群,執行create命令創建集群並指定副本數量;登錄集群執行CLUSTER INFO命令驗證集群狀態;使

如何清空 Redis 數據:使用 FLUSHALL 命令清除所有鍵值。使用 FLUSHDB 命令清除當前選定數據庫的鍵值。使用 SELECT 切換數據庫,再使用 FLUSHDB 清除多個數據庫。使用 DEL 命令刪除特定鍵。使用 redis-cli 工具清空數據。

要從 Redis 讀取隊列,需要獲取隊列名稱、使用 LPOP 命令讀取元素,並處理空隊列。具體步驟如下:獲取隊列名稱:以 "queue:" 前綴命名,如 "queue:my-queue"。使用 LPOP 命令:從隊列頭部彈出元素並返回其值,如 LPOP queue:my-queue。處理空隊列:如果隊列為空,LPOP 返回 nil,可先檢查隊列是否存在再讀取元素。

使用 Redis 指令需要以下步驟:打開 Redis 客戶端。輸入指令(動詞 鍵 值)。提供所需參數(因指令而異)。按 Enter 執行指令。 Redis 返迴響應,指示操作結果(通常為 OK 或 -ERR)。

使用Redis進行鎖操作需要通過SETNX命令獲取鎖,然後使用EXPIRE命令設置過期時間。具體步驟為:(1) 使用SETNX命令嘗試設置一個鍵值對;(2) 使用EXPIRE命令為鎖設置過期時間;(3) 當不再需要鎖時,使用DEL命令刪除該鎖。

在CentOS系統上,您可以通過修改Redis配置文件或使用Redis命令來限制Lua腳本的執行時間,從而防止惡意腳本佔用過多資源。方法一:修改Redis配置文件定位Redis配置文件:Redis配置文件通常位於/etc/redis/redis.conf。編輯配置文件:使用文本編輯器(例如vi或nano)打開配置文件:sudovi/etc/redis/redis.conf設置Lua腳本執行時間限制:在配置文件中添加或修改以下行,設置Lua腳本的最大執行時間(單位:毫秒)

使用 Redis 命令行工具 (redis-cli) 可通過以下步驟管理和操作 Redis:連接到服務器,指定地址和端口。使用命令名稱和參數向服務器發送命令。使用 HELP 命令查看特定命令的幫助信息。使用 QUIT 命令退出命令行工具。

Redis數據過期策略有兩種:定期刪除:定期掃描刪除過期鍵,可通過 expired-time-cap-remove-count、expired-time-cap-remove-delay 參數設置。惰性刪除:僅在讀取或寫入鍵時檢查刪除過期鍵,可通過 lazyfree-lazy-eviction、lazyfree-lazy-expire、lazyfree-lazy-user-del 參數設置。
