Redis的HyperLogLog算法怎么用-Redis-PHP中文网

HyperLogLog 算法

PFADD

PFCOUNT

PFMERGE

业务场景

首页

数据库

Redis

Redis的HyperLogLog算法怎么用

王林

May 29, 2023 pm 09:49 PM

redis hyperloglog

Redis的HyperLogLog算法怎么用

你正在愉快地偷懒，但产品经理却通过邮件向你发送了一份需求文档。公司需要长期统计网站每天的访客IP，统计时间可能会持续数月甚至数年。

你看完需求就觉得这 so easy 啊，使用 Redis 的集合类型可以轻松实现这个功能：每天生成一个集合类型的键，使用 SADD 存储每天的访客 IP，使用 SCARD 命令就可以轻松得到每天访客 IP 的数量。

你很快就敲完了代码并通过测试，这个功能就上线了。上线后运行一段时间发现 Redis 所在服务器开始告警，原因是某些键的内存占用过大，你看了一下发现这些键都是存储访客 IP 的集合键。你这才拍了一下脑袋，知道自己给自己挖了一个大坑。

假设存储一个 IPv4 格式的 IP 地址最多需要 15 个字节，网站每天最多有 100 万个访客访问网站。这些集合键一个月就将使用 0.45 GB 的内存，一年将占用 5.4 GB 的内存，这还只是估算了 IPv4 格式的情况下，若是 IPv6 格式将占用更多的内存。虽然 SADD 和 SCARD 的时间复杂度都是 O(1)，但它们在内存消耗上是无法容忍的。

你在 Redis 的官方网站翻了翻，发现 Redis 还提供了一种数据类型 HyperLogLog，它既可以实现产品的需求还占用更少的内存。

HyperLogLog 算法

HyperLogLog 是一个专门为了计算集合的基数而创建的概率算法，它可以计算出一个给定集合的近似基数。

近似基数并非集合的实际基数，它可能会比实际的基数小一点或者大一点，但是估算基数和实际基数之间的误差会处于一个合理的范围之内，对于那些不要求十分精确的统计就可以使用 HyperLogLog 算法。

HyperLogLog 的优点在于它计算近似基数所需的内存并不会因为集合的大小而改变，无论集合包含的元素有多少个，HyperLogLog 进行计算所需的内存总是固定的，并且是非常少的。

Redis 的每个 HyperLogLog 类型只需要使用 12KB 内存空间，就可以对接近：2⁶⁴ 个元素进行计数，而算法的标准误差仅为 0.81%。

如果使用 HyperLogLog 类型实现上述功能，每天有 100 万个访客的情况下，1 个月也仅仅占用 360KB 的内存。

PFADD

通过 PFADD 命令可以对给定的一个或多个集合元素进行计数。

PFADD key element [element...]

根据给定的元素是否已经进行过计数，PFADD 命令可能返回 0，也可能返回 1：

如果给定的所有元素都已经进行过计数，那么 PFADD 命令将返回 0，表示 HyperLogLog 计算出的近似基数没有发生变化。
如果给定的元素中出现了至少一个之前没有进行过计数的元素，导致 HyperLogLog 计算出的近似基数发生了变化，那么 PFADD 命令将返回 1。

例如：

redis> PFADD letters a b c -- 第一次添加
(integer) 1
redis> PFADD letters a     -- 第二次添加
(integer) 0

登录后复制

如果在调用该命令时仅指定 key 而不指定元素也是可以的，如果 key 存在，则不会有任何操作，如果不存在，则会创建一个数据结构（返回 1）。

PFCOUNT

使用 PFCOUNT 命令可以获取基于 HyperLogLog 近似计算的集合基数。若给定的 key 不存在将返回 0。

PFCOUNT key [key...]

例如：

redis> PFCOUNT letters
(integer) 3

登录后复制

当向 PFCOUNT 传入多个 HyperLogLog 时，PFCOUNT 命令将先对所有的 HyperLogLog 求并集，然后返回近似基数。

redis> PFADD letters1 a b c
(integer) 1
redis> PFADD letters2 c d e
(integer) 1
redis> PFCOUNT letters1 letters2
(integer) 5

登录后复制

PFMERGE

PFMERGE 命令可以对多个 HyperLogLog 执行并集计算，然后把计算得出的并集 HyperLogLog 保存到指定的键中。

PFMERGE destKey sourceKey [sourceKey...]

如果指定的键已经存在，PFMERGE 命令将覆盖已有的键。

redis> PFADD letters1 a b c
(integer) 1
redis> PFADD letters2 c d e
(integer) 1
redis> PFMERGE res letters1 letters2
OK
redis> PFCOUNT res
(integer) 5

登录后复制

可以看到 PFMERGE 和 PFCOUNT 命令十分相似，实际上 PFCOUNT 命令在计算多个 HyperLogLog 的近似基数时会执行以下操作：

在内部调用 PFMERGE 命令，计算所有给定 HyperLogLog 的并集，并将这个并集存储到一个临时的 HyperLogLog 中。
对临时 HyperLogLog 执行 PFCOUNT 命令，得到它的近似基数。
删除临时 HyperLogLog。
返回得到的近似基数。

当程序需要对多个 HyperLogLog 调用 PFCOUNT 命令，并且这个调用可能会重复执行多次时，可以考虑把这一调用替换成相应的 PFMERGE 命令调用：通过把并集的计算结果存储到指定的 HyperLogLog 中而不是每次都重新计算并集，程序可以最大程度地减少不必要的并集计算。

业务场景

HyperLogLog 的特性十分适合：计数（月度、年度统计）、去重（垃圾短信检测）等场景。

以上是Redis的HyperLogLog算法怎么用的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7530

CakePHP 教程

1379

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

redis集群模式怎么搭建 Apr 10, 2025 pm 10:15 PM

Redis集群模式通过分片将Redis实例部署到多个服务器，提高可扩展性和可用性。搭建步骤如下：创建奇数个Redis实例，端口不同；创建3个sentinel实例，监控Redis实例并进行故障转移；配置sentinel配置文件，添加监控Redis实例信息和故障转移设置；配置Redis实例配置文件，启用集群模式并指定集群信息文件路径；创建nodes.conf文件，包含各Redis实例的信息；启动集群，执行create命令创建集群并指定副本数量；登录集群执行CLUSTER INFO命令验证集群状态；使

redis指令怎么用 Apr 10, 2025 pm 08:45 PM

使用 Redis 指令需要以下步骤：打开 Redis 客户端。输入指令（动词键值）。提供所需参数（因指令而异）。按 Enter 执行指令。Redis 返回响应，指示操作结果（通常为 OK 或 -ERR）。

redis数据怎么清空 Apr 10, 2025 pm 10:06 PM

如何清空 Redis 数据：使用 FLUSHALL 命令清除所有键值。使用 FLUSHDB 命令清除当前选定数据库的键值。使用 SELECT 切换数据库，再使用 FLUSHDB 清除多个数据库。使用 DEL 命令删除特定键。使用 redis-cli 工具清空数据。

redis怎么使用单线程 Apr 10, 2025 pm 07:12 PM

Redis 使用单线程架构，以提供高性能、简单性和一致性。它利用 I/O 多路复用、事件循环、非阻塞 I/O 和共享内存来提高并发性，但同时存在并发性受限、单点故障和不适合写密集型工作负载的局限性。

redis怎么读源码 Apr 10, 2025 pm 08:27 PM

理解 Redis 源码的最佳方法是逐步进行：熟悉 Redis 基础知识。选择一个特定的模块或功能作为起点。从模块或功能的入口点开始，逐行查看代码。通过函数调用链查看代码。熟悉 Redis 使用的底层数据结构。识别 Redis 使用的算法。

redis底层怎么实现 Apr 10, 2025 pm 07:21 PM

Redis 使用哈希表存储数据，支持字符串、列表、哈希表、集合和有序集合等数据结构。Redis 通过快照 (RDB) 和追加只写 (AOF) 机制持久化数据。Redis 使用主从复制来提高数据可用性。Redis 使用单线程事件循环处理连接和命令，保证数据原子性和一致性。Redis 为键设置过期时间，并使用 lazy 删除机制删除过期键。

redis怎么查看所有的key Apr 10, 2025 pm 07:15 PM

要查看 Redis 中的所有键，共有三种方法：使用 KEYS 命令返回所有匹配指定模式的键；使用 SCAN 命令迭代键并返回一组键；使用 INFO 命令获取键的总数。

redis怎么读取队列 Apr 10, 2025 pm 10:12 PM

要从 Redis 读取队列，需要获取队列名称、使用 LPOP 命令读取元素，并处理空队列。具体步骤如下：获取队列名称：以 "queue:" 前缀命名，如 "queue:my-queue"。使用 LPOP 命令：从队列头部弹出元素并返回其值，如 LPOP queue:my-queue。处理空队列：如果队列为空，LPOP 返回 nil，可先检查队列是否存在再读取元素。

See all articles

Redis的HyperLogLog算法怎么用

HyperLogLog 算法

PFADD

PFCOUNT

PFMERGE

业务场景

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题