Redis数据类型学习之HyperLogLog浅析-Redis-PHP中文网

HyperLogLog 算法

PFADD

PFCOUNT

PFMERGE

业务场景

首页

数据库

Redis

Redis数据类型学习之HyperLogLog浅析

青灯夜游

Jan 21, 2022 am 10:00 AM

hyperloglog redis 数据类型

本篇文章带大家了解一下Redis数据类型中的HyperLogLog，通常用来统计一个集合中不重复的元素个数，希望对大家有所帮助！

Redis数据类型学习之HyperLogLog浅析

今天是周五，你正开心的摸鱼，产品经理通过邮件给你发了一个需求文档。需求大概是：公司要统计网站每天的访客 IP，而且这个统计是一个长期的行为，短则数月、长则几年。

你看完需求就觉得这 so easy 啊，使用 Redis 的集合类型可以轻松实现这个功能：每天生成一个集合类型的键，使用 SADD 存储每天的访客 IP，使用 SCARD 命令就可以轻松得到每天访客 IP 的数量。

你很快就敲完了代码并通过测试，这个功能就上线了。上线后运行一段时间发现 Redis 所在服务器开始告警，原因是某些键的内存占用过大，你看了一下发现这些键都是存储访客 IP 的集合键。你这才拍了一下脑袋，知道自己给自己挖了一个大坑。

假设存储一个 IPv4 格式的 IP 地址最多需要 15 个字节，网站每天最多有 100 万个访客访问网站。这些集合键一个月就将使用 0.45 GB 的内存，一年将占用 5.4 GB 的内存，这还只是估算了 IPv4 格式的情况下，若是 IPv6 格式将占用更多的内存。SADD 和 SCARD 的时间复杂度虽然都是 O(1)，但是它们对内存的消耗是无法接受的。

你在 Redis 的官方网站翻了翻，发现 Redis 还提供了一种数据类型 HyperLogLog，它既可以实现产品的需求还占用更少的内存。【相关推荐：Redis视频教程】

HyperLogLog 算法

HyperLogLog 是一个专门为了计算集合的基数而创建的概率算法，它可以计算出一个给定集合的近似基数。

近似基数并非集合的实际基数，它可能会比实际的基数小一点或者大一点，但是估算基数和实际基数之间的误差会处于一个合理的范围之内，对于那些不要求十分精确的统计就可以使用 HyperLogLog 算法。

HyperLogLog 的优点在于它计算近似基数所需的内存并不会因为集合的大小而改变，无论集合包含的元素有多少个，HyperLogLog 进行计算所需的内存总是固定的，并且是非常少的。

Redis 的每个 HyperLogLog 类型只需要使用 12KB 内存空间，就可以对接近：2⁶⁴ 个元素进行计数，而算法的标准误差仅为 0.81%。

如果使用 HyperLogLog 类型实现上述功能，每天有 100 万个访客的情况下，1 个月也仅仅占用 360KB 的内存。

PFADD

通过 PFADD 命令可以对给定的一个或多个集合元素进行计数。

PFADD key element [element...]

根据给定的元素是否已经进行过计数，PFADD 命令可能返回 0，也可能返回 1：

如果给定的所有元素都已经进行过计数，那么 PFADD 命令将返回 0，表示 HyperLogLog 计算出的近似基数没有发生变化。
如果给定的元素中出现了至少一个之前没有进行过计数的元素，导致 HyperLogLog 计算出的近似基数发生了变化，那么 PFADD 命令将返回 1。

例如：

redis> PFADD letters a b c -- 第一次添加
(integer) 1
redis> PFADD letters a     -- 第二次添加
(integer) 0

登录后复制

如果在调用该命令时仅指定 key 而不指定元素也是可以的，如果 key 存在，则不会有任何操作，如果不存在，则会创建一个数据结构（返回 1）。

PFCOUNT

通过 PFCOUNT 命令可以获取 HyperLogLog 为集合计算出的近似基数。若给定的 key 不存在将返回 0。

PFCOUNT key [key...]

例如：

redis> PFCOUNT letters
(integer) 3

登录后复制

当向 PFCOUNT 传入多个 HyperLogLog 时，PFCOUNT 命令将先对所有的 HyperLogLog 求并集，然后返回近似基数。

redis> PFADD letters1 a b c
(integer) 1
redis> PFADD letters2 c d e
(integer) 1
redis> PFCOUNT letters1 letters2
(integer) 5

登录后复制

PFMERGE

PFMERGE 命令可以对多个 HyperLogLog 执行并集计算，然后把计算得出的并集 HyperLogLog 保存到指定的键中。

PFMERGE destKey sourceKey [sourceKey...]

如果指定的键已经存在，PFMERGE 命令将覆盖已有的键。

redis> PFADD letters1 a b c
(integer) 1
redis> PFADD letters2 c d e
(integer) 1
redis> PFMERGE res letters1 letters2
OK
redis> PFCOUNT res
(integer) 5

登录后复制

可以看到 PFMERGE 和 PFCOUNT 命令十分相似，实际上 PFCOUNT 命令在计算多个 HyperLogLog 的近似基数时会执行以下操作：

在内部调用 PFMERGE 命令，计算所有给定 HyperLogLog 的并集，并将这个并集存储到一个临时的 HyperLogLog 中。
对临时 HyperLogLog 执行 PFCOUNT 命令，得到它的近似基数。
删除临时 HyperLogLog。
返回得到的近似基数。

当程序需要对多个 HyperLogLog 调用 PFCOUNT 命令，并且这个调用可能会重复执行多次时，可以考虑把这一调用替换成相应的 PFMERGE 命令调用：通过把并集的计算结果存储到指定的 HyperLogLog 中而不是每次都重新计算并集，程序可以最大程度地减少不必要的并集计算。

业务场景

HyperLogLog 的特性十分适合：计数（月度、年度统计）、去重（垃圾短信检测）等场景。

更多编程相关知识，请访问：编程入门！！

以上是Redis数据类型学习之HyperLogLog浅析的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7622

CakePHP 教程

1389

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

138

显示更多

Related knowledge

redis集群模式怎么搭建 Apr 10, 2025 pm 10:15 PM

Redis集群模式通过分片将Redis实例部署到多个服务器，提高可扩展性和可用性。搭建步骤如下：创建奇数个Redis实例，端口不同；创建3个sentinel实例，监控Redis实例并进行故障转移；配置sentinel配置文件，添加监控Redis实例信息和故障转移设置；配置Redis实例配置文件，启用集群模式并指定集群信息文件路径；创建nodes.conf文件，包含各Redis实例的信息；启动集群，执行create命令创建集群并指定副本数量；登录集群执行CLUSTER INFO命令验证集群状态；使

redis数据怎么清空 Apr 10, 2025 pm 10:06 PM

如何清空 Redis 数据：使用 FLUSHALL 命令清除所有键值。使用 FLUSHDB 命令清除当前选定数据库的键值。使用 SELECT 切换数据库，再使用 FLUSHDB 清除多个数据库。使用 DEL 命令删除特定键。使用 redis-cli 工具清空数据。

redis怎么读取队列 Apr 10, 2025 pm 10:12 PM

要从 Redis 读取队列，需要获取队列名称、使用 LPOP 命令读取元素，并处理空队列。具体步骤如下：获取队列名称：以 "queue:" 前缀命名，如 "queue:my-queue"。使用 LPOP 命令：从队列头部弹出元素并返回其值，如 LPOP queue:my-queue。处理空队列：如果队列为空，LPOP 返回 nil，可先检查队列是否存在再读取元素。

redis指令怎么用 Apr 10, 2025 pm 08:45 PM

使用 Redis 指令需要以下步骤：打开 Redis 客户端。输入指令（动词键值）。提供所需参数（因指令而异）。按 Enter 执行指令。Redis 返回响应，指示操作结果（通常为 OK 或 -ERR）。

redis怎么使用锁 Apr 10, 2025 pm 08:39 PM

使用Redis进行锁操作需要通过SETNX命令获取锁，然后使用EXPIRE命令设置过期时间。具体步骤为：(1) 使用SETNX命令尝试设置一个键值对；(2) 使用EXPIRE命令为锁设置过期时间；(3) 当不再需要锁时，使用DEL命令删除该锁。

redis怎么读源码 Apr 10, 2025 pm 08:27 PM

理解 Redis 源码的最佳方法是逐步进行：熟悉 Redis 基础知识。选择一个特定的模块或功能作为起点。从模块或功能的入口点开始，逐行查看代码。通过函数调用链查看代码。熟悉 Redis 使用的底层数据结构。识别 Redis 使用的算法。

redis怎么解决数据丢失 Apr 10, 2025 pm 08:24 PM

Redis 数据丢失的原因包括内存故障、停电、人为错误和硬件故障。解决方案为：1. 通过 RDB 或 AOF 持久化将数据存储到磁盘；2. 复制到多台服务器实现高可用性；3. 使用 Redis Sentinel 或 Redis Cluster 进行 HA；4. 创建快照以备份数据；5. 实施最佳实践，如持久化、复制、快照、监控和安全措施。

redis命令行怎么用 Apr 10, 2025 pm 10:18 PM

使用 Redis 命令行工具 (redis-cli) 可通过以下步骤管理和操作 Redis：连接到服务器，指定地址和端口。使用命令名称和参数向服务器发送命令。使用 HELP 命令查看特定命令的帮助信息。使用 QUIT 命令退出命令行工具。

See all articles

Redis数据类型学习之HyperLogLog浅析

HyperLogLog 算法

PFADD

PFCOUNT

PFMERGE

业务场景

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题