Redis怎么使用HyperLogLog实现-Redis-PHP中文网

1. 概述

2. 什么是基数?

3. 命令

3.1 PFADD

3.2 PFCOUNT

3.3 PFMERGE

首页

数据库

Redis

Redis怎么使用HyperLogLog实现

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 26, 2023 pm 05:41 PM

redis hyperloglog

1. 概述

Redis 在 2.8.9 版本添加了 HyperLogLog 数据结构，用来做基数统计，其优点是在输入元素的数量非常大时，计算基数所需的空间比较小并且一般比较恒定。

在 Redis 里面，每个 HyperLogLog 键只需要花费 12 KB 内存就可以计算接近 2^64 个不同元素的基数。这和计算基数时，元素越多耗费内存越多的集合形成鲜明对比。但是，因为 HyperLogLog 只会根据输入元素来计算基数，并不会储存输入元素本身，所以 HyperLogLog 不能像集合那样能返回输入的各个元素。

2. 什么是基数?

比如数据集 {1, 3, 5, 7, 5, 7, 8}，那么这个数据集的基数集为 {1, 3, 5 ,7, 8}, 基数(不重复元素)为5。基数估计就是在误差可接受的范围内，快速计算基数。

3. 命令

目前只有 PFADD、PFCOUNT 和 PFMERGE 三个命令被 HyperLogLog 支持。我们先来逐一介绍一下。

3.1 PFADD

最早可用版本：2.8.9。时间复杂度：O(1)。

PFADD 命令可以将元素(可以指定多个元素)添加到 HyperLogLog 数据结构中，存储到第一个参数 key 指定的键中。如果基数估计（评估的元素个数）发生变化，返回1，否则返回0，即在执行命令后确认基数估计是否已变化。如果指定的 key 不存在，那么就创建一个空的 HyperLogLog 数据结构(即，指定字符串长度以及编码的 Redis String)。也可以调用不指定元素参数而只指定键的命令。如果键存在，不执行任何操作并返回 0；如果键不存在，则会创建一个新的 HyperLogLog 数据结并且返回 1。实质上仅仅是生成一个新的 HyperLogLog 数据结构，而不储存任何元素。

(1) 语法格式:

PFADD key element [element ...]

登录后复制

(2) 返回值:

整型，如果至少有个元素被添加返回 1，否则返回 0。

(3) Example:

127.0.0.1:6379> PFADD hll a b c d e f g
(integer) 1
127.0.0.1:6379> pfcount hll
(integer) 7

登录后复制

3.2 PFCOUNT

最早可用版本：2.8.9。时间复杂度：O(1)，对于多个比较大的key的时间复杂度是O(N)。

使用PFCOUNT命令可以得到一个HyperLogLog估算基数的值（也就是元素的数量）。如果键不存在，该命令返回 0，否则返回该键的基数估算值。对于多个键，返回的是多个 HyperLogLog 并集的基数估算值，通过将多个 HyperLogLog 合并为一个临时的 HyperLogLog 计算基数估算值。使用极少且一贯的内存量，HyperLogLog 可以计算集合的唯一元素数量。每个 HyperLogLog 只用 12K 加上键本身的几个字节。

(1) 语法格式:

PFCOUNT key [key ...]

登录后复制

(2) 返回值:

整数，返回指定 HyperLogLog 的基数估算值，如果多个 HyperLogLog 则返回并集的基数估算值。

(3) Example:

127.0.0.1:6379> PFADD hll foo bar zap
(integer) 1
127.0.0.1:6379> PFADD hll zap zap zap
(integer) 0
127.0.0.1:6379> PFADD hll foo bar
(integer) 0
127.0.0.1:6379> PFCOUNT hll
(integer) 3
127.0.0.1:6379> PFADD some-other-hll 1 2 3
(integer) 1
127.0.0.1:6379> PFCOUNT some-other-hll
(integer) 3
127.0.0.1:6379> PFCOUNT hll some-other-hll
(integer) 6

登录后复制

(4) 限制:

HyperLogLog 返回的结果并不精确，错误率大概在 0.81% 左右。

使用这个命令将会改变 HyperLogLog，并且使用 8 个字节来存储上一次计算的基数。所以，从技术角度来讲，PFCOUNT 是一个写命令。

(5) 性能问题

即使理论上处理一个密集型 HyperLogLog 需要花费较长时间，但是当只指定一个键时，PFCOUNT 命令仍然具有很高的性能。这是因为 PFCOUNT 会缓存上一次计算的基数，并且这个基数并不会一直变动，因为 PFADD 命令大多数情况下不会更新寄存器。所以才可以达到每秒上百次请求的效果。

当使用 PFCOUNT 命令处理多个键时，会对 HyperLogLog 进行合并操作，这一步非常耗时，更重要的是通过计算出来的并集的基数是不能缓存的。使用多个键时，PFCOUNT 的执行可能需要花费一些时间（通常为毫秒级），因此建议不要过度使用。

需要注意的是，该命令的单键和多键执行语义是不同的并且具有不同的性能。不建议过多使用多键执行语义。

3.3 PFMERGE

最早可用版本：2.8.9。时间复杂度：O(N)，N是要合并的HyperLogLog的数量。

多个 HyperLogLog 可以通过 PFMERGE 命令合并成一个 HyperLogLog。合并后的 HyperLogLog 的基数估算值是通过对所有给定 HyperLogLog 进行并集计算得出的。计算完的结果保存到指定的键中。

语法格式:

PFMERGE destkey sourcekey [sourcekey ...]

登录后复制

返回值:

返回 OK。

Example:

127.0.0.1:6379> PFADD hll1 foo bar zap a
(integer) 1
127.0.0.1:6379> PFADD hll2 a b c foo
(integer) 1
127.0.0.1:6379> PFMERGE hll3 hll1 hll2
OK
127.0.0.1:6379> PFCOUNT hll3
(integer) 6

登录后复制

以上是Redis怎么使用HyperLogLog实现的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7476

CakePHP 教程

1377

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

redis集群模式怎么搭建 Apr 10, 2025 pm 10:15 PM

Redis集群模式通过分片将Redis实例部署到多个服务器，提高可扩展性和可用性。搭建步骤如下：创建奇数个Redis实例，端口不同；创建3个sentinel实例，监控Redis实例并进行故障转移；配置sentinel配置文件，添加监控Redis实例信息和故障转移设置；配置Redis实例配置文件，启用集群模式并指定集群信息文件路径；创建nodes.conf文件，包含各Redis实例的信息；启动集群，执行create命令创建集群并指定副本数量；登录集群执行CLUSTER INFO命令验证集群状态；使

redis底层怎么实现 Apr 10, 2025 pm 07:21 PM

Redis 使用哈希表存储数据，支持字符串、列表、哈希表、集合和有序集合等数据结构。Redis 通过快照 (RDB) 和追加只写 (AOF) 机制持久化数据。Redis 使用主从复制来提高数据可用性。Redis 使用单线程事件循环处理连接和命令，保证数据原子性和一致性。Redis 为键设置过期时间，并使用 lazy 删除机制删除过期键。