开创性CVM算法破解40多年计数难题！计算机科学家掷硬币算出「哈姆雷特」独特单词-人工智能-PHP中文网

首页

科技周边

人工智能

开创性CVM算法破解40多年计数难题！计算机科学家掷硬币算出「哈姆雷特」独特单词

王林

Jun 07, 2024 pm 03:44 PM

ai 算法数学

计数，听起来简单，却在实际执行很有难度。

想象一下，你被送到一片原始热带雨林，进行野生动物普查。每当看到一只动物，拍一张照片。

数码相机只是记录追踪动物总数，但你对独特动物的数量感兴趣，却没有统计。

那么，若想获取这一独特动物数量，最好的方法是什么？

这时，你一定会说，从现在开始计数，最后再从照片中将每一种新物种与名单进行比较。

然而，这种常见的计数方法，有时并不适用于高达数十亿条目的信息量。

来自印度统计研究所、UNL、新加坡国立大学的计算机科学家提出了一种新算法——CVM。

它可以近似计算长列表中，不同条目的的数量，而且只需要记住少量条目就可实现。

开创性CVM算法破解40多年计数难题！计算机科学家掷硬币算出「哈姆雷特」独特单词

论文地址：https://arxiv.org/pdf/2301.10191

这一算法适用于任何一次出现一个条目的清单，比如演讲中的文字、传送带上的商品，或州际公路上的汽车。

CVM算法是以三位作者首字母命名，在解决「不同元素问题」上取得的一个重大进展。

而这一问题，长期困扰计算机科学家40多年。

它要求有一种高效的方法来监控一个元素流（其总数可能超过可用内存），并估算出其中独特元素的数量。

那么，CVM算法究竟是如何解决问题的？

开创性CVM算法，秘诀在于「随机化」

假设你在听《哈姆雷特》有声读物。

这部戏剧共有30557个字，有多少是不同的？

为了找到答案，你可以边听边暂停，按字母顺序写下每个单词，然后跳过清单上已有的单词，最后，只需要数一下清单上每个单词数。

开创性CVM算法破解40多年计数难题！计算机科学家掷硬币算出「哈姆雷特」独特单词

这种方法是可行的，但太考验一个人的「记忆量」了。

研究者Vinodchandran Variyam表示，「在典型的数据流情况中，可能会有数百万个项目需要追踪。你可能不想把所有的信息都存储起来。

这就是，云服务器算法可以提供更简单方法的地方」。

诀窍，就在于「随机化」。

开创性CVM算法破解40多年计数难题！计算机科学家掷硬币算出「哈姆雷特」独特单词

Vinodchandran Variyam帮助发明了一种估算数据流中不同元素数量的CVM算法

「哈姆雷特」有多少个独特词？掷硬币大挑战

再回到《哈姆雷特》，假设你的「有效内存」只能容纳100个单词。

一旦音频开始播放，你记下听到的前100个单词，并跳过任何重复的单词。

当完成100个单词记录后，剩下的就是为每个单词掷硬币——

正面，保留单词。若为反面，将其删除。

在这一轮初选之后，你将留下大约50个不同的单词。

现在，你继续团队所说的第一轮游戏Round 1，继续阅读《哈姆雷特》，添加新单词。

如果你再次遇到一个已经在清单上的单词，再次掷硬币决定，一直到你的内存白板中，有100个单词。

然后，根据100次掷硬币的结果，再次随机删除大约一半的单词。Round 1到此结束。

接下来，进入第二轮Round 2。

和第一轮一样，我们要增加一个单词的难度——当你遇到一个重复的单词时，再次掷硬币。

条件是，如果是反面，就像之前一样删除它。但如果是正面，就再掷一次硬币。只有当第二次出现正面时，才保留这个单词。

一旦内存白板写满，结束这一轮，然后根据100次抛掷结果，再次删除大约一半的单词。

在第三轮Round 3中，你需要连续三次掷硬币正面，才能保留一个单词。

在第四轮中，连续四次正面保留一个单词，以此类推。

最终，在第k轮，你会听完整部《哈姆雷特》戏剧。

这个练习的重点是，确保每个单词都有相同的出现概率：1/2 (k) 。

假设，如果在《哈姆雷特》音频结束时，你的列表中有61个单词，用了六轮的时间完成。

你可以用61除以概率1/2 (6)来估计不同单词的数量——最终在这个游戏中的结果是3904个。

算法精度与内存量成正比

研究人员Chakraborty、Variyam和Meel从数学上证明了CVM算法的精确度与内存量的大小成比例。

而《哈姆雷特》恰好有3967个独特的单词。（通过普通的计数方法）

在使用100个单词内存的实验中，5轮实验结果的平均估计为3955个单词。

在1000个单词内存忆量下，平均提高到3964个。

Variyam表示，「如果（内存量）大到可以容纳所有单词，那么我们就可以达到100%的准确率」。

哈佛大学William Kuszmau表示，「这是一个很好的例子，说明即使是非常基础和被广泛研究过的问题，有时也可能存在简单但并不明显的解决方案仍待被发现」。

以上是开创性CVM算法破解40多年计数难题！计算机科学家掷硬币算出「哈姆雷特」独特单词的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

Java教程

1666

CakePHP 教程

1425

Laravel 教程

1327

PHP教程

1273

C# 教程

1253

显示更多

Related knowledge

C 中的chrono库如何使用？ Apr 28, 2025 pm 10:18 PM

使用C 中的chrono库可以让你更加精确地控制时间和时间间隔，让我们来探讨一下这个库的魅力所在吧。C 的chrono库是标准库的一部分，它提供了一种现代化的方式来处理时间和时间间隔。对于那些曾经饱受time.h和ctime折磨的程序员来说，chrono无疑是一个福音。它不仅提高了代码的可读性和可维护性，还提供了更高的精度和灵活性。让我们从基础开始，chrono库主要包括以下几个关键组件：std::chrono::system_clock：表示系统时钟，用于获取当前时间。std::chron

如何理解C 中的DMA操作？ Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess，直接内存访问技术，允许硬件设备直接与内存进行数据传输，不需要CPU干预。1)DMA操作高度依赖于硬件设备和驱动程序，实现方式因系统而异。2)直接访问内存可能带来安全风险，需确保代码的正确性和安全性。3)DMA可提高性能，但使用不当可能导致系统性能下降。通过实践和学习，可以掌握DMA的使用技巧，在高速数据传输和实时信号处理等场景中发挥其最大效能。

怎样在C 中处理高DPI显示？ Apr 28, 2025 pm 09:57 PM

在C 中处理高DPI显示可以通过以下步骤实现：1)理解DPI和缩放，使用操作系统API获取DPI信息并调整图形输出；2)处理跨平台兼容性，使用如SDL或Qt的跨平台图形库；3)进行性能优化，通过缓存、硬件加速和动态调整细节级别来提升性能；4)解决常见问题，如模糊文本和界面元素过小，通过正确应用DPI缩放来解决。

C 中的实时操作系统编程是什么？ Apr 28, 2025 pm 10:15 PM

C 在实时操作系统（RTOS）编程中表现出色，提供了高效的执行效率和精确的时间管理。1）C 通过直接操作硬件资源和高效的内存管理满足RTOS的需求。2）利用面向对象特性，C 可以设计灵活的任务调度系统。3）C 支持高效的中断处理，但需避免动态内存分配和异常处理以保证实时性。4）模板编程和内联函数有助于性能优化。5）实际应用中，C 可用于实现高效的日志系统。

给MySQL表添加和删除字段的操作步骤 Apr 29, 2025 pm 04:15 PM

在MySQL中，添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column，删除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段时，需指定位置以优化查询性能和数据结构；删除字段前需确认操作不可逆；使用在线DDL、备份数据、测试环境和低负载时间段修改表结构是性能优化和最佳实践。

怎样在C 中测量线程性能？ Apr 28, 2025 pm 10:21 PM

在C 中测量线程性能可以使用标准库中的计时工具、性能分析工具和自定义计时器。1.使用库测量执行时间。2.使用gprof进行性能分析，步骤包括编译时添加-pg选项、运行程序生成gmon.out文件、生成性能报告。3.使用Valgrind的Callgrind模块进行更详细的分析，步骤包括运行程序生成callgrind.out文件、使用kcachegrind查看结果。4.自定义计时器可灵活测量特定代码段的执行时间。这些方法帮助全面了解线程性能，并优化代码。

量化交易所排行榜2025 数字货币量化交易APP前十名推荐 Apr 30, 2025 pm 07:24 PM

交易所内置量化工具包括：1. Binance（币安）：提供Binance Futures量化模块，低手续费，支持AI辅助交易。2. OKX（欧易）：支持多账户管理和智能订单路由，提供机构级风控。独立量化策略平台有：3. 3Commas：拖拽式策略生成器，适用于多平台对冲套利。4. Quadency：专业级算法策略库，支持自定义风险阈值。5. Pionex：内置16 预设策略，低交易手续费。垂直领域工具包括：6. Cryptohopper：云端量化平台，支持150 技术指标。7. Bitsgap：