汉明距离是计算机科学中的一个基本概念,用于衡量之间的差异通过计算不同位的数量来计算两个二进制字符串。在 SQL 中,出于各种目的需要计算汉明距离,例如查找相似或最近的邻居数据点。
开发人员在尝试计算汉明距离时遇到障碍表的二进制列中的条目和提供的值之间。问题在于 SQL 基于整数的运算符和函数的固有限制,它们与二进制字符串不兼容。
1.子串和整数运算方法
开发者考虑手动将二进制字符串分解为子串,将每个子串转换为整数,并按子串计算汉明距离。然而,这种方法复杂、低效、不优雅。
2.在多个 BIGINT 列中存储哈希
后续研究表明,将哈希存储在四个 BIGINT 列(每个列代表一个 8 字节子串)中可以显着加速汉明距离计算。开发人员创建了一个结合每个子字符串的汉明距离的自定义函数。
<code class="sql">CREATE FUNCTION HAMMINGDISTANCE( A0 BIGINT, A1 BIGINT, A2 BIGINT, A3 BIGINT, B0 BIGINT, B1 BIGINT, B2 BIGINT, B3 BIGINT ) RETURNS INT DETERMINISTIC RETURN BIT_COUNT(A0 ^ B0) + BIT_COUNT(A1 ^ B1) + BIT_COUNT(A2 ^ B2) + BIT_COUNT(A3 ^ B3);</code>
与基于二进制列的方法相比,该方法在测试中的性能提高了 100 倍以上
在另一种方法中,开发人员将二进制子字符串转换为十六进制值,进一步将它们转换为十进制,然后使用按位异或和计算汉明距离BIT_COUNT。然而,这种方法涉及多个转换步骤,使其效率低于基于 BIGINT 列的方法。
多个 BIGINT 列的定制和使用提供了快速高效的解决方案在 SQL 中计算二进制字符串的汉明距离。在处理性能至关重要的大型数据集时,这种方法特别有利。
以上是如何在 SQL 中高效计算二进制字符串的汉明距离?的详细内容。更多信息请关注PHP中文网其他相关文章!