데이터베이스 테이블은 종종 SHA256 해시를 이진 값으로 저장합니다. 두 해시 사이의 비트별 차이 수를 나타내는 해밍 거리는 유사성 분석에 중요한 지표입니다. 이 문서의 목적은 주어진 값과 지정된 열의 각 해시 사이의 해밍 거리를 계산하는 SQL 솔루션을 제공하는 것입니다.
이진 문자열을 더 작은 정수 덩어리로 나누는 것, 각 청크에 대한 해밍 거리를 계산한 다음 결과를 합산하는 것은 번거롭고 성능이 제한되는 방법입니다.
해시를 단일 BINARY 열 대신 여러 BIGINT 열에 저장하면 성능이 크게 향상됩니다. 성능. 이를 통해 여러 BIGINT 값 간의 해밍 거리를 효율적으로 계산할 수 있는 사용자 정의 함수를 생성할 수 있습니다.
다음 사용자 정의 함수를 생성하여 두 BIGINT 값 사이의 해밍 거리를 계산할 수 있습니다. 4개의 BIGINT:
<code class="sql">CREATE FUNCTION HAMMINGDISTANCE( A0 BIGINT, A1 BIGINT, A2 BIGINT, A3 BIGINT, B0 BIGINT, B1 BIGINT, B2 BIGINT, B3 BIGINT ) RETURNS INT DETERMINISTIC RETURN BIT_COUNT(A0 ^ B0) + BIT_COUNT(A1 ^ B1) + BIT_COUNT(A2 ^ B2) + BIT_COUNT(A3 ^ B3);</code>
이 함수를 사용하면 다음 쿼리를 사용하여 해밍 거리를 기준으로 테이블 항목을 제공된 값으로 정렬할 수 있습니다.
<code class="sql">SELECT * FROM table ORDER BY HAMMINGDISTANCE(col0, col1, col2, col3, UNHEX(<insert supplied sha256 hash here>)) ASC LIMIT 10</code>
SHA256 해시를 4개의 BIGINT 열로 분할하고 사용자 정의 함수를 사용하는 것은 SQL에서 해밍 거리를 계산하는 매우 효율적인 접근 방식입니다. 이 방법은 해시를 BINARY 값으로 저장하고 기존 정수 기반 계산을 사용하는 것보다 성능을 크게 향상시킵니다.
위 내용은 SQL에서 이진 문자열 간의 해밍 거리를 효율적으로 계산하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!