Jadual pangkalan data sering menyimpan cincang SHA256 sebagai nilai binari. Jarak Hamming, yang mewakili bilangan perbezaan bitwise antara dua cincang, adalah metrik penting untuk analisis persamaan. Artikel ini bertujuan untuk menyediakan penyelesaian SQL untuk mengira jarak Hamming antara nilai yang diberikan dan setiap cincang dalam lajur yang ditentukan.
Memecah rentetan binari kepada ketulan integer yang lebih kecil, pengiraan Jarak Hamming untuk setiap bongkah, dan kemudian menjumlahkan hasilnya ialah kaedah yang menyusahkan dan terhad prestasi.
Menyimpan cincang dalam berbilang lajur BIGINT dan bukannya satu lajur BINARI dengan ketara bertambah baik prestasi. Ini membolehkan penciptaan fungsi tersuai yang boleh mengira jarak Hamming dengan cekap antara berbilang nilai BIGINT.
Fungsi tersuai berikut boleh dibuat untuk mengira jarak Hamming antara empat BIGINTs:
<code class="sql">CREATE FUNCTION HAMMINGDISTANCE( A0 BIGINT, A1 BIGINT, A2 BIGINT, A3 BIGINT, B0 BIGINT, B1 BIGINT, B2 BIGINT, B3 BIGINT ) RETURNS INT DETERMINISTIC RETURN BIT_COUNT(A0 ^ B0) + BIT_COUNT(A1 ^ B1) + BIT_COUNT(A2 ^ B2) + BIT_COUNT(A3 ^ B3);</code>
Dengan fungsi ini, anda boleh mengisih entri jadual mengikut jarak Hamming mereka kepada nilai yang disediakan menggunakan pertanyaan berikut:
<code class="sql">SELECT * FROM table ORDER BY HAMMINGDISTANCE(col0, col1, col2, col3, UNHEX(<insert supplied sha256 hash here>)) ASC LIMIT 10</code>
Memisahkan cincang SHA256 kepada empat lajur BIGINT dan menggunakan fungsi tersuai ialah pendekatan yang sangat cekap untuk mengira jarak Hamming dalam SQL. Kaedah ini meningkatkan prestasi dengan ketara berbanding menyimpan cincang sebagai nilai BINARI dan menggunakan pengiraan berasaskan integer konvensional.
Atas ialah kandungan terperinci Bagaimanakah saya boleh mengira jarak Hamming dengan cekap antara rentetan binari dalam SQL?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!