Fuzzy Company Name Matching in MySQL mit PHP zur automatischen Vervollständigung
Einführung
Ergebnis Fuzzy-Matches für Firmennamen sind eine häufige Aufgabe in Autovervollständigungssystemen. Diese Aufgabe kann aufgrund der großen Anzahl potenziell passender Unternehmen und der Notwendigkeit effizienter Suchalgorithmen eine Herausforderung sein.
Soundex-Indexierung
Ein Ansatz für Fuzzy-Matching ist die Verwendung von Soundex Indizierung. Soundex ist ein phonetischer Algorithmus, der Wörter basierend auf ihrer Aussprache kodiert. Dies ermöglicht eine ungefähre Übereinstimmung von Wörtern, auch wenn sie unterschiedliche Schreibweisen haben. Die Soundex-Indizierung weist jedoch Einschränkungen auf, z. B. kann sie nicht zwischen längeren Zeichenfolgen unterscheiden und der erste Buchstabe muss gleich sein.
Levenshtein-Distanz
Ein fortgeschrittenerer Ansatz Beim Fuzzy-Matching wird die Levenshtein-Distanz verwendet. Der Levenshtein-Abstand misst die Anzahl der Einfügungen, Löschungen oder Ersetzungen, die erforderlich sind, um eine Zeichenfolge in eine andere umzuwandeln. Im Gegensatz zu Soundex weist diese Methode nicht die zuvor genannten Nachteile auf.
Verwendung der Levenshtein-Distanz in PHP
Die Website codejanitor.com bietet ein Beispiel für eine in MySQL gespeicherte Funktion, die berechnet die Levenshtein-Distanz. Mit dieser Funktion können Sie wie folgt einen Fuzzy-Abgleich für Firmennamen durchführen:
// Load MySQL stored function (if not already loaded) if (!function_exists('Levenshtein')) { $sql = "CREATE FUNCTION Levenshtein(s1 VARCHAR(255), s2 VARCHAR(255)) RETURNS INT BEGIN DECLARE lv_s1, lv_s2 VARCHAR(255); DECLARE lv_len1, lv_len2, lv_i, lv_j, lv_c, lv_cost INT; DECLARE lv_arr1[255] INT; SET lv_s1 = LOWER(s1); SET lv_s2 = LOWER(s2); SET lv_len1 = LENGTH(lv_s1); SET lv_len2 = LENGTH(lv_s2); -- Initialize the array SET lv_arr1[1] = 0; FOR lv_i = 1 TO lv_len1 DO SET lv_arr1[lv_i + 1] = lv_i; END FOR; -- Step 2 FOR lv_j = 1 TO lv_len2 DO SET lv_c = lv_j; FOR lv_i = 1 TO lv_len1 DO IF SUBSTRING(lv_s1, lv_i, 1) = SUBSTRING(lv_s2, lv_j, 1) THEN SET lv_cost = 0; ELSE SET lv_cost = 1; END IF; SET lv_c = LEAST(lv_c + 1, lv_arr1[lv_i] + lv_cost, lv_arr1[lv_i - 1] + 1); SET lv_arr1[lv_i] = lv_c; END FOR; END FOR; RETURN lv_c; END;"; $result = $mysqli->query($sql); } // Execute fuzzy matching query $numWords = 0; $userInput = "Microsift"; $query = "SELECT company_name, Levenshtein('$userInput', company_name) AS distance FROM companies ORDER BY distance ASC"; $result = $mysqli->query($query); // Display results while ($row = $result->fetch_assoc()) { $numWords++; echo $row['company_name'] . " (" . $row['distance'] . ")\n"; } if ($numWords == 0) { echo "No matches found.\n"; }
Das obige ist der detaillierte Inhalt vonWie kann ich den Fuzzy-Firmennamenabgleich in MySQL mit PHP zur automatischen Vervollständigung implementieren?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!