Java で文字列の類似性をどのように測定しますか?-＆＃＆チュートリアル-php.cn

Java で文字列の類似性をどのように測定しますか?

DDD

リリース： 2024-11-17 18:04:02

オリジナル

214 人が閲覧しました

How do you measure string similarity in Java?

Java での文字列の類似性の比較

はじめに

文字列の類似性比較は、自然言語処理とデータにおける一般的なタスクです。分析。 Java では、2 つの文字列間の類似性を判断するためにいくつかの方法を使用できます。

類似性の計算

次の式は、2 つの文字列間の類似性を計算するために一般的に使用されます。 0%から100%の範囲。大きい文字列を小さい文字列に変換するために必要な変更の割合を測定します。

similarity = (longerLength - editDistance) / longerLength * 100

ログイン後にコピー

レーベンシュタイン距離

類似性の重要な要素である編集距離計算では、ある文字列を別の文字列に変換するために必要な挿入、削除、または置換の最小数を測定します。編集距離を計算するための一般的なアルゴリズムの 1 つは、レーベンシュタイン距離です。

実装例

次に、レーベンシュタイン距離を使用して 2 つの文字列間の類似性を計算する例を示します。

public static double similarity(String s1, String s2) {
    int longerLength = Math.max(s1.length(), s2.length());
    int editDistance = editDistance(s1, s2);
    return (longerLength - editDistance) / (double) longerLength;
}

private static int editDistance(String s1, String s2) {
    // ... implementation
}

ログイン後にコピー

その他の方法

レーベンシュタイン距離に加えて、文字列の類似性を計算するための代替方法には次のものがあります。