機械学習アプリケーションでは、類似性測定は 2 つのサンプル オブジェクトの類似性を評価するために使用される指標です。通常、距離測定を使用して表現され、効果的な距離測定により機械学習モデルのパフォーマンスを向上させることができます。
ただし、数値関係の観点から見ると、類似性の尺度と距離の尺度はまったく逆になります。
類似性の尺度は通常、数値で表され、値が大きいほど、データ サンプルが類似していることを示します。一般に、変換には 0 から 1 までの数値が使用され、0 は類似度が低い、つまりデータ オブジェクトが似ていないことを示し、1 は類似度が高い、つまりデータ オブジェクトが非常に似ていることを示します。
距離測定は、データ オブジェクトの類似性が距離値に反比例することを示します。
ユークリッド距離
つまり、ユークリッド距離ライダー メトリック、 2 点間の最小距離は、観測値の類似性を測定するためにほとんどの機械学習アルゴリズムで使用されます。
マンハッタン距離
マンハッタン距離は、すべての次元における 2 つの場所間の合計の差です。都市内を直線的に移動することはほとんど不可能であるため、建物は直線の道を遮る格子状にグループ化されています。 「マンハッタン距離」という用語は、2 つの都市ブロックの間の距離を指すのによく使用されます。
ミンコフスキー距離
は、ユークリッド距離とマンハッタン距離の一般化形式であり、観測間の 2 つの距離を定義します。
ハミング距離
ハミング距離は、同じ長さの 2 つの文字列の類似性を測定します。ハミング距離は、同じ長さの 2 つの文字列間で対応する文字が異なる点の数です。
コサイン距離 (コサイン類似度)
このインジケーターは、テキスト マイニング、自然言語処理、情報検索システムで 2 つの類似度を測定するために広く使用されています。与えられた文書の間。
チェビシェフ距離(チェビシェフ距離)
2 つの nD 観測値またはベクトル間のチェビシェフ距離は、データ サンプルの座標と等しくなります。最大絶対値は次のとおりです。変化の。 2 次元の世界では、データ ポイント間のチェビシェフ距離は、それらの 2 次元座標の差の絶対値の合計として決定できます。
マハラノビス距離
は、主にデータ ポイントと分布の間の距離を測定する多変量統計検定に使用されます。
カイ二乗距離(カイ二乗距離)
カイ二乗距離は、コンピュータ ビジョンでテクスチャ解析を実行する際によく使用されます。正規化 ヒストグラム間の類似性を「ヒストグラムマッチング」といいます。
ピアソン相関係数
ピアソン相関係数は、2 つの属性間の線形単調関係の強さを定量化し、2 つのデータ セットがオンであるかどうかを測定します。一行。
スピアマン相関係数
スピアマン相関係数は、2 つの変数の依存関係を測定するノンパラメトリック指標です。単調方程式を使用して評価します。 2 つの統計変数間の相関関係。スピアマン相関係数は仮説検定によく使用されます。
以上が類似性尺度と距離尺度の関係についての詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。