機械学習で一般的に使用される 10 の距離測定方法-AI-php.cn

距離メトリックの選択は機械学習の結果に影響するため、どのメトリックが問題に最適であるかを検討することが重要です。したがって、どの測定方法を使用するかを決定する際には注意が必要です。しかし、決定を下す前に、距離測定がどのように機能するのか、またどのような測定値を選択できるのかを理解する必要があります。

この記事では、一般的に使用される距離測定方法、その仕組み、Python での計算方法、およびそれらを使用する場合について簡単に紹介します。これにより、知識と理解が深まり、機械学習のアルゴリズムと結果が向上します。

機械学習で一般的に使用される 10 の距離測定方法

さまざまな距離測定について詳しく説明する前に、まず距離測定がどのように機能するか、および適切な測定を選択する方法についての一般的な概念を理解する必要があります。

距離メトリックは、特定の問題空間内の 2 つのオブジェクト (つまり、データセット内のフィーチャ) 間の差を計算するために使用されます。この距離は、特徴間の類似性を判断するために使用できます。距離が小さいほど、特徴は類似しています。

距離測定には、幾何学的距離測定と統計的距離測定があり、データの種類に応じてどちらの距離測定を選択するかが異なります。特徴はさまざまなデータ型 (実数値、ブール値、カテゴリ値など) である場合があり、データは多次元である場合や地理空間データで構成されている場合があります。

幾何距離測定

1. ユークリッド距離ユークリッド距離

ユークリッド距離は、2 つの実数値ベクトル間の最短距離を測定します。直感的で使いやすく、多くのユースケースで良好な結果が得られるため、最も一般的に使用される距離メトリックであり、多くのアプリケーションのデフォルトの距離メトリックです。

機械学習で一般的に使用される 10 の距離測定方法

ユークリッド距離は l2 ノルムとも呼ばれ、その計算方法は次のとおりです。

機械学習で一般的に使用される 10 の距離測定方法

Python コードは次のとおりです。続く

from scipy.spatial import distance
 distance.euclidean(vector_1, vector_2)

ログイン後にコピー

ユークリッド距離には 2 つの主な欠点があります。まず、距離測定は 2D または 3D 空間よりも高次元のデータでは機能しません。第 2 に、特徴を正規化および/または正規化しないと、距離が単位によって歪む可能性があります。

2. マンハッタン距離

マンハッタン距離は、2 つの実数値ベクトル間の距離が計算上、人間は直角にしか移動できないという事実に基づいているため、タクシー距離または市街地区距離とも呼ばれます。。この距離測定は、真のパスを取得できるように、離散属性とバイナリ属性によく使用されます。

機械学習で一般的に使用される 10 の距離測定方法

マンハッタン距離は l1 ノルムに基づいており、計算式は次のとおりです。

機械学習で一般的に使用される 10 の距離測定方法

Python コードは次のとおりです。以下のように

from scipy.spatial import distance
 distance.cityblock(vector_1, vector_2)

ログイン後にコピー

マンハッタンからの距離には、2 つの大きな欠点があります。これは、高次元空間におけるユークリッド距離ほど直感的ではなく、可能な最短経路を示すものでもありません。これは問題ではないかもしれませんが、これが最短距離ではないことに注意する必要があります。

3. チェビシェフ距離チェビシェフ距離

チェビシェフ距離は、2 つの実数値ベクトル間の任意の次元における最大距離であるため、チェッカーボード距離とも呼ばれます。これは倉庫物流でよく使用され、最長の経路によってある地点から別の地点に移動するのに必要な時間が決まります。

機械学習で一般的に使用される 10 の距離測定方法

チェビシェフ距離は l-無限ノルムによって計算されます:

機械学習で一般的に使用される 10 の距離測定方法

Python コードは次のとおりです

from scipy.spatial import distance
 distance.chebyshev(vector_1, vector_2)

ログイン後にコピー

チェビシェフ距離は非常に特殊な使用例しかないため、めったに使用されません。

4. ミンコフスキー距離ミンコフスキー距離

ミンコフスキー距離は、上記の距離測定の一般化された形式です。高い柔軟性を提供しながら、同じユースケースに使用できます。 p 値を選択して、最も適切な距離の尺度を見つけることができます。

機械学習で一般的に使用される 10 の距離測定方法

#ミンコフスキー距離の計算方法は次のとおりです。

機械学習で一般的に使用される 10 の距離測定方法

Python コードは次のとおりです。

from scipy.spatial import distance
 distance.minkowski(vector_1, vector_2, p)

ログイン後にコピー

##なぜなら、ミンコフスキー距離は異なる距離計量を表し、高次元空間の問題や特徴単位への依存など、それらと同じ主な欠点があるからです。さらに、p 値の柔軟性も欠点となる可能性があります。正しい p 値を見つけるには複数の計算が必要となるため、計算効率が低下する可能性があります。

5. コサイン類似度と距離コサイン類似度

コサイン類似度は方向の尺度であり、そのサイズは 2 つのベクトル間のコサインによって決定され、ベクトルのサイズは無視されます。コサイン類似度は、レコメンダーシステムやテキスト分析など、データのサイズが重要ではない高次元でよく使用されます。

機械学習で一般的に使用される 10 の距離測定方法

余弦相似度可以介于-1(相反方向)和1(相同方向)之间，计算方法为:

機械学習で一般的に使用される 10 の距離測定方法

余弦相似度常用于范围在0到1之间的正空间中。余弦距离就是用1减去余弦相似度，位于0(相似值)和1(不同值)之间。

Python代码如下

from scipy.spatial import distance
 distance.cosine(vector_1, vector_2)

ログイン後にコピー

余弦距离的主要缺点是它不考虑大小而只考虑向量的方向。因此，没有充分考虑到值的差异。

6、半正矢距离 Haversine distance

半正矢距离测量的是球面上两点之间的最短距离。因此常用于导航，其中经度和纬度和曲率对计算都有影响。

機械学習で一般的に使用される 10 の距離測定方法

半正矢距离的公式如下：

機械学習で一般的に使用される 10 の距離測定方法

其中r为球面半径，φ和λ为经度和纬度。

Python代码如下

from sklearn.metrics.pairwise import haversine_distances
 haversine_distances([vector_1, vector_2])

ログイン後にコピー

半正矢距离的主要缺点是假设是一个球体，而这种情况很少出现。

7、汉明距离

汉明距离衡量两个二进制向量或字符串之间的差异。

機械学習で一般的に使用される 10 の距離測定方法

对向量按元素进行比较，并对差异的数量进行平均。如果两个向量相同，得到的距离是0之间，如果两个向量完全不同，得到的距离是1。

Python代码如下

from scipy.spatial import distance
 distance.hamming(vector_1, vector_2)

ログイン後にコピー

汉明距离有两个主要缺点。距离测量只能比较相同长度的向量，它不能给出差异的大小。所以当差异的大小很重要时，不建议使用汉明距离。

统计距离测量

统计距离测量可用于假设检验、拟合优度检验、分类任务或异常值检测。

8、杰卡德指数和距离 Jaccard Index

Jaccard指数用于确定两个样本集之间的相似性。它反映了与整个数据集相比存在多少一对一匹配。Jaccard指数通常用于二进制数据比如图像识别的深度学习模型的预测与标记数据进行比较，或者根据单词的重叠来比较文档中的文本模式。

機械学習で一般的に使用される 10 の距離測定方法

Jaccard距离的计算方法为:

機械学習で一般的に使用される 10 の距離測定方法

Python代码如下

from scipy.spatial import distance
 distance.jaccard(vector_1, vector_2)

ログイン後にコピー

Jaccard指数和距离的主要缺点是，它受到数据规模的强烈影响，即每个项目的权重与数据集的规模成反比。

9、Sorensen-Dice指数

Sörensen-Dice指数类似于Jaccard指数，它可以衡量的是样本集的相似性和多样性。该指数更直观，因为它计算重叠的百分比。Sörensen-Dice索引常用于图像分割和文本相似度分析。

機械学習で一般的に使用される 10 の距離測定方法

计算公式如下：

機械学習で一般的に使用される 10 の距離測定方法

Python代码如下

from scipy.spatial import distance
 distance.dice(vector_1, vector_2)

ログイン後にコピー

它的主要缺点也是受数据集大小的影响很大。

10、动态时间规整 Dynamic Time Warping

动态时间规整是测量两个不同长度时间序列之间距离的一种重要方法。可以用于所有时间序列数据的用例，如语音识别或异常检测。

機械学習で一般的に使用される 10 の距離測定方法

为什么我们需要一个为时间序列进行距离测量的度量呢？如果时间序列长度不同或失真，则上述面说到的其他距离测量无法确定良好的相似性。比如欧几里得距离计算每个时间步长的两个时间序列之间的距离。但是如果两个时间序列的形状相同但在时间上发生了偏移，那么尽管时间序列非常相似，但欧几里得距离会表现出很大的差异。

动态时间规整通过使用多对一或一对多映射来最小化两个时间序列之间的总距离来避免这个问题。当搜索最佳对齐时，这会产生更直观的相似性度量。通过动态规划找到一条弯曲的路径最小化距离，该路径必须满足以下条件：

边界条件:弯曲路径在两个时间序列的起始点和结束点开始和结束
单调性条件:保持点的时间顺序，避免时间倒流
连续条件:路径转换限制在相邻的时间点上，避免时间跳跃
整经窗口条件(可选):允许的点落入给定宽度的整经窗口
坡度条件(可选):限制弯曲路径坡度，避免极端运动

我们可以使用 Python 中的 fastdtw 包：

from scipy.spatial.distance import euclidean
 from fastdtw import fastdtw
 
 distance, path = fastdtw(timeseries_1, timeseries_2, dist=euclidean)

ログイン後にコピー

动态时间规整的一个主要缺点是与其他距离测量方法相比，它的计算工作量相对较高。

总结

在这篇文章中，简要介绍了十种常用的距离测量方法。本文中已经展示了它们是如何工作的，如何在Python中实现它们，以及经常使用它们解决什么问题。如果你认为我错过了一个重要的距离测量，请留言告诉我。

以上が機械学習で一般的に使用される 10 の距離測定方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7873

Java チュートリアル

1649

CakePHP チュートリアル

1408

Laravel チュートリアル

1301

PHP チュートリアル

1245

Related knowledge

この記事では、SHAP: 機械学習のモデルの説明について説明します。 Jun 01, 2024 am 10:58 AM

機械学習とデータサイエンスの分野では、モデルの解釈可能性が常に研究者や実務家に焦点を当ててきました。深層学習やアンサンブル手法などの複雑なモデルが広く適用されるようになったことで、モデルの意思決定プロセスを理解することが特に重要になってきました。 Explainable AI|XAI は、モデルの透明性を高めることで、機械学習モデルに対する信頼と自信を構築するのに役立ちます。モデルの透明性の向上は、複数の複雑なモデルの普及や、モデルを説明するための意思決定プロセスなどの方法によって実現できます。これらの方法には、特徴重要度分析、モデル予測間隔推定、ローカル解釈可能性アルゴリズムなどが含まれます。特徴重要度分析では、入力特徴に対するモデルの影響度を評価することで、モデルの意思決定プロセスを説明できます。モデルの予測間隔の推定

学習曲線を通じて過学習と過小学習を特定する Apr 29, 2024 pm 06:50 PM

この記事では、学習曲線を通じて機械学習モデルの過学習と過小学習を効果的に特定する方法を紹介します。過小適合と過適合 1. 過適合モデルがデータからノイズを学習するためにデータ上で過学習されている場合、そのモデルは過適合していると言われます。過学習モデルはすべての例を完璧に学習するため、未確認の新しい例を誤って分類してしまいます。過適合モデルの場合、完璧/ほぼ完璧なトレーニングセットスコアとひどい検証セット/テストスコアが得られます。若干修正: 「過学習の原因: 複雑なモデルを使用して単純な問題を解決し、データからノイズを抽出します。トレーニングセットとしての小さなデータセットはすべてのデータを正しく表現できない可能性があるため、2. 過学習の Heru。」

宇宙探査と人類居住工学における人工知能の進化 Apr 29, 2024 pm 03:25 PM

1950 年代に人工知能 (AI) が誕生しました。そのとき、研究者たちは、機械が思考などの人間と同じようなタスクを実行できることを発見しました。その後、1960 年代に米国国防総省は人工知能に資金を提供し、さらなる開発のために研究所を設立しました。研究者たちは、宇宙探査や極限環境での生存など、多くの分野で人工知能の応用を見出しています。宇宙探査は、地球を超えた宇宙全体を対象とする宇宙の研究です。宇宙は地球とは条件が異なるため、極限環境に分類されます。宇宙で生き残るためには、多くの要素を考慮し、予防策を講じる必要があります。科学者や研究者は、宇宙を探索し、あらゆるものの現状を理解することが、宇宙の仕組みを理解し、潜在的な環境危機に備えるのに役立つと信じています。

透明！主要な機械学習モデルの原理を徹底的に分析！ Apr 12, 2024 pm 05:55 PM

平たく言えば、機械学習モデルは、入力データを予測された出力にマッピングする数学関数です。より具体的には、機械学習モデルは、予測出力と真のラベルの間の誤差を最小限に抑えるために、トレーニングデータから学習することによってモデルパラメーターを調整する数学関数です。機械学習には、ロジスティック回帰モデル、デシジョンツリーモデル、サポートベクターマシンモデルなど、多くのモデルがあります。各モデルには、適用可能なデータタイプと問題タイプがあります。同時に、異なるモデル間には多くの共通点があったり、モデル進化の隠れた道が存在したりすることがあります。コネクショニストのパーセプトロンを例にとると、パーセプトロンの隠れ層の数を増やすことで、それをディープニューラルネットワークに変換できます。パーセプトロンにカーネル関数を追加すると、SVM に変換できます。これです

C++ での機械学習アルゴリズムの実装: 一般的な課題と解決策 Jun 03, 2024 pm 01:25 PM

C++ の機械学習アルゴリズムが直面する一般的な課題には、メモリ管理、マルチスレッド、パフォーマンスの最適化、保守性などがあります。解決策には、スマートポインター、最新のスレッドライブラリ、SIMD 命令、サードパーティライブラリの使用、コーディングスタイルガイドラインの遵守、自動化ツールの使用が含まれます。実践的な事例では、Eigen ライブラリを使用して線形回帰アルゴリズムを実装し、メモリを効果的に管理し、高性能の行列演算を使用する方法を示します。

あなたが知らない機械学習の 5 つの流派 Jun 05, 2024 pm 08:51 PM

機械学習は人工知能の重要な分野であり、明示的にプログラムしなくてもコンピューターにデータから学習して能力を向上させる機能を提供します。機械学習は、画像認識や自然言語処理から、レコメンデーションシステムや不正行為検出に至るまで、さまざまな分野で幅広く応用されており、私たちの生活様式を変えつつあります。機械学習の分野にはさまざまな手法や理論があり、その中で最も影響力のある 5 つの手法は「機械学習の 5 つの流派」と呼ばれています。 5 つの主要な学派は、象徴学派、コネクショニスト学派、進化学派、ベイジアン学派、およびアナロジー学派です。 1. 象徴主義は、象徴主義とも呼ばれ、論理的推論と知識の表現のためのシンボルの使用を強調します。この学派は、学習は既存の既存の要素を介した逆演繹のプロセスであると信じています。

フラッシュアテンションは安定していますか?メタとハーバードは、モデルの重みの偏差が桁違いに変動していることを発見しました May 30, 2024 pm 01:24 PM

MetaFAIR はハーバード大学と協力して、大規模な機械学習の実行時に生成されるデータの偏りを最適化するための新しい研究フレームワークを提供しました。大規模な言語モデルのトレーニングには数か月かかることが多く、数百、さらには数千の GPU を使用することが知られています。 LLaMA270B モデルを例にとると、そのトレーニングには合計 1,720,320 GPU 時間が必要です。大規模なモデルのトレーニングには、これらのワークロードの規模と複雑さにより、特有のシステム上の課題が生じます。最近、多くの機関が、SOTA 生成 AI モデルをトレーニングする際のトレーニングプロセスの不安定性を報告しています。これらは通常、損失スパイクの形で現れます。たとえば、Google の PaLM モデルでは、トレーニングプロセス中に最大 20 回の損失スパイクが発生しました。数値的なバイアスがこのトレーニングの不正確さの根本原因です。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データセットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データセットがありますが、これらのデータセットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

See all articles

機械学習で一般的に使用される 10 の距離測定方法

幾何距離測定

1. ユークリッド距離ユークリッド距離

2. マンハッタン距離

3. チェビシェフ距離チェビシェフ距離

4. ミンコフスキー距離ミンコフスキー距離

6、半正矢距离 Haversine distance

7、汉明距离

统计距离测量

8、杰卡德指数和距离 Jaccard Index

9、Sorensen-Dice指数

10、动态时间规整 Dynamic Time Warping

总结

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

機械学習で一般的に使用される 10 の距離測定方法

幾何距離測定

1. ユークリッド距離ユークリッド距離

2. マンハッタン距離

3. チェビシェフ距離 チェビシェフ距離

4. ミンコフスキー距離 ミンコフスキー距離

6、半正矢距离 Haversine distance

7、汉明距离

统计距离测量

8、杰卡德指数和距离 Jaccard Index

9、Sorensen-Dice指数

10、动态时间规整 Dynamic Time Warping

总结

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

3. チェビシェフ距離チェビシェフ距離

4. ミンコフスキー距離ミンコフスキー距離