Dans les applications d'apprentissage automatique, la mesure de similarité est un indicateur utilisé pour évaluer la similarité de deux exemples d'objets. Généralement représentées à l’aide de mesures de distance, les mesures de distance efficaces peuvent améliorer les performances des modèles d’apprentissage automatique.
Cependant, en termes de relation numérique, la mesure de similarité et la mesure de distance sont exactement le contraire.
La mesure de similarité est généralement exprimée sous forme de valeur numérique. Plus la valeur est élevée, plus les échantillons de données sont similaires. Généralement, un nombre compris entre 0 et 1 est utilisé pour la conversion, où 0 indique une faible similarité, c'est-à-dire que les objets de données ne sont pas similaires et 1 indique une similarité élevée, indiquant que les objets de données sont très similaires ;
La métrique de distance indique que la similarité des objets de données est inversement proportionnelle à la valeur de la distance.
La distance euclidienne
est la métrique euclidienne, qui est la distance minimale entre deux points. La plupart des algorithmes d'apprentissage automatique utilisent cette métrique de distance pour mesurer la similarité des observations.
Distance de Manhattan
La distance de Manhattan est la différence totale entre deux lieux dans toutes les dimensions. Parce qu’il est presque impossible de se déplacer en ligne droite dans la ville, les bâtiments sont regroupés dans une grille qui bloque les chemins droits. Le terme « distance de Manhattan » est souvent utilisé pour désigner la distance entre deux pâtés de maisons.
Minkowski Distance
est une forme généralisée de distance euclidienne et de distance de Manhattan, définissant la distance entre deux observations dans l'espace nD.
Hamming Distance
La distance de Hamming mesure la similitude de deux cordes de même longueur. La distance de Hamming est le nombre de points par lesquels les caractères correspondants diffèrent entre deux chaînes de même longueur.
Distance cosinus (similarité cosinus)
Cette métrique est largement utilisée dans l'exploration de texte, le traitement du langage naturel et les systèmes de recherche d'informations pour mesurer la similarité entre deux documents donnés.
Distance de Chebyshev
La distance de Chebyshev entre deux observations ou vecteurs nD est égale à la valeur absolue maximale du changement entre les coordonnées de l'échantillon de données. Dans le monde bidimensionnel, la distance de Chebyshev entre les points de données peut être déterminée comme la somme des différences absolues de leurs coordonnées bidimensionnelles.
Mahalanobis Distance
est principalement utilisé pour les tests statistiques multivariés afin de mesurer la distance entre les points de données et la distribution.
Distance du chi carré
La distance du chi carré est souvent utilisée en vision par ordinateur, avec l'analyse de texture pour trouver des similitudes entre des histogrammes normalisés, appelées « correspondance d'histogrammes ».
Corrélation de Pearson
Le coefficient de corrélation de Pearson quantifie la force de la relation linéaire monotone entre deux attributs et mesure si les deux ensembles de données sont sur une ligne.
Corrélation de Spearman
Le coefficient de corrélation de Spearman est un indicateur non paramétrique qui mesure la dépendance de deux variables. Il utilise une équation monotone pour évaluer la corrélation de deux variables statistiques. Le coefficient de corrélation de Spearman est souvent utilisé pour tester des hypothèses.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!