L'algorithme k-plus proche voisin est un algorithme d'apprentissage automatique basé sur des instances ou sur la mémoire pour la classification et la reconnaissance. Son principe est de classer en recherchant les données voisines les plus proches d'un point de requête donné. Étant donné que l’algorithme s’appuie fortement sur les données d’entraînement stockées, il peut être considéré comme une méthode d’apprentissage non paramétrique. L'algorithme
k du plus proche voisin convient pour traiter les problèmes de classification ou de régression. Pour les problèmes de classification, il fonctionne avec des valeurs discrètes, tandis que pour les problèmes de régression, il fonctionne avec des valeurs continues. Avant la classification, la distance doit être définie et il existe de nombreux choix pour les mesures de distance courantes.
Il s'agit d'une mesure de distance couramment utilisée et fonctionne pour des vecteurs à valeur réelle. La formule mesure la distance en ligne droite entre un point de requête et un autre point.
Formule de distance euclidienne
C'est également une mesure de distance populaire qui mesure la valeur absolue entre deux points.
Formule de distance de Manhattan
Cette mesure de distance est une forme généralisée des mesures de distance euclidienne et de Manhattan.
Minkowski Distance Formula
Cette technique est souvent utilisée avec des vecteurs booléens ou des chaînes pour identifier les points où les vecteurs ne correspondent pas. C’est pourquoi on l’appelle également mesure de chevauchement.
Formule de distance de Hamming
Afin de déterminer quels points de données sont les plus proches d'un point de requête donné, la distance entre le point de requête et les autres points de données doit être calculée. Ces mesures de distance aident à former des limites de décision qui divisent les points de requête en différentes régions.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!