Maison > Périphériques technologiques > IA > le corps du texte

Différentes méthodes de liaison utilisées dans le clustering hiérarchique

WBOY
Libérer: 2024-01-22 15:42:16
avant
629 Les gens l'ont consulté

Différentes méthodes de liaison utilisées dans le clustering hiérarchique

Le clustering hiérarchique est une technique d'apprentissage non supervisé qui regroupe des observations similaires en fonction de mesures de distance ou de similarité. La méthode de liaison détermine la manière dont les distances entre les clusters sont calculées.

Cet article présentera les méthodes de lien utilisées dans le clustering hiérarchique, y compris la méthode du lien unique, du lien complet, du lien moyen et de la somme des carrés de déviation.

Le lien simple est également appelé lien voisin le plus proche, qui définit la distance entre deux clusters comme la distance la plus courte entre deux points quelconques des deux clusters. En d’autres termes, la distance entre deux clusters est déterminée par la distance entre leurs points les plus proches. Cependant, cette approche aboutit souvent à de longues chaînes de clusters et est très sensible aux valeurs aberrantes et au bruit dans les données.

La liaison Ccomplete, également connue sous le nom de lien du voisin le plus éloigné, utilise la distance la plus longue entre deux points quelconques dans deux clusters pour déterminer la distance entre deux clusters. Cela signifie que la distance entre deux clusters est définie par la distance entre leurs points les plus éloignés. Les méthodes de liaison complète ont tendance à produire des clusters sphériques compacts qui sont moins sensibles aux valeurs aberrantes et au bruit dans les données.

La méthode de liaison moyenne calcule la distance entre deux clusters comme la distance moyenne entre toutes les paires de points dans les deux clusters. Cette approche tend à produire des morphologies de clusters intermédiaires entre les clusters en forme de longue chaîne générés par des maillons simples et les clusters sphériques compacts générés par des maillons complets.

La méthode de liaison de Ward, également connue sous le nom de liaison de variance minimale, est utilisée pour déterminer la distance entre deux clusters en minimisant l'augmentation de la variance lorsque les deux clusters sont fusionnés. Cette méthode a tendance à générer des clusters avec une variance et une taille similaires.

Le choix de la méthode de liaison utilisée dans le clustering hiérarchique a un impact important sur les résultats du clustering. Différentes méthodes de liaison conduisent à différentes sorties de clustering. Les méthodes de liaison simple ont tendance à former de longues chaînes de clusters, les méthodes de liaison complète produisent des clusters sphériques compacts et les méthodes de liaison moyenne produisent des clusters intermédiaires. De plus, la règle de la somme des carrés des écarts produit des clusters avec des variances et des tailles similaires. Avant de choisir une méthode de liaison spécifique, nous devons examiner attentivement les caractéristiques des données ainsi que les objectifs actuels de la tâche, car cela aura un impact important sur les résultats du regroupement.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:163.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal