Kluster hierarki ialah teknik pembelajaran tanpa pengawasan yang mengumpulkan pemerhatian yang serupa berdasarkan jarak atau ukuran persamaan. Kaedah pemautan menentukan cara jarak antara kelompok dikira.
Artikel ini akan memperkenalkan kaedah pautan yang digunakan dalam pengelompokan hierarki, termasuk pautan tunggal, pautan lengkap, pautan purata dan jumlah kuasa dua kaedah sisihan.
Pautan tunggal juga dipanggil pautan jiran terdekat, yang mentakrifkan jarak antara dua gugusan sebagai jarak terpendek antara mana-mana dua titik dalam dua gugusan. Dengan kata lain, jarak antara dua kelompok ditentukan oleh jarak antara titik terdekat mereka. Walau bagaimanapun, pendekatan ini selalunya menghasilkan rantaian gugusan yang panjang dan sangat sensitif kepada outlier dan hingar dalam data.
Pautan lengkap, juga dikenali sebagai pautan jiran terjauh, menggunakan jarak terjauh antara mana-mana dua titik dalam dua gugusan untuk menentukan jarak antara dua gugusan. Ini bermakna jarak antara dua kelompok ditentukan oleh jarak antara titik terjauhnya. Kaedah pautan penuh cenderung menghasilkan gugusan sfera padat yang kurang sensitif kepada outlier dan hingar dalam data.
Kaedah pautan purata mengira jarak antara dua gugusan sebagai jarak purata antara semua pasangan mata dalam dua gugusan. Pendekatan ini cenderung untuk menghasilkan morfologi kelompok perantaraan antara kelompok seperti rantai panjang yang dihasilkan oleh pautan tunggal dan kelompok sfera padat yang dihasilkan oleh pautan lengkap.
Kaedah pautan Ward, juga dikenali sebagai pautan varians minimum, digunakan untuk menentukan jarak antara dua kelompok dengan meminimumkan peningkatan varians apabila kedua-dua kelompok digabungkan. Kaedah ini cenderung menghasilkan kluster dengan varians dan saiz yang serupa.
Pilihan kaedah penghubung yang digunakan dalam pengelompokan hierarki mempunyai kesan penting ke atas hasil pengelompokan. Kaedah pemautan yang berbeza membawa kepada output pengelompokan yang berbeza. Kaedah pautan tunggal cenderung membentuk rantaian gugusan yang panjang, kaedah pautan penuh menghasilkan gugusan sfera padat, dan kaedah pautan purata menghasilkan gugusan di antaranya. Selain itu, peraturan jumlah kuasa dua sisihan menghasilkan kelompok dengan varians dan saiz yang serupa. Sebelum memilih kaedah pemautan khusus, kita perlu mempertimbangkan dengan teliti ciri-ciri data serta matlamat tugas semasa, kerana ini akan memberi kesan penting pada hasil pengelompokan.
Atas ialah kandungan terperinci Kaedah penghubung yang berbeza digunakan dalam pengelompokan hierarki. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!