Visualisasi ialah alat yang berkuasa untuk menyampaikan corak data dan perhubungan yang kompleks dengan cara yang intuitif dan mudah difahami. Mereka memainkan peranan penting dalam analisis data, memberikan cerapan yang selalunya sukar untuk dibezakan daripada data mentah atau perwakilan berangka tradisional.
Visualisasi adalah penting untuk memahami corak dan perhubungan data yang kompleks, kami akan memperkenalkan 11 carta paling penting dan mesti diketahui yang membantu mendedahkan maklumat dalam data dan menjadikan data kompleks lebih mudah difahami dan bermakna . Plot KS digunakan untuk menilai perbezaan pengedaran. Idea teras adalah untuk mengukur jarak maksimum antara fungsi pengedaran kumulatif (CDF) dua pengedaran. Semakin kecil jarak maksimum, semakin besar kemungkinan mereka tergolong dalam pengedaran yang sama. Oleh itu, ia terutamanya ditafsirkan sebagai "ujian statistik" untuk menentukan perbezaan dalam pengedaran, bukannya "plot".
2, SHAP Plot
SHAP Plot meringkaskan kepentingan ciri untuk ramalan model dengan mempertimbangkan interaksi/pergantungan antara ciri. Berguna apabila menentukan cara nilai yang berbeza (rendah atau tinggi) sesuatu ciri mempengaruhi output keseluruhan.
3, Keluk ROC
Keluk ROC menerangkan pertukaran antara kadar positif benar (prestasi baik) dan kadar positif palsu (prestasi buruk) merentas ambang klasifikasi yang berbeza. Ia menunjukkan pertukaran antara kepekaan (Kadar Positif Benar, TPR) dan kekhususan (Kadar Negatif Benar, TNR) pengelas pada ambang yang berbeza.
Keluk ROC ialah alat yang biasa digunakan, terutamanya sesuai untuk menilai prestasi ujian diagnostik perubatan, pengelas pembelajaran mesin, model risiko, dsb. Dengan menganalisis lengkung ROC dan mengira AUC, anda boleh lebih memahami prestasi pengelas anda, memilih ambang yang sesuai dan membandingkan prestasi antara model yang berbeza.
Keluk Precision-Recall (precision-recall) ialah satu lagi alat penting untuk menilai prestasi model klasifikasi, terutamanya sesuai untuk pengagihan kelas yang tidak seimbang. perbezaan besar dalam bilangan sampel kelas positif dan negatif. Keluk ini memfokuskan pada ketepatan ramalan model dalam kategori positif dan keupayaannya untuk mencari semua contoh positif sebenar. Ia menerangkan pertukaran antara ketepatan dan ingat semula antara ambang pengelasan yang berbeza.
5, Plot QQ
Plot QQ (Plot Kuantil-Kuantil, plot kuantil-kuantil) ialah kaedah yang digunakan untuk membandingkan sama ada taburan kuantil dua set data adalah serupa. Ia sering digunakan untuk menyemak sama ada set data mematuhi taburan teori tertentu, seperti taburan normal.
Ia menilai persamaan taburan antara data yang diperhatikan dan taburan teori. Kuantil kedua-dua taburan diplot. Sisihan daripada garis lurus mewakili penyimpangan daripada pengagihan yang diandaikan.
Plot Varian Terjelas Terkumpul (plot varians yang dijelaskan terkumpul) ialah satu carta yang biasa digunakan dalam teknik pengurangan dimensi (PCA maklumat varians dan pilih dimensi yang sesuai untuk mewakili data.
Para saintis dan penganalisis data akan memilih bilangan komponen utama yang sesuai berdasarkan maklumat dalam Plot Varians Penjelasan Kumulatif supaya ciri-ciri data masih boleh diwakili dengan berkesan selepas pengurangan dimensi. Ini membantu mengurangkan dimensi data, meningkatkan kecekapan latihan model dan mengekalkan maklumat yang mencukupi untuk menyokong penyiapan tugas yang berjaya.
Keluk Siku ialah alat visualisasi yang digunakan untuk membantu menentukan bilangan kelompok (bilangan kelompok) yang optimum dalam pengelompokan K-Means. K-Means ialah algoritma pembelajaran tanpa pengawasan yang biasa digunakan untuk mengklasifikasikan titik data ke dalam kelompok atau kumpulan yang berbeza. Lengkung Siku membantu mencari bilangan gugusan yang sesuai untuk mewakili struktur data anda dengan terbaik.
Elbow Curve ialah alat yang biasa digunakan untuk membantu memilih bilangan gugusan yang optimum dalam pengelompokan K-Means. Ini lebih baik menangkap struktur dan corak asas data.
Keluk Siluet (lengkung pekali siluet) ialah alat visual yang digunakan untuk menilai kualiti pengelompokan, dan sering digunakan untuk membantu memilih bilangan kelompok yang optimum. Pekali siluet ialah ukuran persamaan titik data dalam kelompok dan pemisahan titik data antara kelompok dalam kelompok.
Keluk Siluet ialah alat berkuasa yang digunakan untuk membantu memilih bilangan kelompok yang optimum untuk memastikan model pengelompokan dapat menangkap struktur dan corak intrinsik data dengan berkesan. Lengkung siku selalunya tidak berkesan apabila terdapat banyak kelompok. Silhouette Curve ialah pilihan yang lebih baik.
Gini Kotoran dan Entropi ialah dua penunjuk yang biasa digunakan dalam algoritma pembelajaran mesin seperti pepohon keputusan dan hutan rawak Menilai sifat pemisahan data yang optimum. Kedua-duanya digunakan untuk mengukur jumlah kekusutan dalam set data untuk membantu pepohon keputusan memilih cara membahagikan data.
Ia digunakan untuk mengukur kekotoran atau gangguan nod atau perpecahan dalam pokok keputusan. Rajah di atas membandingkan kekotoran Gini dan entropi pada pemisahan yang berbeza, yang boleh memberikan cerapan tentang pertukaran antara langkah ini.
Kedua-duanya adalah penunjuk yang sah untuk pemilihan pemisahan nod dalam algoritma pembelajaran mesin seperti pepohon keputusan, tetapi yang mana satu untuk dipilih bergantung pada masalah khusus dan ciri data.
Bias-Variance Tradeoff (bias-variance tradeoff) ialah konsep penting dalam pembelajaran mesin, digunakan untuk menerangkan hubungan antara prestasi ramalan dan keupayaan generalisasi imbangan.
Terdapat pertukaran antara berat sebelah dan varians. Apabila melatih model pembelajaran mesin, peningkatan kerumitan model biasanya mengurangkan bias tetapi meningkatkan varians, manakala mengurangkan kerumitan model mengurangkan varians tetapi meningkatkan bias. Oleh itu, terdapat titik tukar ganti di mana model kedua-duanya mampu menangkap corak dalam data (mengurangkan bias) dan menunjukkan ramalan yang stabil merentas data yang berbeza (mengurangkan varians).
Memahami pertukaran bias-variance membantu pengamal pembelajaran mesin membina dan menala model dengan lebih baik untuk mencapai prestasi dan keupayaan generalisasi yang lebih baik. Ia menyerlahkan perhubungan antara kerumitan model dan saiz set data, dan cara untuk mengelakkan kekurangan dan terlalu muat.
Plot Ketergantungan Separa (Plot Ketergantungan Separa) ialah alat untuk menggambarkan dan menerangkan model pembelajaran mesin, terutamanya berguna untuk memahami impak model individu. Graf ini membantu mendedahkan hubungan antara ciri dan pembolehubah sasaran untuk lebih memahami tingkah laku dan keputusan model.
Plot Ketergantungan Separa sering digunakan dengan alat dan teknik tafsiran, seperti nilai SHAP, LIME, dll., untuk membantu menjelaskan ramalan model pembelajaran mesin kotak hitam. Mereka menyediakan visualisasi yang memudahkan saintis data dan penganalisis memahami hubungan antara keputusan dan ciri model.
Carta ini merangkumi alatan dan konsep visualisasi yang biasa digunakan dalam bidang analisis data dan pembelajaran mesin, yang membantu menilai dan mentafsir prestasi model, memahami pengedaran data dan memilih parameter dan model terbaik Kerumitan, dan kesan ciri cerapan terhadap ramalan.
Atas ialah kandungan terperinci 11 Visualisasi Lanjutan untuk Analisis Data dan Pembelajaran Mesin. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!