Dalam prapemprosesan data, langkah penting ialah mengendalikan data yang hilang kerana model pembelajaran mesin tidak akan menerima nilai NaN sebagai inputnya. Terdapat banyak cara untuk mengisi nilai NaN ini, tetapi pertama sekali kita perlu memahami kepentingan nilai yang hilang.
Cara yang sangat mudah ialah mengalih keluar semua nilai yang hilang daripada set data pembelajaran mesin, tetapi sebelum melakukan itu, semak peratusan keseluruhan nilai NaN yang terdapat dalam set data pembelajaran mesin. Jika kurang daripada 1%, kami boleh mengalih keluar semua nilai yang hilang, jika tidak, kami perlu mengaitkan data dengan memilih kaedah lain seperti ukuran kecenderungan pusat, KNN Imputer, dsb.
Apabila kami menggunakan nombor dalam ciri, kami menggunakan min atau median. Min ialah nilai purata yang boleh kita kira dengan menjumlahkan semua nilai berturut-turut dan kemudian membahagikan dengan jumlahnya. Median juga mewakili purata Median menyusun data mengikut saiz untuk membentuk urutan, iaitu data di tengah-tengah jujukan. Apabila data individu dalam satu set data sangat berbeza, median sering digunakan untuk menggambarkan kecenderungan pusat set data.
Jika terdapat pengedaran yang serong dalam set data pembelajaran mesin, selalunya lebih baik menggunakan median daripada min.
Outlier ialah titik data yang berbeza secara ketara daripada pemerhatian lain. Kadangkala, outlier ini juga boleh menjadi sensitif. Sebelum berurusan dengan outlier, adalah disyorkan untuk memeriksa set data pembelajaran mesin.
Contohnya:
Apakah masalah kebocoran data dalam model pembelajaran mesin?
Kebocoran data berlaku apabila data yang kami gunakan untuk melatih model pembelajaran mesin mengandungi maklumat yang model pembelajaran mesin cuba ramalkan. Ini menghasilkan keputusan ramalan yang tidak boleh dipercayai selepas model digunakan.
Masalah ini mungkin disebabkan oleh kaedah penyeragaman atau penormalan data. Kerana kebanyakan kita terus menggunakan kaedah ini sebelum membahagikan data kepada set latihan dan ujian.
Dalam masa nyata, saya rasa beralih kepada beberapa model yang rumit tanpa perlu boleh menimbulkan beberapa isu kebolehtafsiran untuk orang yang berorientasikan perniagaan. Sebagai contoh, regresi linear akan lebih mudah untuk ditafsirkan daripada algoritma rangkaian saraf.
Pilih model pembelajaran mesin yang sepadan terutamanya berdasarkan saiz dan kerumitan set data Jika kita menangani masalah yang rumit, kita boleh menggunakan beberapa model pembelajaran mesin yang cekap, seperti SVN, KNN, hutan rawak, dll. .
Kebanyakan masa, fasa penerokaan data akan membantu kami memilih model pembelajaran mesin yang sepadan. Jika data boleh dipisahkan secara linear dalam visualisasi, maka kita boleh menggunakan regresi linear. Sokongan mesin vektor dan KNN akan berguna jika kita tidak tahu apa-apa tentang data.
Terdapat juga masalah kebolehtafsiran model Contohnya, regresi linear lebih mudah dijelaskan daripada algoritma rangkaian saraf.
Metrik ialah ukuran kuantitatif peramal model dan data sebenar. Jika soalan adalah dalam regresi, metrik utama ialah ketepatan (skor R2), MAE (min ralat mutlak) dan RMSE (root min ralat kuasa dua). Jika ia adalah masalah klasifikasi, penunjuk utama ialah ketepatan, ingat semula, skor F1 dan matriks kekeliruan.
Atas ialah kandungan terperinci Lima soalan biasa untuk pemula dalam pembelajaran mesin. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!