Pembelajaran mesin boleh digunakan untuk menyelesaikan pelbagai masalah. Tetapi terdapat begitu banyak model yang berbeza untuk dipilih sehingga sukar untuk mengetahui mana yang sesuai. Ringkasan artikel ini akan membantu anda memilih model pembelajaran mesin yang paling sesuai dengan keperluan anda.
Langkah pertama ialah menentukan masalah yang ingin anda selesaikan: sama ada regresi, klasifikasi atau agregasi. Soalan Kelas? Ini boleh mengecilkan pilihan dan menentukan jenis model yang hendak dipilih.
Apakah jenis masalah yang ingin anda selesaikan?
Masalah pengelasan: regresi logistik, pengelas pokok keputusan, pengelas hutan rawak, mesin vektor sokongan (SVM), pengelas Bayes naif atau rangkaian saraf.
Masalah pengelompokan: k-bermaksud pengelompokan, pengelompokan hierarki atau DBSCAN.
Jika anda mempunyai set data yang kecil, pilih yang kurang kompleks Model , seperti regresi linear. Untuk set data yang lebih besar, model yang lebih kompleks seperti hutan rawak atau pembelajaran mendalam mungkin sesuai.
Cara menilai saiz set data:
Data mempunyai keputusan yang telah ditetapkan, manakala data yang tidak berlabel tidak. Jika data dilabelkan, algoritma pembelajaran yang diselia seperti regresi logistik atau pepohon keputusan biasanya digunakan. Data tidak berlabel memerlukan algoritma pembelajaran tanpa pengawasan seperti k-means atau analisis komponen utama (PCA).
Jika ciri anda adalah jenis kategori, anda mungkin perlu menggunakan pepohon keputusan atau Bayes naif. Untuk ciri berangka, regresi linear atau mesin vektor sokongan (SVM) mungkin lebih sesuai.
Jika anda berurusan dengan data berjujukan, seperti siri masa atau bahasa semula jadi, anda mungkin perlu menggunakan rangkaian saraf berulang (rnn) atau panjang ingatan jangka pendek (LSTM) , transformer, dsb.
Banyak nilai hilang boleh digunakan: pokok keputusan, hutan rawak, k-means clustering. Jika nilai yang hilang tidak betul, anda boleh mempertimbangkan regresi linear, regresi logistik, mesin vektor sokongan dan rangkaian saraf.
Sesetengah model pembelajaran mesin lebih mudah untuk dijelaskan daripada yang lain. Jika anda perlu menerangkan keputusan model, anda boleh memilih model seperti pepohon keputusan atau regresi logistik. Jika ketepatan lebih kritikal, maka model yang lebih kompleks seperti hutan rawak atau pembelajaran mendalam mungkin lebih sesuai.
Jika anda berhadapan dengan kelas tidak seimbang, anda mungkin mahu menggunakan model seperti hutan rawak, mesin vektor sokongan atau rangkaian saraf untuk menyelesaikan masalah.
Mengendalikan nilai yang hilang dalam data anda
Jika anda mempunyai nilai yang hilang dalam set data anda, anda mungkin ingin mempertimbangkan teknik atau model imputasi yang boleh mengendalikan nilai yang hilang, seperti K -jiran terdekat (KNN) atau Decision tree.
Jika mungkin terdapat hubungan bukan linear antara pembolehubah, model yang lebih kompleks seperti rangkaian saraf atau mesin vektor sokongan perlu digunakan.
Jika anda ingin mempertimbangkan pertukaran antara kelajuan dan ketepatan, model yang lebih kompleks mungkin lebih perlahan, tetapi ia juga mungkin memberikan ketepatan yang lebih tinggi.
Jika anda ingin memproses data berdimensi tinggi atau data bising, anda mungkin perlu menggunakan teknik pengurangan dimensi (seperti PCA) atau model yang boleh mengendalikan hingar (seperti KNN atau pokok keputusan).
Jika anda memerlukan ramalan masa nyata, anda perlu memilih model seperti pepohon keputusan atau mesin vektor sokongan.
Jika data mempunyai banyak outlier, anda boleh memilih model teguh seperti svm atau rawak hutan.
Matlamat utama model adalah untuk digunakan dalam talian, jadi kesukaran penggunaan adalah pertimbangan terakhir:
Beberapa model mudah, seperti Regresi linear, regresi logistik, pepohon keputusan, dsb., boleh digunakan dalam persekitaran pengeluaran dengan agak mudah kerana saiz modelnya yang kecil, kerumitan rendah dan overhed pengiraan yang rendah. Pada set data berskala besar, berdimensi tinggi, bukan linear dan set data kompleks lain, prestasi model ini mungkin terhad, memerlukan model yang lebih maju, seperti rangkaian saraf, mesin vektor sokongan, dsb. Contohnya, dalam bidang seperti pengecaman imej dan pertuturan, set data mungkin memerlukan pemprosesan dan prapemprosesan yang meluas, yang boleh menyukarkan penggunaan model.
Memilih model pembelajaran mesin yang betul boleh menjadi tugas mencabar yang memerlukan pertukaran berdasarkan masalah tertentu, data, kelajuan, kebolehtafsiran, penggunaan, dll. Pilih algoritma yang paling sesuai berdasarkan keperluan anda. Dengan mengikuti garis panduan ini, anda boleh memastikan model pembelajaran mesin anda sesuai untuk kes penggunaan khusus anda dan boleh memberikan anda cerapan dan ramalan yang anda perlukan.
Atas ialah kandungan terperinci Panduan sepuluh langkah untuk memilih model pembelajaran mesin yang hebat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!