Pembelajaran ensemble ialah satu kaedah untuk mencapai kata sepakat dengan menyepadukan ciri-ciri menonjol berbilang model. Dengan menggabungkan ramalan daripada pelbagai model, rangka kerja pembelajaran ensemble boleh meningkatkan keteguhan ramalan dan dengan itu mengurangkan ralat ramalan. Dengan menyepadukan kelebihan berbeza berbilang model, pembelajaran ensemble boleh menyesuaikan dengan lebih baik kepada pengedaran data yang kompleks dan ketidakpastian, dan meningkatkan ketepatan dan keteguhan ramalan.
Untuk memahami secara ringkas, pembelajaran ensemble menangkap maklumat pelengkap daripada model yang berbeza.
Dalam artikel ini, mari kita lihat situasi yang akan menggunakan pembelajaran ensemble, dan apakah algoritma dan teknik yang ada untuk pembelajaran ensemble? Aplikasi Pembelajaran Ensemble sempadan keputusan yang lebih arif. . pengelas. Dan dalam kes di mana set data yang tersedia adalah lebih kecil, strategi penyepaduan berpandu boleh digunakan.
Inti rangka kerja ensemble adalah berdasarkan keyakinan ramalan model yang berbeza.
4. Kerumitan masalah yang tinggi
Satu pengelas mungkin tidak dapat menjana sempadan yang sesuai. Satu kumpulan pengelas linear berbilang boleh menjana sebarang sempadan keputusan polinomial.
5. Gabungan Maklumat
Sebab paling biasa untuk menggunakan model pembelajaran ensemble ialah gabungan maklumat untuk meningkatkan prestasi pengelasan. Iaitu, gunakan model yang telah dilatih mengenai pengagihan data berbeza yang tergolong dalam set kategori yang sama semasa masa ramalan untuk mendapatkan keputusan yang lebih mantap.
Algoritma dan teknik pembelajaran ensembel
Algoritma ensemble bagging
adalah salah satu kaedah ensembel terawal yang dicadangkan. Subsampel dicipta daripada set data dan ia dipanggil "persampelan bootstrap". Ringkasnya, subset rawak set data dibuat menggunakan penggantian, yang bermaksud titik data yang sama mungkin wujud dalam berbilang subset.
Subset ini kini dianggap sebagai set data bebas yang akan sesuai dengan beberapa model pembelajaran mesin. Semasa ujian, ramalan semua model sedemikian yang dilatih pada subset berbeza bagi data yang sama diambil kira. Akhirnya terdapat mekanisme pengagregatan yang digunakan untuk mengira ramalan akhir.
Aliran pemprosesan selari berlaku dalam mekanisme Bagging, yang tujuan utamanya adalah untuk mengurangkan varians dalam ramalan ensemble. , oleh itu, pengelas ensemble yang dipilih biasanya mempunyai varians yang tinggi dan pincang rendah.
Algoritma integrasi Boosting
Tidak seperti algoritma integrasi Bagging, algoritma integrasi Boosting tidak memproses data secara selari, tetapi memproses set data secara berurutan. Pengelas pertama mengambil keseluruhan set data dan menganalisis ramalan. Kejadian yang gagal menghasilkan ramalan yang betul diberikan kepada pengelas kedua. Kumpulan semua pengelas terdahulu ini kemudiannya dikira untuk membuat ramalan akhir pada data ujian.
Tujuan utama algoritma Boosting adalah untuk mengurangkan berat sebelah dalam membuat keputusan ensemble. Oleh itu, pengelas yang dipilih untuk ensemble biasanya perlu mempunyai varians yang rendah dan pincang yang tinggi, iaitu model yang lebih ringkas dengan parameter yang boleh dilatih yang lebih sedikit.
algoritma ensemble susun
Output model algoritma ini digunakan sebagai input pengelas lain (pengkelas meta), dan sampel akhirnya diramalkan. Tujuan menggunakan pengelas dua lapisan adalah untuk menentukan sama ada data latihan telah dipelajari, membantu pengelas meta membetulkan atau menambah baik sebelum membuat ramalan akhir.
Campuran Pakar
Kaedah ini melatih berbilang pengelas, dan kemudian output disepadukan menggunakan peraturan linear umum. Berat yang diberikan kepada kombinasi ini ditentukan selanjutnya oleh "Rangkaian Gating", yang juga merupakan model yang boleh dilatih, biasanya rangkaian saraf.
Majoriti Undian
Majoriti Undian ialah salah satu skim integrasi yang terawal dan paling mudah dalam literatur. Dalam kaedah ini, bilangan ganjil pengelas penyumbang dipilih dan ramalan daripada pengelas dikira untuk setiap sampel. Kemudian, kebanyakan kelas yang diramalkan yang dianggap sebagai set diperoleh daripada kumpulan pengelas.
Kaedah ini sesuai untuk masalah pengelasan binari kerana hanya dua pengelas calon boleh diundi. Walau bagaimanapun, kaedah berdasarkan skor keyakinan lebih dipercayai buat masa ini.
Peraturan maksimum (Peraturan maksimum)
Kaedah ensembel "Peraturan maksimum" bergantung pada taburan kebarangkalian yang dijana oleh setiap pengelas. Kaedah ini menggunakan konsep "keyakinan ramalan" pengelas, dan untuk kelas yang diramalkan oleh pengelas, skor keyakinan yang sepadan disemak. Pertimbangkan ramalan pengelas dengan skor keyakinan tertinggi sebagai ramalan rangka kerja ensembel.
Purata kebarangkalian
Dalam teknik ensembel ini, markah kebarangkalian berbilang model dikira terlebih dahulu. Kemudian, markah semua model merentas semua kelas dalam set data dipuratakan. Skor kebarangkalian ialah tahap keyakinan dalam ramalan model tertentu. Oleh itu, skor keyakinan beberapa model dikumpulkan untuk menjana skor kebarangkalian akhir ensembel. Kelas dengan kebarangkalian tertinggi selepas operasi purata ditetapkan sebagai ramalan.
Purata Kebarangkalian Berwajaran
Sama seperti kaedah purata kebarangkalian, skor kebarangkalian atau keyakinan diekstrak daripada model penyumbang yang berbeza. Tetapi perbezaannya ialah purata wajaran kebarangkalian dikira. Berat dalam kaedah ini merujuk kepada kepentingan setiap pengelas, iaitu, pengelas yang prestasi keseluruhannya pada set data adalah lebih baik daripada pengelas lain diberi kepentingan yang lebih tinggi apabila mengira ensembel, sekali gus memberikan rangka kerja ensemble Keupayaan ramalan yang lebih baik.
Atas ialah kandungan terperinci Memperkenalkan definisi, senario penggunaan, algoritma dan teknik pembelajaran ensembel. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!