Algoritma ID3 ialah salah satu algoritma asas dalam pembelajaran pokok keputusan. Ia memilih titik perpecahan terbaik dengan mengira keuntungan maklumat setiap ciri untuk menjana pepohon keputusan. Keuntungan maklumat ialah konsep penting dalam algoritma ID3, yang digunakan untuk mengukur sumbangan ciri kepada tugas pengelasan. Artikel ini akan memperkenalkan secara terperinci konsep, kaedah pengiraan dan aplikasi perolehan maklumat dalam algoritma ID3.
Entropi maklumat ialah konsep dalam teori maklumat yang mengukur ketidakpastian pembolehubah rawak. Untuk pembolehubah rawak diskret Bilangan nilai yang mungkin untuk pembolehubah X, dan p(x_i) mewakili kebarangkalian pembolehubah rawak X mengambil nilai x_i. Unit entropi maklumat ialah bit, yang digunakan untuk mengukur bilangan minimum bit yang diperlukan untuk mengekod pembolehubah rawak secara purata.
Semakin besar nilai entropi maklumat, semakin tidak pasti pembolehubah rawak, dan begitu juga sebaliknya. Sebagai contoh, untuk pembolehubah rawak dengan hanya dua nilai yang mungkin, jika kebarangkalian kedua-dua nilai adalah sama, maka entropi maklumatnya ialah 1, yang bermaksud bahawa panjang pengekodan 1 bit diperlukan untuk mengekodnya jika kebarangkalian daripada salah satu nilai ialah 1, dan kebarangkalian nilai lain ialah 0, maka entropi maklumatnya ialah 0, yang bermaksud bahawa nilainya boleh ditentukan tanpa pengekodan.
2. Konsep entropi bersyarat
Dalam pembelajaran pepohon keputusan, kita perlu mengira sumbangan ciri kepada tugas pengelasan. Untuk mengukur keupayaan pengelasan sesuatu ciri, kita boleh mengira ketidakpastian pengelasan menggunakan ciri yang diberikan ciri tersebut, iaitu entropi bersyarat. Andaikan ciri A mempunyai nilai m Untuk setiap nilai, kita boleh mengira taburan kebarangkalian pembolehubah sasaran di bawah nilai itu, mengira entropi maklumat yang sepadan, dan akhirnya mencari entropi bersyarat, yang ditakrifkan seperti berikut:
di mana |X| mewakili set sampel Saiz X, |X_i| mewakili bilangan sampel di mana ciri A mengambil nilai A_i, dan H(Y|
3. Konsep perolehan maklumat
Keuntungan maklumat merujuk kepada pengurangan entropi maklumat yang boleh diperoleh dengan membahagikan set sampel X dengan A dengan syarat ciri A diketahui. Lebih besar perolehan maklumat, lebih besar entropi maklumat yang diperoleh dengan menggunakan ciri A untuk membahagi set sampel X berkurangan, iaitu lebih besar sumbangan ciri A kepada tugas pengelasan. Takrifan perolehan maklumat adalah seperti berikut:
di mana, H(Y) ialah entropi maklumat pembolehubah sasaran Y , H(Y| X) ialah entropi bersyarat pembolehubah sasaran Y di bawah keadaan ciri A.
4. Pengiraan perolehan maklumat dalam algoritma ID3
Dalam algoritma ID3, kita perlu memilih ciri terbaik untuk membahagikan set sampel X. Untuk setiap ciri A, kita boleh mengira keuntungan maklumatnya dan memilih ciri dengan keuntungan maklumat terbesar sebagai titik pembahagian. Khususnya, untuk setiap ciri A, kita boleh mengira bilangan sampel dengan setiap nilai di bawah ciri, kemudian mengira taburan kebarangkalian pembolehubah sasaran dengan setiap nilai di bawah ciri, dan mengira entropi maklumat yang sepadan . Kemudian, kita boleh mengira entropi bersyarat bagi ciri A, dan menolak entropi bersyarat daripada entropi maklumat untuk mendapatkan keuntungan maklumat. Akhir sekali, kami memilih ciri dengan keuntungan maklumat terbesar sebagai titik pemisah.
Ringkasnya, perolehan maklumat adalah konsep yang sangat penting dalam algoritma ID3, yang digunakan untuk mengukur sumbangan ciri kepada tugas pengelasan. Dalam algoritma ID3, kami memilih titik perpecahan terbaik dengan mengira keuntungan maklumat bagi setiap ciri, dengan itu menghasilkan pepohon keputusan. Dalam aplikasi praktikal, kami boleh mengoptimumkan perolehan maklumat, seperti menggunakan nisbah keuntungan untuk memilih ciri terbaik.
Atas ialah kandungan terperinci Apakah peranan perolehan maklumat dalam algoritma id3?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!