ialah algoritma yang melakukan pengelasan atau regresi dengan membahagikan set data kepada subset kecil yang boleh dikesan. Setiap nod mewakili ciri yang digunakan untuk membahagikan data, dan setiap nod daun mewakili kategori atau nilai ramalan. Apabila membina pepohon keputusan, algoritma akan memilih ciri terbaik untuk memisahkan data supaya data dalam setiap subset tergolong dalam kategori yang sama atau mempunyai ciri yang serupa sebanyak mungkin. Proses ini akan diulang secara berterusan, sama seperti rekursi di Jawa, sehingga keadaan berhenti dicapai (contohnya, bilangan nod daun mencapai nilai pratetap), membentuk pepohon keputusan yang lengkap. Ia sesuai untuk mengendalikan tugas klasifikasi dan regresi. Dalam bidang kecerdasan buatan, pokok keputusan juga merupakan algoritma klasik dengan aplikasi yang luas.
Berikut ialah pengenalan ringkas kepada proses pokok keputusan:
Penyediaan dataAndaikan kami mempunyai data restoran set , termasuk atribut seperti jantina pelanggan, sama ada dia merokok dan masa makan, serta maklumat tentang sama ada pelanggan meninggalkan petua. Tugas kami ialah menggunakan atribut ini untuk meramalkan sama ada pelanggan pergi dengan petua.
Pembersihan Data dan Kejuruteraan CiriUntuk pembersihan data, kami perlu memproses nilai yang hilang, outlier, dsb. untuk memastikan integriti dan ketepatan data. Untuk kejuruteraan ciri, kami perlu memproses data asal dan mengekstrak ciri yang paling mendiskriminasi. Sebagai contoh, kita boleh mendiskrisikan masa makan kepada pagi, tengah hari dan petang, serta menukar jantina dan status merokok kepada nilai 0/1, dsb.
Bahagikan set dataKami membahagikan set data kepada set latihan dan set ujian, biasanya menggunakan pengesahan silang.
Membina pepohon keputusanKita boleh menggunakan ID3, C4.5, CART dan algoritma lain untuk membina pepohon keputusan. Di sini kita mengambil algoritma ID3 sebagai contoh Kuncinya adalah untuk mengira keuntungan maklumat. Kita boleh mengira keuntungan maklumat untuk setiap atribut, mencari atribut dengan keuntungan maklumat terbesar sebagai nod pisah, dan membina subpokok secara rekursif.
Penilaian ModelKita boleh menggunakan ketepatan, ingat semula, skor F1 dan penunjuk lain untuk menilai prestasi model.
Penalaan ModelKami boleh meningkatkan lagi prestasi model dengan memangkas dan melaraskan parameter pokok keputusan.
Aplikasi ModelAkhir sekali, kami boleh menggunakan model terlatih pada data baharu untuk membuat ramalan dan keputusan.
Mari kita pelajari tentangnya melalui contoh mudah:
Andaikan kita mempunyai set data berikut:
特征1 | 特征2 | 类别 |
---|---|---|
1 | 1 | 男 |
1 | 0 | 男 |
0 | 1 | 男 |
0 | 0 | 女 |
Kita boleh mengelaskannya dengan membina pepohon keputusan berikut:
Jika ciri 1 = 1, maka klasifikasikan sebagai lelaki jika tidak (iaitu ciri 1 = 0), jika ciri 2 = 1, maka klasifikasikan sebagai lelaki; ciri 2 = 0), dikelaskan sebagai perempuan.
feature1 = 1 feature2 = 0 # 解析决策树函数 def predict(feature1, feature2): if feature1 == 1: print("男") else: if feature2 == 1: print("男") else: print("女")
Dalam contoh ini, kami memilih ciri 1 sebagai titik pemisahan pertama kerana ia boleh membahagikan set data kepada dua subset yang mengandungi kategori yang sama, kemudian kami memilih ciri 2 sebagai titik Pisah kedua kerana ia membahagikan selebihnya set data kepada dua subset yang mengandungi kategori yang sama. Akhirnya, kami mendapat pepohon keputusan lengkap yang boleh mengklasifikasikan data baharu.
Walaupun algoritma pepohon keputusan mudah difahami dan dilaksanakan, pelbagai masalah dan situasi perlu dipertimbangkan sepenuhnya dalam aplikasi praktikal:
Selesai -simulasi Gabungan: Dalam algoritma pepohon keputusan, overfitting adalah masalah biasa, terutamanya apabila jumlah data set latihan tidak mencukupi atau nilai ciri adalah besar, ia adalah mudah untuk menyebabkan overfitting. Untuk mengelakkan keadaan ini, pokok keputusan boleh dioptimumkan dengan mencantas dahulu atau mencantas kemudian.
Pangkas dahulu: "Pangkas" pokok dengan memberhentikan pembinaannya lebih awal, simpul menjadi daun. Kaedah pemprosesan umum adalah untuk mengehadkan ketinggian dan bilangan sampel daun
Pemangkasan Selepas: Selepas membina pokok keputusan yang lengkap, gantikan dahan yang tidak tepat dengan daun dan gunakan nod The tag kelas yang paling kerap dalam pokok.
Pemilihan ciri: Algoritma pepohon keputusan biasanya menggunakan kaedah seperti perolehan maklumat atau indeks Gini untuk mengira kepentingan setiap ciri, dan kemudian pilih ciri optimum untuk pembahagian. Walau bagaimanapun, kaedah ini tidak dapat menjamin ciri optimum global, jadi ia boleh menjejaskan ketepatan model.
Memproses ciri berterusan: Algoritma pepohon keputusan biasanya mendiskrisikan ciri berterusan, yang mungkin kehilangan beberapa maklumat berguna. Untuk menyelesaikan masalah ini, anda boleh mempertimbangkan untuk menggunakan kaedah seperti kaedah dikotomi untuk memproses ciri berterusan.
Pemprosesan nilai yang tiada: Pada hakikatnya, data selalunya mempunyai nilai yang hilang, yang membawa cabaran tertentu kepada algoritma pepohon keputusan. Biasanya, anda boleh mengisi nilai yang hilang, memadam nilai yang hilang, dsb.
Atas ialah kandungan terperinci Apakah proses pokok keputusan algoritma kecerdasan buatan Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!