Apakah algoritma jiran terdekat k?
Algoritma K Nearest Neighbor juga dipanggil algoritma KNN ini ialah algoritma yang agak klasik dalam pembelajaran mesin Secara umumnya, algoritma KNN adalah algoritma yang agak mudah difahami.
Jika sampel mempunyai bilangan terbesar antara k yang paling serupa (iaitu jiran terdekat dalam ruang ciri) sampel dalam ciri ruang Jika kebanyakan mereka tergolong dalam kategori tertentu, sampel juga tergolong dalam kategori ini.
Sumber: Algoritma KNN pertama kali dicadangkan oleh Cover dan Hart sebagai algoritma klasifikasi
Jarak antara dua sampel boleh dikira dengan formula berikut, juga dipanggil jarak Euclidean Formula jarak akan dibincangkan kemudian
Senario aplikasi. Untuk: ramalan harga rumah, ramalan jumlah jualan, ramalan jumlah pinjaman
Apakah regresi linear?
Regression linear ialah penggunaan persamaan regresi (fungsi) untuk meramalkan satu atau lebih pembolehubah bebas Suatu analisis cara untuk memodelkan hubungan antara (nilai eigen) dan pembolehubah bersandar (nilai sasaran).
Ciri: Situasi dengan hanya satu pembolehubah bebas dipanggil regresi univariat, dan situasi dengan lebih daripada satu pembolehubah bebas dipanggil regresi berganda.
Contoh regresi linear yang dinyatakan dalam matriks:
Jadi bagaimana anda memahaminya? Mari lihat beberapa contoh:
Gred akhir: 0.7×gred peperiksaan +0.3×gred harian
Harga rumah = 0.02×kawasan tengah jarak + 0.04×kepekatan nitrik oksida bandar + (-0.12×harga rumah purata untuk perumahan yang diduduki pemilik) + 0.254×kadar jenayah bandar Perhubungan diwujudkan antara nilai, yang boleh difahami sebagai model linear.
Regression Logistik
Senario aplikasi: Kadar klik iklan, sama ada spam, sama ada sakit, penipuan kewangan, akaun palsu.
Satu ciri boleh didapati di sini, iaitu, kedua-dua kategori adalah pertimbangan.
Untuk menguasai regresi logistik, anda mesti menguasai dua mata:
Apakah nilai input dalam regresi logistik?
Bagaimana untuk menilai output regresi logistik?
Input:
Fungsi pengaktifan: fungsi sigmoid
Kriteria Penghakiman
Hasil regresi ialah input ke dalam fungsi sigmoid, dan output keputusannya ialah: [ Nilai kebarangkalian dalam selang 0, 1], lalai ialah 0.5 sebagai ambang.
Klasifikasi terakhir regresi logistik adalah untuk menilai sama ada ia tergolong dalam kategori tertentu melalui nilai kebarangkalian untuk tergolong dalam kategori tertentu, dan kategori ini ditandakan sebagai 1 (contoh positif) secara lalai, dan yang lain kategori akan ditanda sebagai 0 (contoh negatif) ). (Mudah untuk pengiraan kerugian)
Penjelasan hasil output (penting): Katakan terdapat dua kategori A dan B, dan andaikan nilai kebarangkalian kita ialah nilai kebarangkalian yang tergolong dalam kategori A( 1) . Kini terdapat input sampel kepada hasil keluaran regresi logistik 0.55, maka nilai kebarangkalian ini melebihi 0.5, bermakna hasil latihan atau ramalan kami adalah kategori A(1). Kemudian sebaliknya, jika keputusan adalah 0.3, maka hasil latihan atau ramalan adalah kategori B(0).
Ambang regresi logistik boleh diubah Sebagai contoh, dalam contoh di atas, jika anda menetapkan ambang kepada 0.6, maka hasil output ialah 0.55, yang tergolong dalam kategori B.
Asal usul idea pepohon keputusan adalah sangat mudah Struktur cabang bersyarat dalam pengaturcaraan ialah struktur if-else , pokok Keputusan terawal ialah kaedah pembelajaran klasifikasi yang menggunakan struktur jenis ini untuk membahagikan data
Pokok keputusan: Ia ialah struktur pokok di mana setiap nod dalaman mewakili pertimbangan pada atribut . Setiap cabang mewakili output keputusan penghakiman, dan akhirnya setiap nod daun mewakili hasil klasifikasi Ia pada dasarnya adalah pokok yang terdiri daripada berbilang nod penghakiman.
Bagaimana anda memahami ayat ini? Melalui contoh perbualan
Kes di atas ialah gadis meletakkan umur di atas melalui kesedaran subjektif kualitatif, maka jika Ini proses perlu diukur, bagaimana untuk menanganinya?
Pada masa ini, anda perlu menggunakan pengetahuan dalam teori maklumat: entropi maklumat dan perolehan maklumat.
Pembelajaran ensemble menyelesaikan masalah ramalan tunggal dengan membina beberapa model. Ia berfungsi dengan menjana berbilang pengelas/model, setiap satu belajar dan membuat ramalan secara bebas. Ramalan ini akhirnya digabungkan menjadi ramalan gabungan yang lebih baik daripada sebarang ramalan pengelasan tunggal.
Potret pengguna, pengesyoran pengiklanan, Pembahagian Data, pengesyoran trafik enjin carian, pengenalan trafik berniat jahat
Tekanan perniagaan berdasarkan maklumat lokasi, pengelompokan berita, penapisan dan pengisihan.
Segmentasi imej, pengurangan dimensi, pengesanan luar biasa penggunaan kad kredit;
Algoritma pembelajaran biasa tanpa seliaan, terutamanya digunakan untuk mengelaskan sampel serupa secara automatik ke dalam kategori .
Dalam algoritma pengelompokan, sampel dibahagikan kepada kategori berbeza berdasarkan kesamaan antara sampel Kaedah pengiraan persamaan yang berbeza akan menghasilkan hasil pengelompokan yang berbeza kaedah pengiraan persamaan yang biasa digunakan termasuk jarak Euclidean kaedah.
Atas ialah kandungan terperinci Apakah algoritma yang diperlukan untuk pembelajaran mesin peringkat permulaan?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!