Lasso regresi ialah teknik regresi linear yang mengurangkan bilangan pembolehubah dan meningkatkan keupayaan ramalan model dan prestasi generalisasi dengan menghukum pekali model. Ia sesuai untuk pemilihan ciri set data berdimensi tinggi dan mengawal kerumitan model untuk mengelakkan pemasangan berlebihan. Regresi Lasso digunakan secara meluas dalam biologi, kewangan, rangkaian sosial dan bidang lain. Artikel ini akan memperkenalkan prinsip dan aplikasi regresi Lasso secara terperinci.
Lasso regresi ialah kaedah yang digunakan untuk menganggar pekali model regresi linear. Ia mencapai pemilihan ciri dengan meminimumkan jumlah ralat kuasa dua dan menambah tempoh penalti L1 untuk mengehadkan pekali model. Kaedah ini boleh mengenal pasti ciri-ciri yang mempunyai kesan paling ketara terhadap pembolehubah sasaran sambil mengekalkan ketepatan ramalan.
Andaikan kita mempunyai set data X, mengandungi m sampel dan n ciri. Setiap sampel terdiri daripada vektor ciri x_i dan label yang sepadan y_i. Matlamat kami adalah untuk membina model linear y = Xw + b yang meminimumkan ralat antara nilai ramalan dan nilai sebenar.
Kita boleh menggunakan kaedah kuasa dua terkecil untuk menyelesaikan nilai w dan b untuk meminimumkan jumlah ralat kuasa dua. Iaitu:
min_{w,b} sum_{i=1}^m (y_i - sum_{j=1}^n w_jx_{ij} - b)^2
Namun, apabila nombor itu ciri adalah sangat besar Apabila besar, model mungkin mengalami overfitting, iaitu model berprestasi baik pada set latihan tetapi berprestasi buruk pada set ujian. Untuk mengelakkan pemasangan berlebihan, kita boleh menambah istilah penalti L1 supaya beberapa pekali dimampatkan kepada sifar, dengan itu mencapai tujuan pemilihan ciri. Istilah penalti L1 boleh dinyatakan sebagai:
lambda sum_{j=1}^n pertengahan w_j pertengahan
di mana, λ ialah pekali penalti yang perlu kita pilih, yang mengawal keamatan tempoh penalti. Apabila λ lebih besar, impak tempoh penalti adalah lebih besar, dan pekali model cenderung kepada sifar. Apabila λ cenderung kepada infiniti, semua pekali dimampatkan kepada sifar dan model menjadi model malar, iaitu, semua sampel diramalkan mempunyai nilai yang sama.
Fungsi objektif regresi laso boleh dinyatakan sebagai:
min_{w,b} frac{1}{2m} sum_{i=1}^m (y_i - sum_{j=1}^n w_jx_ { ij} - b)^2 + lambda sum_{j=1}^n mid w_j mid
Lasso regresi boleh digunakan untuk pemilihan ciri, menyelesaikan masalah multikolineariti dan mentafsir keputusan model senario aplikasi lain. Sebagai contoh, dalam bidang diagnostik perubatan, kita boleh menggunakan regresi Lasso untuk mengenal pasti faktor risiko penyakit yang mempunyai kesan paling besar terhadap hasil yang diramalkan. Dalam kewangan, kita boleh menggunakan regresi Lasso untuk mencari faktor mana yang mempunyai kesan terbesar terhadap perubahan harga saham.
Selain itu, Lasso Regression juga boleh digunakan dalam kombinasi dengan algoritma lain, seperti Random Forest, Mesin Vektor Sokongan, dll. Dengan menggabungkannya, kami boleh memanfaatkan sepenuhnya keupayaan pemilihan ciri regresi Lasso sambil memperoleh faedah daripada algoritma lain, dengan itu meningkatkan prestasi model.
Atas ialah kandungan terperinci Lasso kembali. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!