


Bagaimanakah rangkaian sisa dalam mengatasi masalah kecerunan yang hilang?
Rangkaian sisa ialah model pembelajaran mendalam yang popular yang menyelesaikan masalah kecerunan yang hilang dengan memperkenalkan blok sisa. Artikel ini bermula daripada punca penting masalah kecerunan yang hilang dan menerangkan secara terperinci penyelesaian kepada rangkaian sisa.
1. Sebab penting untuk masalah kecerunan yang hilang
Dalam rangkaian neural dalam, output setiap lapisan dikira dengan mendarabkan input lapisan sebelumnya dengan matriks berat dan mengiranya melalui fungsi pengaktifan . Apabila bilangan lapisan rangkaian bertambah, output setiap lapisan akan dipengaruhi oleh output lapisan sebelumnya. Ini bermakna walaupun perubahan kecil dalam matriks berat dan fungsi pengaktifan akan memberi kesan kepada output keseluruhan rangkaian. Dalam algoritma perambatan belakang, kecerunan digunakan untuk mengemas kini berat rangkaian. Pengiraan kecerunan memerlukan melepasi kecerunan lapisan seterusnya ke lapisan sebelumnya melalui peraturan rantai. Oleh itu, kecerunan lapisan sebelumnya juga akan mempengaruhi pengiraan kecerunan. Kesan ini terkumpul apabila pemberat dikemas kini dan disebarkan ke seluruh rangkaian semasa latihan. Oleh itu, setiap lapisan dalam rangkaian saraf yang mendalam saling berkaitan, dan output dan kecerunannya mempengaruhi satu sama lain. Ini memerlukan kami untuk mempertimbangkan dengan teliti pemilihan pemberat dan fungsi pengaktifan setiap lapisan, serta kaedah pengiraan dan penghantaran kecerunan semasa mereka bentuk dan melatih rangkaian, untuk memastikan rangkaian dapat belajar dan menyesuaikan diri dengan tugas dan data yang berbeza dengan berkesan.
Dalam rangkaian neural dalam, apabila terdapat banyak lapisan rangkaian, kecerunan sering "hilang" atau "meletup". Sebab mengapa kecerunan hilang ialah apabila derivatif fungsi pengaktifan kurang daripada 1, kecerunan akan mengecut secara beransur-ansur, menyebabkan kecerunan lapisan seterusnya menjadi lebih kecil dan akhirnya tidak dapat dikemas kini, menyebabkan rangkaian tidak dapat untuk belajar. Sebab letupan kecerunan adalah apabila derivatif fungsi pengaktifan lebih besar daripada 1, kecerunan akan meningkat secara beransur-ansur, menyebabkan kecerunan lapisan selanjutnya menjadi lebih besar, akhirnya menyebabkan berat rangkaian melimpah, dan juga menyebabkan rangkaian menjadi tidak dapat belajar.
2. Penyelesaian Rangkaian Sisa
Rangkaian sisa menyelesaikan masalah kecerunan lenyap dengan memperkenalkan blok sisa. Di antara setiap lapisan rangkaian, blok baki menambah input terus ke output, menjadikannya lebih mudah bagi rangkaian untuk mempelajari pemetaan identiti. Reka bentuk sambungan rentas lapisan ini membolehkan kecerunan merambat dengan lebih baik dan berkesan mengurangkan fenomena kehilangan kecerunan. Penyelesaian sedemikian boleh meningkatkan kecekapan latihan dan prestasi rangkaian.
Secara khusus, struktur x blok baki mewakili input, F(x) mewakili pemetaan yang diperoleh melalui pembelajaran rangkaian, dan H(x) mewakili pemetaan identiti. Keluaran blok baki ialah H(x)+F(x), iaitu input ditambah pemetaan yang dipelajari.
Kelebihan ini ialah apabila rangkaian mempelajari pemetaan identiti, F(x) ialah 0, dan output blok baki adalah sama dengan input, iaitu, H(x)+0=H( x ). Ini mengelakkan masalah kecerunan lenyap kerana walaupun kecerunan F(x) ialah 0, kecerunan H(x) masih boleh dihantar ke lapisan sebelumnya melalui sambungan rentas lapisan, sekali gus mencapai aliran kecerunan yang lebih baik.
Selain itu, rangkaian sisa juga menggunakan teknologi seperti "penormalan batch" dan "pre-activation" untuk meningkatkan lagi prestasi dan kestabilan rangkaian. Antaranya, penormalan kelompok digunakan untuk menyelesaikan masalah kehilangan kecerunan dan letupan kecerunan, manakala pra-pengaktifan boleh memperkenalkan ketaklinearan dengan lebih baik dan meningkatkan keupayaan ekspresif rangkaian.
Atas ialah kandungan terperinci Bagaimanakah rangkaian sisa dalam mengatasi masalah kecerunan yang hilang?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Ditulis sebelum ini, hari ini kita membincangkan bagaimana teknologi pembelajaran mendalam boleh meningkatkan prestasi SLAM berasaskan penglihatan (penyetempatan dan pemetaan serentak) dalam persekitaran yang kompleks. Dengan menggabungkan kaedah pengekstrakan ciri dalam dan pemadanan kedalaman, di sini kami memperkenalkan sistem SLAM visual hibrid serba boleh yang direka untuk meningkatkan penyesuaian dalam senario yang mencabar seperti keadaan cahaya malap, pencahayaan dinamik, kawasan bertekstur lemah dan seks yang teruk. Sistem kami menyokong berbilang mod, termasuk konfigurasi monokular, stereo, monokular-inersia dan stereo-inersia lanjutan. Selain itu, ia juga menganalisis cara menggabungkan SLAM visual dengan kaedah pembelajaran mendalam untuk memberi inspirasi kepada penyelidikan lain. Melalui percubaan yang meluas pada set data awam dan data sampel sendiri, kami menunjukkan keunggulan SL-SLAM dari segi ketepatan kedudukan dan keteguhan penjejakan.

Dalam gelombang perubahan teknologi yang pesat hari ini, Kecerdasan Buatan (AI), Pembelajaran Mesin (ML) dan Pembelajaran Dalam (DL) adalah seperti bintang terang, menerajui gelombang baharu teknologi maklumat. Ketiga-tiga perkataan ini sering muncul dalam pelbagai perbincangan dan aplikasi praktikal yang canggih, tetapi bagi kebanyakan peneroka yang baru dalam bidang ini, makna khusus dan hubungan dalaman mereka mungkin masih diselubungi misteri. Jadi mari kita lihat gambar ini dahulu. Dapat dilihat bahawa terdapat korelasi rapat dan hubungan progresif antara pembelajaran mendalam, pembelajaran mesin dan kecerdasan buatan. Pembelajaran mendalam ialah bidang khusus pembelajaran mesin dan pembelajaran mesin

Hampir 20 tahun telah berlalu sejak konsep pembelajaran mendalam dicadangkan pada tahun 2006. Pembelajaran mendalam, sebagai revolusi dalam bidang kecerdasan buatan, telah melahirkan banyak algoritma yang berpengaruh. Jadi, pada pendapat anda, apakah 10 algoritma teratas untuk pembelajaran mendalam? Berikut adalah algoritma teratas untuk pembelajaran mendalam pada pendapat saya Mereka semua menduduki kedudukan penting dari segi inovasi, nilai aplikasi dan pengaruh. 1. Latar belakang rangkaian saraf dalam (DNN): Rangkaian saraf dalam (DNN), juga dipanggil perceptron berbilang lapisan, adalah algoritma pembelajaran mendalam yang paling biasa Apabila ia mula-mula dicipta, ia dipersoalkan kerana kesesakan kuasa pengkomputeran tahun, kuasa pengkomputeran, Kejayaan datang dengan letupan data. DNN ialah model rangkaian saraf yang mengandungi berbilang lapisan tersembunyi. Dalam model ini, setiap lapisan menghantar input ke lapisan seterusnya dan

Model LSTM dwiarah ialah rangkaian saraf yang digunakan untuk pengelasan teks. Berikut ialah contoh mudah yang menunjukkan cara menggunakan LSTM dwiarah untuk tugasan pengelasan teks. Pertama, kita perlu mengimport perpustakaan dan modul yang diperlukan: importosimportnumpyasnpfromkeras.preprocessing.textimportTokenizerfromkeras.preprocessing.sequenceimportpad_sequencesfromkeras.modelsimportSequentialfromkeras.layersimportDense,Em

Editor |. Kulit Lobak Sejak pengeluaran AlphaFold2 yang berkuasa pada tahun 2021, saintis telah menggunakan model ramalan struktur protein untuk memetakan pelbagai struktur protein dalam sel, menemui ubat dan melukis "peta kosmik" setiap interaksi protein yang diketahui. Baru-baru ini, Google DeepMind mengeluarkan model AlphaFold3, yang boleh melakukan ramalan struktur bersama untuk kompleks termasuk protein, asid nukleik, molekul kecil, ion dan sisa yang diubah suai. Ketepatan AlphaFold3 telah dipertingkatkan dengan ketara berbanding dengan banyak alat khusus pada masa lalu (interaksi protein-ligan, interaksi asid protein-nukleik, ramalan antibodi-antigen). Ini menunjukkan bahawa dalam satu rangka kerja pembelajaran mendalam yang bersatu, adalah mungkin untuk dicapai

Gambaran Keseluruhan Untuk membolehkan pengguna ModelScope menggunakan pelbagai model yang disediakan oleh platform dengan cepat dan mudah, satu set perpustakaan Python berfungsi sepenuhnya disediakan, yang termasuk pelaksanaan model rasmi ModelScope, serta alatan yang diperlukan untuk menggunakan model ini untuk inferens. , finetune dan tugas-tugas lain yang berkaitan dengan pra-pemprosesan data, pasca-pemprosesan, penilaian kesan dan fungsi lain, sambil turut menyediakan API yang ringkas dan mudah digunakan serta contoh penggunaan yang kaya. Dengan menghubungi perpustakaan, pengguna boleh menyelesaikan tugas seperti inferens model, latihan dan penilaian dengan menulis hanya beberapa baris kod Mereka juga boleh melakukan pembangunan sekunder dengan cepat atas dasar ini untuk merealisasikan idea inovatif mereka sendiri. Model algoritma yang disediakan oleh perpustakaan pada masa ini ialah:

Rangkaian neural konvolusi berfungsi dengan baik dalam tugasan menghilangkan imej. Ia menggunakan penapis yang dipelajari untuk menapis bunyi dan dengan itu memulihkan imej asal. Artikel ini memperkenalkan secara terperinci kaedah denoising imej berdasarkan rangkaian neural convolutional. 1. Gambaran Keseluruhan Rangkaian Neural Konvolusi Rangkaian saraf konvolusi ialah algoritma pembelajaran mendalam yang menggunakan gabungan berbilang lapisan konvolusi, lapisan gabungan dan lapisan bersambung sepenuhnya untuk mempelajari dan mengelaskan ciri imej. Dalam lapisan konvolusi, ciri tempatan imej diekstrak melalui operasi konvolusi, dengan itu menangkap korelasi spatial dalam imej. Lapisan pengumpulan mengurangkan jumlah pengiraan dengan mengurangkan dimensi ciri dan mengekalkan ciri utama. Lapisan bersambung sepenuhnya bertanggungjawab untuk memetakan ciri dan label yang dipelajari untuk melaksanakan pengelasan imej atau tugas lain. Reka bentuk struktur rangkaian ini menjadikan rangkaian neural konvolusi berguna dalam pemprosesan dan pengecaman imej.

Rangkaian Neural Konvolusi (CNN) dan Transformer ialah dua model pembelajaran mendalam berbeza yang telah menunjukkan prestasi cemerlang pada tugasan yang berbeza. CNN digunakan terutamanya untuk tugas penglihatan komputer seperti klasifikasi imej, pengesanan sasaran dan pembahagian imej. Ia mengekstrak ciri tempatan pada imej melalui operasi lilitan, dan melakukan pengurangan dimensi ciri dan invarian ruang melalui operasi pengumpulan. Sebaliknya, Transformer digunakan terutamanya untuk tugas pemprosesan bahasa semula jadi (NLP) seperti terjemahan mesin, klasifikasi teks dan pengecaman pertuturan. Ia menggunakan mekanisme perhatian kendiri untuk memodelkan kebergantungan dalam jujukan, mengelakkan pengiraan berjujukan dalam rangkaian saraf berulang tradisional. Walaupun kedua-dua model ini digunakan untuk tugasan yang berbeza, ia mempunyai persamaan dalam pemodelan jujukan, jadi
