Data bising ialah salah satu masalah biasa dalam pembelajaran mesin, dan pengekod auto ialah kaedah yang berkesan untuk menyelesaikan masalah sedemikian. Artikel ini akan memperkenalkan struktur dan kaedah latihan yang betul bagi pengekod auto.
Pengekod auto ialah rangkaian saraf tiruan pembelajaran tanpa pengawasan yang digunakan untuk mempelajari pengekodan data. Matlamatnya adalah untuk menangkap ciri utama imej input dengan melatih rangkaian dan menukarnya menjadi perwakilan dimensi rendah, yang sering digunakan untuk pemprosesan pengurangan dimensi.
Pengekod Auto terdiri daripada 3 bahagian:
1: Modul yang memampatkan data input set ujian-latihan yang biasanya lebih besar daripada set input enco. data Beberapa susunan magnitud lebih kecil.
2. Bottleneck: Modul yang mengandungi perwakilan pengetahuan termampat dan oleh itu merupakan bahagian paling penting dalam rangkaian.
3. Penyahkod: Modul yang membantu rangkaian "menyahmampat" perwakilan pengetahuan dan membina semula data daripada bentuk yang dikodkan. Keluaran kemudiannya dibandingkan dengan kebenaran asas.
Keseluruhan seni bina kelihatan seperti ini, seperti yang ditunjukkan di bawah:
Pengekod
Diikuti oleh blok pengekodan yang mana adalah satu set blok pengekodan memampatkan input model ke dalam bahagian padat yang dipanggil bottleneck.
Selepas kesesakan ialah penyahkod, yang terdiri daripada satu siri modul pensampelan untuk memulihkan ciri mampat kepada bentuk imej. Dalam kes pengekod automatik yang mudah, output dijangka sama dengan input yang dikurangkan hingar.
Namun, untuk pengekod auto variasi, ia adalah imej baharu yang terbentuk daripada maklumat yang diberikan oleh model sebagai input.
Bottleneck
Sebagai bahagian paling penting dalam rangkaian saraf, ia mengehadkan aliran maklumat daripada pengekod kepada penyahkod, membenarkan hanya maklumat yang paling penting dihantar.
Memandangkan bottleneck direka untuk menangkap maklumat ciri yang dimiliki oleh imej, kita boleh mengatakan bahawa bottleneck membantu membentuk perwakilan pengetahuan input. Struktur pengekod-penyahkod membantu kami mengekstrak lebih banyak maklumat daripada imej dalam bentuk data dan mewujudkan korelasi berguna antara pelbagai input dalam rangkaian.
Kesempitan perwakilan termampat sebagai input menghalang rangkaian saraf daripada menghafal input dan melebihkan data. Lebih kecil kesesakan, lebih rendah risiko overfitting. Tetapi kesesakan yang sangat kecil mengehadkan jumlah maklumat yang boleh disimpan, yang meningkatkan peluang maklumat penting bocor daripada lapisan pengumpulan pengekod.
Penyahkod
Akhir sekali, penyahkod ialah satu set pensampelan dan blok konvolusi yang digunakan untuk membina semula keluaran kesesakan.
Memandangkan input kepada penyahkod ialah perwakilan pengetahuan termampat, penyahkod bertindak sebagai "penyahmampat" dan membina semula imej daripada sifat terpendamnya.
Setelah memahami keputusan dan hubungan pengekod auto, mari lihat cara melatih pengekod auto dengan betul.
Terdapat 4 hiperparameter yang perlu ditetapkan sebelum melatih pengekod auto:
1. Saiz kod
Saiz kod atau saiz bottleneck adalah hiperparameter yang paling penting untuk menala parameter auto. Saiz kesesakan menentukan jumlah data yang mesti dimampatkan. Ini juga boleh digunakan sebagai istilah regularisasi.
2. Bilangan lapisan
Seperti semua rangkaian saraf, hiperparameter penting untuk penalaan pengekod auto ialah kedalaman pengekod dan penyahkod. Walaupun kedalaman yang lebih tinggi meningkatkan kerumitan model, kedalaman yang lebih rendah memproses lebih cepat.
3. Bilangan nod setiap lapisan
Bilangan nod setiap lapisan mentakrifkan pemberat yang kami gunakan untuk setiap lapisan. Biasanya, bilangan nod berkurangan dengan setiap lapisan berikutnya dalam pengekod auto kerana input kepada setiap lapisan ini menjadi lebih kecil merentas lapisan.
4. Kehilangan pembinaan semula
Fungsi kehilangan yang kami gunakan untuk melatih pengekod automatik sangat bergantung pada jenis input dan output yang kami mahu pengekod auto menyesuaikan diri. Jika kita berurusan dengan data imej, fungsi kehilangan pembinaan semula yang paling popular ialah fungsi kehilangan MSE dan fungsi kehilangan L1. Kita juga boleh menggunakan entropi silang binari sebagai kerugian pembinaan semula jika input dan output berada dalam julat [0,1], seperti dalam dataset MNIST.
Atas ialah kandungan terperinci Memahami kaedah latihan pengekod auto: bermula dengan penerokaan seni bina. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!