Model pembelajaran mendalam untuk tugas visual (seperti klasifikasi imej) biasanya dilatih hujung-ke-hujung dengan data daripada domain visual tunggal (seperti imej semula jadi atau imej yang dijana komputer).
Secara amnya, aplikasi yang melengkapkan tugasan visual untuk berbilang medan perlu membina berbilang model untuk setiap medan berasingan dan melatihnya secara bebas, tanpa berkongsi data antara medan berbeza , pada masa inferens, setiap satu model akan memproses data input khusus domain.
Walaupun ia berorientasikan kepada bidang yang berbeza, beberapa ciri lapisan awal antara model ini adalah serupa, jadi latihan bersama model ini adalah lebih cekap. Ini mengurangkan kependaman dan penggunaan kuasa, dan mengurangkan kos memori untuk menyimpan setiap parameter model Pendekatan ini dipanggil pembelajaran berbilang domain (MDL).
Selain itu, model MDL juga boleh menjadi lebih baik daripada model domain tunggal Latihan tambahan dalam satu domain boleh meningkatkan prestasi model dalam domain lain. Ini dipanggil "pengetahuan hadapan". Pemindahan", tetapi mungkin juga menghasilkan pemindahan pengetahuan negatif, bergantung pada kaedah latihan dan gabungan domain tertentu. Walaupun kerja terdahulu mengenai MDL telah menunjukkan keberkesanan tugas pembelajaran bersama merentas domain, ia melibatkan seni bina model buatan tangan yang tidak cekap apabila digunakan pada kerja lain.
Pautan kertas: https://arxiv.org/pdf/2010.04904.pdf
Untuk menyelesaikan masalah ini, dalam artikel "Rangkaian Neural Berbilang Laluan untuk Klasifikasi Visual Berbilang Domain Pada Peranti", penyelidik Google mencadangkan model MDL umum.
Artikel itu menyatakan bahawa model boleh mencapai ketepatan tinggi secara berkesan, mengurangkan pemindahan pengetahuan negatif, dan belajar untuk meningkatkan pemindahan pengetahuan yang positif, dalam menangani kesukaran dalam pelbagai bidang tertentu model boleh dioptimumkan dengan berkesan.
Untuk tujuan ini, penyelidik mencadangkan kaedah carian seni bina saraf berbilang laluan (MPNAS) untuk membina berbilang- domain Model bersatu dengan seni bina rangkaian heterogen.
Kaedah ini memanjangkan kaedah carian seni bina saraf (NAS) yang cekap daripada carian satu laluan kepada carian berbilang laluan untuk bersama-sama mencari laluan optimum bagi setiap medan. Fungsi kehilangan baharu turut diperkenalkan, dipanggil Pengutamaan Domain Seimbang Adaptif (ABDP), yang menyesuaikan diri dengan kesukaran khusus domain untuk membantu melatih model dengan cekap. Kaedah MPNAS yang terhasil adalah cekap dan berskala.
Sambil mengekalkan prestasi, model baharu ini mengurangkan saiz model dan FLOPS masing-masing sebanyak 78% dan 32% berbanding kaedah domain tunggal.
Untuk menggalakkan pemindahan pengetahuan positif dan mengelakkan pemindahan negatif, penyelesaian tradisional adalah untuk mewujudkan model MDL supaya semua domain boleh kongsikannya Kebanyakan lapisan mempelajari ciri yang dikongsi setiap domain (dipanggil pengekstrakan ciri), dan kemudian membina beberapa lapisan khusus domain di atas. Walau bagaimanapun, kaedah pengekstrakan ciri ini tidak dapat mengendalikan domain dengan ciri yang berbeza secara ketara (seperti objek dalam imej semula jadi dan lukisan artistik). Sebaliknya, membina struktur heterogen bersatu untuk setiap model MDL memakan masa dan memerlukan pengetahuan khusus domain.
Rangka kerja seni bina carian saraf berbilang laluan NAS ialah paradigma yang berkuasa untuk mereka bentuk pembelajaran mendalam secara automatik seni bina. Ia mentakrifkan ruang carian yang terdiri daripada pelbagai blok binaan berpotensi yang mungkin menjadi sebahagian daripada model akhir.
Algoritma carian mencari seni bina calon terbaik daripada ruang carian untuk mengoptimumkan matlamat model, seperti ketepatan pengelasan. Kaedah NAS terkini seperti TuNAS meningkatkan kecekapan carian dengan menggunakan pensampelan laluan hujung ke hujung.
Diinspirasikan oleh TuNAS, MPNAS mewujudkan seni bina model MDL dalam dua peringkat: pencarian dan latihan.
Dalam fasa carian, untuk bersama-sama mencari laluan optimum untuk setiap domain, MPNAS mencipta pengawal pembelajaran tetulang (RL) berasingan untuk setiap domain, yang diperoleh daripada rangkaian super (iaitu ditakrifkan oleh carian ruang Contoh laluan hujung ke hujung (dari lapisan input ke lapisan keluaran) daripada superset semua subrangkaian yang mungkin antara nod calon).
Melalui berbilang lelaran, semua pengawal RL mengemas kini laluan untuk mengoptimumkan ganjaran RL dalam semua kawasan. Pada akhir fasa carian, kami memperoleh subrangkaian untuk setiap domain. Akhir sekali, semua sub-rangkaian digabungkan untuk mencipta struktur heterogen untuk model MDL, seperti yang ditunjukkan dalam rajah di bawah.
Memandangkan subrangkaian setiap domain dicari secara berasingan, setiap lapisan Komponen boleh dikongsi oleh berbilang domain (iaitu nod kelabu gelap), digunakan oleh satu domain (iaitu nod kelabu muda), atau tidak digunakan oleh mana-mana subrangkaian (iaitu nod titik).
Laluan setiap domain juga boleh melangkau mana-mana lapisan semasa proses carian. Rangkaian keluaran adalah heterogen dan cekap, memandangkan subrangkaian bebas untuk memilih blok mana yang hendak digunakan sepanjang perjalanan dengan cara yang mengoptimumkan prestasi.
Rajah berikut menunjukkan seni bina carian dua medan Visual Domain Decathlon.
Dekatlon Domain Visual telah diuji sebagai sebahagian daripada Cabaran Bengkel Perincian PASCAL di CVPR 2017 Keupayaan algoritma pengecaman visual untuk memproses (atau mengeksploitasi) banyak domain visual yang berbeza. Seperti yang dapat dilihat, subrangkaian dua domain yang sangat berkaitan ini (satu merah, satu lagi hijau) berkongsi sebahagian besar blok binaan daripada laluan bertindih mereka, tetapi masih terdapat perbezaan di antara mereka.
Laluan merah dan hijau dalam rajah masing-masing mewakili subrangkaian ImageNet dan Tekstur Boleh Diterangkan, dan nod merah jambu gelap mewakili blok yang dikongsi oleh berbilang domain , nod merah jambu muda mewakili blok yang digunakan oleh setiap laluan. Blok "dwb" dalam rajah mewakili blok dwbottleneck. Blok Sifar dalam rajah menunjukkan bahawa subnet melangkau blok Rajah di bawah menunjukkan persamaan laluan dalam dua kawasan yang disebutkan di atas. Persamaan diukur dengan skor persamaan Jaccard antara subnet untuk setiap domain, di mana lebih tinggi bermakna lebih banyak laluan serupa.
Gambar menunjukkan matriks kekeliruan skor persamaan Jaccard antara laluan dalam sepuluh domain. Markah berjulat dari 0 hingga 1. Lebih besar skor, lebih banyak nod yang dikongsi oleh dua laluan.
Dalam fasa kedua, model yang dihasilkan oleh MPNAS akan dilatih dari awal untuk semua domain. Untuk melakukan ini, adalah perlu untuk menentukan fungsi objektif bersatu untuk semua domain. Untuk berjaya mengendalikan pelbagai jenis domain, penyelidik mereka bentuk algoritma yang melaraskan sepanjang proses pembelajaran untuk mengimbangi kerugian merentas domain, yang dipanggil Adaptive Balanced Domain Prioritization (ABDP). Di bawah menunjukkan ketepatan, saiz model dan FLOPS model yang dilatih di bawah tetapan berbeza. Kami membandingkan MPNAS dengan tiga kaedah lain:
NAS bebas domain: model dicari dan dilatih secara berasingan untuk setiap domain.
Multi-Kepala Laluan Tunggal: Menggunakan model pra-latihan sebagai tulang belakang kongsi untuk semua domain, dengan kepala pengelasan berasingan untuk setiap domain.
NAS berbilang kepala: Cari seni bina tulang belakang bersatu untuk semua domain, dengan kepala pengelasan berasingan untuk setiap domain.
Daripada keputusan, kita dapat melihat bahawa NAS memerlukan membina satu set model untuk setiap domain, menghasilkan model yang besar. Walaupun NAS berbilang kepala dan berbilang kepala laluan tunggal boleh mengurangkan saiz model dan FLOPS dengan ketara, memaksa domain untuk berkongsi tulang belakang yang sama memperkenalkan pemindahan pengetahuan negatif, sekali gus mengurangkan ketepatan keseluruhan.
Sebaliknya, MPNAS boleh membina model yang kecil dan cekap sambil mengekalkan ketepatan keseluruhan yang tinggi. Purata ketepatan MPNAS malah 1.9% lebih tinggi daripada kaedah NAS bebas domain kerana model tersebut mampu mencapai pemindahan pengetahuan aktif. Rajah di bawah membandingkan ketepatan 1 teratas bagi setiap domain kaedah ini.
Penilaian menunjukkan bahawa dengan menggunakan ABDP sebagai sebahagian daripada fasa carian dan latihan, teratas- 1 Kadar ketepatan meningkat daripada 69.96% kepada 71.78% (kenaikan: +1.81%).
MPNAS akan membina rangkaian heterogen untuk menyelesaikan ketidakseimbangan data, kepelbagaian domain, migrasi negatif, ketersediaan domain strategi perkongsian parameter yang mungkin dalam penyelesaian Cekap MDL untuk kebolehskalaan dan ruang carian yang besar. Dengan menggunakan ruang carian seperti MobileNet, model yang dihasilkan juga mesra mudah alih. Untuk tugasan yang tidak serasi dengan algoritma carian sedia ada, penyelidik terus memperluaskan MPNAS untuk pembelajaran berbilang tugas dan berharap dapat menggunakan MPNAS untuk membina model berbilang domain bersatu.
Atas ialah kandungan terperinci Berbilang laluan, berbilang domain, merangkumi semua! Google AI mengeluarkan model am pembelajaran berbilang domain MDL. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!