OTO ialah rangka kerja mampatan struktur dan latihan rangkaian saraf automatik, sehenti, mesra pengguna dan serba boleh yang pertama dalam industri.
Dalam era kecerdasan buatan, cara menggunakan dan menyelenggara rangkaian saraf adalah isu utama untuk pengeluaran Untuk menjimatkan kos pengkomputeran sambil meminimumkan kehilangan prestasi model sebanyak mungkin, memampatkan rangkaian saraf telah menjadi. salah satu kunci untuk menghasilkan DNN.
Mampatan DNN secara amnya mempunyai tiga kaedah, pemangkasan, penyulingan pengetahuan dan kuantisasi. Pemangkasan bertujuan untuk mengenal pasti dan membuang struktur berlebihan, melangsingkan DNN sambil mengekalkan prestasi model sebanyak mungkin, dan merupakan kaedah pemampatan yang paling serba boleh dan berkesan. Secara umumnya, ketiga-tiga kaedah boleh saling melengkapi dan bekerjasama untuk mencapai kesan mampatan terbaik.
Walau bagaimanapun, kebanyakan kaedah pemangkasan sedia ada hanya disasarkan pada model tertentu dan tugas khusus, dan memerlukan pengetahuan domain profesional yang kukuh, jadi ia biasanya memerlukan pembangun AI untuk berbelanja banyak Penggunaan kaedah ini pada senario anda sendiri memerlukan banyak tenaga kerja dan sumber material.
Untuk menyelesaikan masalah kaedah pemangkasan sedia ada dan memberikan kemudahan kepada pembangun AI, pasukan Microsoft mencadangkan rangka kerja OTO Only-Train-Once. OTO ialah rangka kerja latihan rangkaian saraf dan pemampatan struktur automatik, sehenti, mesra pengguna dan universal yang pertama dalam industri Satu siri kerja telah diterbitkan dalam ICLR2023 dan NeurIPS2021.
Dengan menggunakan OTO, jurutera AI boleh melatih rangkaian saraf sasaran dengan mudah dan memperoleh model berprestasi tinggi dan ringan dalam satu perhentian. OTO meminimumkan pelaburan pemaju dalam masa dan usaha kejuruteraan, dan tidak memerlukan pra-latihan yang memakan masa dan penalaan halus model tambahan yang biasanya diperlukan oleh kaedah sedia ada.
Disebabkan oleh kerumitan dan korelasi struktur rangkaian, pemadaman mana-mana struktur rangkaian boleh mengakibatkan baki Struktur rangkaian tidak sah. Oleh itu, salah satu masalah terbesar dalam pemampatan struktur rangkaian automatik ialah bagaimana untuk mencari parameter model yang mesti dipangkas bersama supaya rangkaian yang tinggal masih sah. Untuk menyelesaikan masalah ini, pasukan Microsoft mencadangkan Zero-Invariant Groups (ZIGs) dalam OTOv1. Kumpulan sifar-invarian boleh difahami sebagai jenis unit boleh alih terkecil, supaya rangkaian yang tinggal masih sah selepas struktur rangkaian kumpulan yang sepadan dialih keluar. Satu lagi sifat hebat kumpulan sifar-invarian ialah jika kumpulan sifar-invarian adalah sama dengan sifar, maka tidak kira apa nilai input, nilai output sentiasa sifar. Dalam OTOv2, para penyelidik seterusnya mencadangkan dan melaksanakan satu set algoritma automatik untuk menyelesaikan masalah pengelompokan kumpulan sifar-invarian dalam rangkaian umum. Algoritma pengelompokan automatik ialah gabungan yang direka dengan teliti bagi siri algoritma graf Keseluruhan algoritma adalah sangat cekap dan mempunyai kerumitan masa dan ruang linear.
Dual Half Plane Projected Gradient Optimization Algorithm (DHSPG)Selepas membahagikan semua kumpulan sifar-invarian rangkaian sasaran, maka Latihan model berikut dan tugas pemangkasan perlu mengetahui kumpulan sifar-invarian yang berlebihan dan yang mana yang penting. Struktur rangkaian yang sepadan dengan kumpulan sifar-invarian berlebihan perlu dipadamkan, dan kumpulan sifar-invarian yang penting perlu dikekalkan untuk memastikan prestasi model mampatan. Para penyelidik merumuskan masalah ini sebagai masalah sparsifikasi struktur dan mencadangkan algoritma pengoptimuman Dual Half-Space Projected Gradient (DHSPG) baharu untuk menyelesaikannya.
DHSPG boleh mencari kumpulan invarian sifar yang berlebihan dan mengunjurkannya kepada sifar, dan terus melatih kumpulan sifar-invarian yang penting untuk mencapai prestasi yang setanding dengan model asal.
Berbanding dengan algoritma pengoptimuman jarang tradisional, DHSPG mempunyai keupayaan penerokaan struktur jarang yang lebih kukuh dan stabil, dan mengembangkan ruang carian latihan dan oleh itu biasanya mencapai hasil prestasi sebenar yang lebih tinggi.
Membina model mampatan ringan secara automatik
Dengan menggunakan DHSPG untuk melatih model, kami akan mendapat model A invarian sifar penyelesaian dengan kesederhanaan struktur kumpulan yang tinggi, iaitu penyelesaian dengan banyak kumpulan invarian sifar yang diunjurkan kepada sifar, juga akan mempunyai prestasi model yang tinggi. Seterusnya, penyelidik memadamkan semua struktur yang sepadan dengan kumpulan invarian sifar berlebihan untuk membina rangkaian mampatan secara automatik. Disebabkan oleh ciri-ciri kumpulan sifar-invarian, iaitu, jika kumpulan sifar-invarian adalah sama dengan sifar, maka tidak kira apa nilai input, nilai output akan sentiasa sifar, jadi memadam kumpulan sifar-invarian berlebihan tidak akan mempunyai sebarang kesan ke atas rangkaian. Oleh itu, rangkaian termampat yang diperoleh melalui OTO akan mempunyai output yang sama seperti rangkaian penuh, tanpa memerlukan penalaan halus model lanjut yang diperlukan oleh kaedah tradisional.
Tugas pengelasan
Jadual 1: VGG16 dan VGG16- dalam CIFAR10 BN prestasi model
Dalam percubaan VGG16 CIFAR10, OTO mengurangkan nombor titik terapung sebanyak 86.6% dan bilangan parameter sebanyak 97.5%, dan prestasinya mengagumkan.
Jadual 2: Percubaan ResNet50 CIFAR10
Dalam percubaan ResNet50 CIFAR10, OTO mengatasi prestasi tanpa pengkuantitian Pemampatan rangkaian saraf SOTA rangka kerja AMC dan ANNC hanya menggunakan 7.8% daripada FLOP dan 4.1% daripada parameter.
Jadual 3. Percubaan ResNet50 ImageNet
Dalam percubaan ResNet50 ImageNet, OTOv2 di bawah sasaran sparsifikasi struktur yang berbeza, Ia menunjukkan prestasi yang setanding atau lebih baik daripada kaedah SOTA sedia ada.
Jadual 4: Lebih banyak struktur dan set data
OTO juga telah mencapai lebih banyak set data dan struktur model Bukan prestasi yang buruk.
Tugas Penglihatan Peringkat Rendah
Jadual 4: Eksperimen CARNx2
Dalam tugas resolusi super, latihan sehenti OTO memampatkan rangkaian CARNx2, mencapai prestasi kompetitif dengan model asal dan memampatkan jumlah pengiraan dan saiz model lebih daripada 75%.
Tugas model bahasa
Selain itu, penyelidik juga menjalankan salah satu algoritma teras, algoritma pengoptimuman DHSPG, pada Bert . Percubaan perbandingan mengesahkan prestasi tingginya berbanding dengan algoritma pengoptimuman jarang yang lain. Ia boleh didapati bahawa pada Skuad, pengurangan parameter dan prestasi model yang diperoleh dengan menggunakan DHSPG untuk latihan adalah jauh lebih baik daripada algoritma pengoptimuman jarang yang lain.
Pasukan Microsoft mencadangkan rangka kerja pemangkasan struktur latihan rangkaian saraf sehenti automatik yang dipanggil OTO (Only-Train-Once). Ia secara automatik boleh memampatkan rangkaian saraf yang lengkap ke dalam rangkaian ringan sambil mengekalkan prestasi tinggi. OTO sangat memudahkan proses pelbagai peringkat kompleks kaedah pemangkasan struktur sedia ada, sesuai untuk pelbagai seni bina rangkaian dan aplikasi, dan meminimumkan pelaburan kejuruteraan tambahan pengguna. Ia serba boleh, berkesan dan mudah digunakan.
Atas ialah kandungan terperinci Microsoft mencadangkan OTO, rangka kerja pemangkasan latihan rangkaian saraf automatik, untuk mendapatkan model ringan berprestasi tinggi dalam sehenti. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!