Pengoptimum ialah algoritma pengoptimuman dan memainkan peranan penting dalam latihan rangkaian saraf. Dalam beberapa tahun kebelakangan ini, penyelidik telah memperkenalkan sejumlah besar pengoptimum manual, kebanyakannya adalah pengoptimum penyesuaian. Pengoptimum Adam dan Adafactor masih menduduki aliran utama rangkaian neural latihan, terutamanya dalam bidang bahasa, penglihatan dan pelbagai mod.
Selain memperkenalkan pengoptimum secara manual, hala tuju lain ialah program menemui algoritma pengoptimuman secara automatik. Seseorang sebelum ini telah mencadangkan L2O (belajar untuk mengoptimumkan), yang menemui pengoptimum dengan melatih rangkaian saraf. Walau bagaimanapun, pengoptimum kotak hitam ini biasanya dilatih dalam bilangan tugas kecil yang terhad dan menghadapi kesukaran untuk membuat generalisasi kepada model besar.
Orang lain telah mencuba pendekatan lain, menggunakan pembelajaran pengukuhan atau pensampelan Monte Carlo untuk menemui pengoptimum baharu. Walau bagaimanapun, untuk memudahkan carian, kaedah ini biasanya menyekat ruang carian dan dengan itu mengehadkan kemungkinan menemui pengoptimum lain. Oleh itu, kaedah semasa masih belum mencapai tahap SOTA.
Dalam beberapa tahun kebelakangan ini, patut disebut AutoML-Zero, yang cuba mencari setiap komponen saluran pembelajaran mesin semasa menilai tugasan, yang sangat berguna untuk penemuan pengoptimum.
Dalam artikel ini, Penyelidik dari Google dan UCLA mencadangkan kaedah untuk menemui algoritma pengoptimuman untuk latihan rangkaian saraf dalam melalui carian program, dan kemudian menemui Lion(Evo Lved Sign Mosayantum) pengoptimum. Mencapai matlamat ini menghadapi dua cabaran: pertama, mencari algoritma berkualiti tinggi dalam ruang program yang sangat jarang, dan kedua, memilih algoritma yang boleh membuat generalisasi daripada tugas kecil kepada tugas SOTA yang lebih besar. Untuk menangani cabaran ini, penyelidikan menggunakan pelbagai teknik, termasuk carian evolusi dengan permulaan panas dan dimulakan semula, pelaksanaan abstrak, pemilihan corong dan pemudahan program.
Berbanding dengan AdamW dan pelbagai pengoptimum penyesuaian (yang perlu menyimpan kedua-dua detik tertib pertama dan kedua), Lion hanya memerlukan momentum dan menggunakan operasi simbolik untuk mengira kemas kini, dan mengurangkan separuh jejak memori tambahan. Ini berguna apabila melatih model besar atau kumpulan besar. Sebagai contoh, AdamW memerlukan sekurang-kurangnya 16 TPU V4 untuk melatih ViT-B/16 dengan saiz imej 224 dan saiz kelompok 4096, manakala Lion hanya memerlukan 8. Satu lagi faedah praktikal ialah kerana kesederhanaannya, Lion mempunyai masa jalan yang lebih pantas (langkah/saat) dalam eksperimen, biasanya 2-15% lebih pantas daripada AdamW dan Adafactor, bergantung pada tugas, pangkalan kod dan perkakasan.
Xiangning Chen, pengarang pertama kertas kerja, berkata: Carian program simbolik kami menemui pengoptimum berkesan yang hanya menjejaki momentum - Lion. Berbanding dengan Adam, ia mencapai 88.3% sampel sifar dan 91.1% ketepatan ImageNet yang diperhalusi, serta latihan sehingga 5x (berbanding ViT), 2.3x (berbanding model resapan) dan 2x (berbanding LM). kecekapan.
Lion berprestasi baik pada pelbagai model (Transformer, MLP, ResNet, U-Net dan Hibrid) dan tugasan (klasifikasi imej, visual- pembelajaran kontrastif linguistik, resapan, pemodelan bahasa dan penalaan halus). Perlu diingat bahawa dengan menggantikan Adafactor dengan Lion dalam BASIC, kajian ini mencapai 88.3% sifar pukulan dan 91.1% ketepatan penalaan halus pada ImageNet (Pham et al., 2021), melebihi keputusan SOTA sebelumnya masing-masing sebanyak 2% dan 0.1 .
Selain itu, Lion mengurangkan pengiraan pra-latihan pada JFT sehingga 5 kali, meningkatkan kecekapan latihan model resapan sebanyak 2.3 kali, dan mencapai skor FID yang lebih baik, Ia juga menyediakan prestasi yang serupa atau lebih baik dalam pemodelan bahasa, menjimatkan sehingga 2 kali ganda usaha pengiraan.
Ruh pengguna Twitter berkata: Dia menggunakan pengoptimum Lion Google untuk melatih model GPT2 parameter 124M dan mendapati bahawa bilangan langkah yang diperlukan untuk mencapai kerugian yang sama seperti Adam telah dikurangkan sebanyak 37.5%.
Sumber imej: https://twitter.com/aicrumb/status/1626053855329898496
Kertas ini menggunakan perwakilan simbolik dalam bentuk atur cara mempunyai kelebihan berikut: (1) Ia menepati hakikat bahawa algoritma mesti dilaksanakan sebagai fakta program; (2) berbanding model parametrik seperti rangkaian saraf, perwakilan simbolik seperti program lebih mudah untuk dianalisis, difahami, dan dipindahkan ke tugasan baru boleh digunakan untuk menganggarkan kerumitan program yang berbeza, menjadikannya lebih mudah untuk memilih prosedur yang lebih Mudah, selalunya lebih serba boleh. Kerja ini memfokuskan pada pengoptimum untuk latihan rangkaian saraf dalam, tetapi pendekatan ini biasanya digunakan untuk tugas lain .
Dalam rajah di bawah, Program 2 Coretan kod yang dipermudahkan ini menggunakan tandatangan yang sama seperti AdamW untuk memastikan bahawa algoritma yang ditemui mempunyai jejak memori yang lebih kecil atau sama Program 3 diberikan Contoh perwakilan AdamW.
Penyelidikan ini menggunakan teknik berikut untuk menangani cabaran yang ditimbulkan oleh ruang carian yang tidak terhingga dan jarang. Pertama, regularisasi digunakan kerana ia mudah, berskala dan berjaya dalam banyak tugas carian AutoML, kedua, ia adalah untuk memudahkan redundansi dalam ruang program akhirnya, untuk mengurangkan kos carian, kajian ini mengurangkan saiz model dan bilangannya; contoh latihan mengikut dan menjauhi tugas sasaran untuk mengurangkan kos.
Kiri: Cara dan ralat standard lima eksperimen carian evolusi ditunjukkan. Kanan: Kedua-dua peratusan penyata berlebihan dan kadar hit cache meningkat apabila carian berjalan.
Penyelidik menyatakan bahawa pengoptimum Lion mempunyai kesederhanaan, kecekapan memori yang tinggi dan prestasi yang berkuasa dalam carian dan pengesahan meta .
Terbitan
Proses pencarian dan pemilihan corong membawa kepada Program 4, yang diperoleh daripada asal Program 8 (Lampiran ) diperoleh dengan memadam secara automatik penyata berlebihan. Pengkaji selanjutnya memudahkan dan memperoleh algoritma akhir (Lion) dalam Program 1. Beberapa elemen yang tidak perlu telah dialih keluar daripada Program 4 semasa proses pemudahan. di mana fungsi cosh dialih keluar kerana m akan diperuntukkan semula dalam lelaran seterusnya (baris 3). Kenyataan menggunakan arcsin dan klip juga telah dikeluarkan, kerana para penyelidik mendapati tiada kehilangan kualiti tanpanya. Tiga penyataan merah ditukar kepada fungsi simbolik.
Walaupun m dan v digunakan bersama dalam Program 4, v hanya mengubah cara momentum dikemas kini (dua fungsi interpolasi dengan pemalar ∼0.9 dan ∼1.1 adalah bersamaan dengan satu dengan ∼ 0.99 fungsi) dan tidak perlu dijejaki secara berasingan. Ambil perhatian bahawa pembetulan berat sebelah tidak lagi diperlukan kerana ia tidak mengubah arah.
Algoritma 2 di bawah menunjukkan kod pseudo.
Analisis
Kemas kini dan penyelarasan tandatangan. Algoritma Lion menghasilkan kemas kini dengan magnitud seragam dalam semua dimensi melalui operasi simbolik, yang berbeza pada prinsipnya daripada pelbagai pengoptimum penyesuaian. Secara intuitif, operasi simbolik menambah hingar pada kemas kini, bertindak sebagai satu bentuk penyelarasan dan membantu generalisasi. Rajah 11 di bawah (kanan) menunjukkan satu bukti.
Penjejakan momentum. Faktor EMA lalai untuk menjejak momentum dalam Lion ialah 0.99 (β_2) berbanding 0.9 yang biasa digunakan dalam AdamW dan momentum SGD. Pilihan faktor EMA dan interpolasi ini membolehkan Lion mencapai keseimbangan antara mengingat 10 kali sejarah kecerunan momentum dan meletakkan lebih berat pada kecerunan semasa dalam kemas kini.
Hiperparameter dan pemilihan saiz kelompok. Berbanding dengan AdamW dan Adafactor, Lion adalah lebih mudah dan mempunyai lebih sedikit hiperparameter kerana ia tidak memerlukan ϵ dan parameter berkaitan pemfaktoran. Singa memerlukan kadar pembelajaran yang lebih kecil, dan dengan itu pereputan berat terurai yang lebih besar, untuk mencapai kekuatan pereputan berat berkesan yang serupa (lr * λ).
Memori dan kelebihan masa jalan. Lion hanya menjimatkan momentum dan mempunyai jejak memori yang lebih kecil daripada pengoptimum penyesuaian popular seperti AdamW, yang berguna apabila melatih model besar dan/atau bekerja dengan saiz kelompok besar. Sebagai contoh, AdamW memerlukan sekurang-kurangnya 16 cip TPU V4 untuk melatih ViT-B/16 dengan resolusi imej 224 dan saiz kelompok 4,096, manakala Lion hanya memerlukan 8 (kedua-duanya dengan momentum bfloat16).
Dalam bahagian eksperimen, penyelidik menilai Lion pada pelbagai penanda aras, terutamanya membandingkannya dengan AdamW yang popular (atau apabila memori menjadi Adafactor pada kesesakan ) untuk perbandingan.
Klasifikasi Imej
Penyelidik melakukan eksperimen yang meliputi pelbagai set data dan seni bina pada tugas pengelasan imej . Sebagai tambahan kepada latihan dari awal pada ImageNet, mereka juga melakukan pra-latihan pada dua set data matang yang lebih besar, ImageNet-21K dan JFT. Saiz imej lalai kepada 224.
Kereta api pertama dari awal di ImageNet. Para penyelidik melatih ResNet-50 untuk 90 zaman dengan saiz kelompok 1,024, dan model lain untuk 300 zaman dengan saiz kelompok 4,096. Seperti yang ditunjukkan dalam Jadual 2 di bawah, Lion dengan ketara mengatasi AdamW dalam pelbagai seni bina.
Kedua, pralatih pada ImageNet-21K. Para penyelidik telah melatih ViT-B/16 dan ViT-L/16 pada ImageNet-21K selama 90 zaman dengan saiz kelompok 4,096. Jadual 2 di bawah menunjukkan bahawa Lion masih mengatasi AdamW walaupun set latihan dibesarkan 10 kali ganda.
Akhirnya pra-latihan di JFT. Untuk menolak had, penyelidik menjalankan sejumlah besar eksperimen pada JFT. Rajah 4 di bawah menunjukkan ketepatan tiga model ViT (ViT-B/16, ViT-L/16 dan ViT-H/14) di bawah belanjawan pra-latihan yang berbeza pada JFT-300M. Lion membolehkan ViT-L/16 menyamai prestasi ViT-H/14 AdamW yang dilatih pada ImageNet dan ImageNet V2, tetapi pada kos pra-latihan 3x lebih rendah.
Jadual 3 di bawah menunjukkan hasil penalaan halus, dengan resolusi yang lebih tinggi dan purata Polyak . ViT-L/16 yang digunakan oleh penyelidik sepadan dengan keputusan ViT-H/14 yang sebelum ini dilatih oleh AdamW, sambil mempunyai 2x lebih sedikit parameter. Selepas melanjutkan set data pra-latihan kepada JFT-3B, ViT-g/14 yang dilatih Lion mengatasi hasil ViT-G/14 sebelumnya dengan 1.8x parameter yang lebih sedikit.
Pembelajaran kontrastif bahasa visual
Bahagian ini memfokuskan pada latihan kontrastif bahasa visual gaya CLIP. Daripada mempelajari semua parameter dari awal, para penyelidik memulakan pengekod imej menggunakan model pra-latihan yang berkuasa.
Untuk Penalaan Teks Imej Berkunci (LiT), para penyelidik membandingkan Lion dan AdamW pada LiT dengan melatih pengekod teks secara perbandingan menggunakan ViT pra-latihan beku yang sama. Jadual 4 di bawah menunjukkan keputusan klasifikasi imej tangkapan sifar pada 3 skala model, dengan Lion menunjukkan peningkatan berterusan ke atas AdamW.
Rajah 5 (kiri) di bawah menunjukkan contoh keluk pembelajaran sifar pukulan LiT-B/16-B, dan Keputusan yang sama diperoleh pada dua set data yang lain.
Model Penyebaran
Baru-baru ini, model resapan telah mencapai kejayaan besar dalam penjanaan imej. Memandangkan potensinya yang besar, kami menguji prestasi Lion dalam sintesis imej tanpa syarat dan penjanaan teks ke imej berbilang mod.
Untuk sintesis imej pada ImageNet, penyelidik menggunakan seni bina U-Net yang dipertingkatkan yang diperkenalkan dalam makalah 2021 "Model resapan mengalahkan gans pada sintesis imej" untuk melaksanakan 64×64 pada ImageNet , 128 ×128 dan 256×256 penjanaan imej. Seperti yang ditunjukkan dalam Rajah 5 di atas (tengah dan kanan), Lion boleh mencapai kualiti yang lebih baik dan penumpuan yang lebih cepat pada skor FID.
Untuk penjanaan teks-ke-imej, Rajah 6 di bawah menunjukkan keluk pembelajaran. Walaupun tiada peningkatan ketara pada model asas 64 × 64, Lion mengatasi AdamW pada model resolusi super bersyarat teks. Lion mencapai skor CLIP yang lebih tinggi dan mempunyai metrik FID bising yang lebih kecil berbanding dengan AdamW.
Pemodelan bahasa dan penalaan halus
Bahagian ini memfokuskan pada pemodelan bahasa dan penalaan halus. Mengenai tugas bahasa tulen, penyelidik mendapati bahawa pelarasan β_1 dan β_2 boleh meningkatkan kualiti AdamW dan Lion.
Untuk pemodelan bahasa autoregresif, Rajah 7 di bawah menunjukkan kebingungan peringkat token Wiki-40B dan kebingungan peringkat perkataan PG-19. Lion secara konsisten mencapai kekeliruan pengesahan yang lebih rendah daripada AdamW. Ia mencapai kelajuan 1.6x dan 1.5x apabila masing-masing melatih model bersaiz sederhana pada Wiki-40B dan PG-19. PG-19 seterusnya mencapai kelajuan 2x apabila model meningkat kepada saiz besar.
Untuk pemodelan bahasa bertopeng, penyelidik juga melakukan latihan BERT pada set data C4 , antaranya Lion berprestasi lebih baik sedikit daripada AdamW dari segi kebingungan pengesahan. Keluk pembelajaran yang berkaitan ditunjukkan dalam Rajah 11 di bawah (kiri).
Untuk penalaan halus, penyelidik memperhalusi Pangkalan (220M), Besar ( 770M) dan model 11B T5 terbesar. Jadual 6 di bawah menunjukkan keputusan pada set pembangun GLUE, di mana secara purata Lion mengalahkan AdamW pada semua 3 saiz model.
Perbandingan dengan pengoptimum popular lain
Kajian ini juga menggunakan empat pengoptimum popular RAdam, NAdam, AdaBelief dan AMSGrad untuk melatih ViT-S/16 dan ViT-B/16 pada ImageNet (menggunakan RandAug dan Mixup). Seperti yang ditunjukkan dalam Jadual 7 di bawah, Lion kekal sebagai pemain terbaik.
Sila rujuk kertas asal untuk butiran lanjut teknikal.
Atas ialah kandungan terperinci Hancurkan AdamW secara menyeluruh! Pengoptimum baharu Google mempunyai memori kecil dan kecekapan tinggi Netizen: Latihan GPT 2 sangat pantas. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!