Model resapan telah membawa masuk aplikasi baharu utama -
Sama seperti Sora menjana video, ia menjana parameter untuk rangkaian saraf dan terus menembusi ke lapisan bawah AI!
Ini adalah hasil penyelidikan sumber terbuka terkini pasukan Profesor You Yang di Universiti Nasional Singapura, bersama-sama dengan UCB, Makmal Meta AI dan institusi lain.
Secara khusus, pasukan penyelidik mencadangkan model resapan p(arameter)-diff untuk menjana parameter rangkaian saraf.
Gunakannya untuk menjana parameter rangkaian, kelajuan sehingga 44 kali lebih pantas daripada latihan langsung, dan prestasinya tidak kalah.
Selepas model dikeluarkan, ia dengan cepat membangkitkan perbincangan hangat dalam komuniti AI.
Sesetengah orang malah secara langsung menyatakan bahawa ini pada asasnya bersamaan dengan AI mencipta AI baharu.
Malah gergasi AI LeCun memuji pencapaian ini selepas melihatnya, mengatakan bahawa ia benar-benar idea yang comel.
Malah, p-diff memang mempunyai kepentingan yang sama seperti Sora Dr. Fuzhao Xue (Xue Fuzhao) dari makmal yang sama menerangkan secara terperinci:
Sora menjana data berdimensi tinggi, iaitu video, Ini. menjadikan Sora simulator dunia (menghampirkan AGI dari satu dimensi).
Dan kerja ini, penyebaran rangkaian saraf, boleh menjana parameter dalam model, berpotensi untuk menjadi pelajar/pengoptimum bertaraf dunia meta, bergerak ke arah AGI dari satu lagi dimensi penting yang baharu.
Berbalik kepada topik, bagaimanakah p-diff menjana parameter rangkaian saraf?
Untuk memahami masalah ini, kita mesti terlebih dahulu memahami ciri kerja model resapan dan rangkaian saraf.
Proses penjanaan resapan ialah transformasi daripada pengedaran rawak kepada pengedaran yang sangat spesifik Melalui penambahan bunyi kompaun, maklumat visual dikurangkan kepada pengedaran hingar yang mudah.
Latihan rangkaian saraf juga mengikuti proses transformasi ini dan juga boleh direndahkan dengan menambah bunyi Diilhamkan oleh ciri ini, penyelidik mencadangkan kaedah p-diff.
Dari sudut pandangan struktur, p-diff direka oleh pasukan penyelidik berdasarkan model resapan terpendam standard dan digabungkan dengan pengekod auto.
Penyelidik terlebih dahulu memilih sebahagian daripada parameter rangkaian yang telah dilatih dan berprestasi baik, dan mengembangkannya ke dalam bentuk vektor satu dimensi.
Kemudian gunakan pengekod automatik untuk mengekstrak perwakilan terpendam daripada vektor satu dimensi sebagai data latihan untuk model resapan Ini boleh menangkap ciri utama parameter asal.
Semasa proses latihan, penyelidik membenarkan p-diff mempelajari pengedaran parameter melalui proses ke hadapan dan ke belakang Selepas selesai, model resapan mensintesis perwakilan berpotensi ini daripada hingar rawak seperti proses penjanaan maklumat visual.
Akhir sekali, perwakilan terpendam yang baru dijana dipulihkan kepada parameter rangkaian oleh penyahkod yang sepadan dengan pengekod dan digunakan untuk membina model baharu.
Rajah di bawah ialah taburan parameter model ResNet-18 yang dilatih dari awal menggunakan 3 benih rawak melalui p-diff, menunjukkan corak taburan antara lapisan berbeza dan antara parameter berbeza dalam lapisan yang sama.
Untuk menilai kualiti parameter yang dijana oleh p-diff, para penyelidik mengujinya pada 8 set data menggunakan 3 jenis rangkaian saraf dua saiz setiap satu.
Dalam jadual di bawah, tiga nombor dalam setiap kumpulan mewakili keputusan penilaian model asal, model bersepadu dan model yang dijana dengan p-diff.
Seperti yang anda boleh lihat daripada keputusan, prestasi model yang dijana dengan p-diff pada dasarnya hampir atau lebih baik daripada model asal yang dilatih secara manual.
Dari segi kecekapan, tanpa kehilangan ketepatan, p-diff menjana rangkaian ResNet-18 15 kali lebih pantas daripada latihan tradisional, dan menjana Vit-Base 44 kali lebih pantas.
Keputusan ujian tambahan membuktikan bahawa model yang dihasilkan oleh p-diff adalah jauh berbeza daripada data latihan.
Seperti yang anda lihat dari rajah (a) di bawah, persamaan antara model yang dihasilkan oleh p-diff adalah lebih rendah daripada persamaan antara model asal, serta persamaan antara p-diff dan model asal.
Seperti yang dapat dilihat dari (b) dan (c), berbanding dengan kaedah penalaan halus dan penambahan hingar, persamaan p-diff juga lebih rendah.
Keputusan ini menunjukkan bahawa p-diff sebenarnya menjana model baharu dan bukannya hanya menghafal sampel latihan Ia juga menunjukkan bahawa ia mempunyai keupayaan generalisasi yang baik dan boleh menjana model baharu yang berbeza daripada data latihan.
Pada masa ini, kod p-diff adalah sumber terbuka Jika anda berminat, anda boleh menyemaknya di GitHub.
Alamat kertas: https://arxiv.org/abs/2402.13144
GitHub: https://github.com/NUS-HPC-AI-Lab/Neurally
Atas ialah kandungan terperinci Pecah ke lapisan bawah AI! Pasukan NUS Youyang menggunakan model resapan untuk membina parameter rangkaian saraf, LeCun menyukainya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!