Adakah pembelajaran penyeliaan kendiri benar-benar satu langkah penting ke arah AGI?
Ketua saintis AI Meta, Yann LeCun, tidak melupakan matlamat jangka panjang apabila bercakap tentang "langkah khusus yang perlu diambil pada masa ini." Beliau berkata dalam temu bual: "Kami mahu membina mesin pintar yang belajar seperti haiwan dan manusia
Dalam beberapa tahun kebelakangan ini, Meta telah menerbitkan satu siri kertas kerja mengenai pembelajaran penyeliaan kendiri (SSL) sistem AI. LeCun yakin bahawa SSL adalah prasyarat yang diperlukan untuk sistem AI, yang boleh membantu sistem AI membina model dunia untuk mendapatkan keupayaan seperti manusia seperti rasional, akal sehat dan keupayaan untuk memindahkan kemahiran dan pengetahuan dari satu persekitaran ke persekitaran yang lain.
Kertas baharu mereka menunjukkan cara sistem penyeliaan sendiri yang dipanggil autoenkoder bertopeng (MAE) boleh belajar membina semula imej, video dan juga audio daripada data yang sangat berpecah-belah dan tidak lengkap. Walaupun MAE bukan idea baharu, Meta telah mengembangkan kerja ini ke kawasan baharu.
LeCun berkata bahawa dengan memikirkan cara untuk meramalkan data yang hilang, sama ada imej pegun atau jujukan video atau audio, sistem MAE sedang membina model dunia. Dia berkata: "Jika ia boleh meramalkan apa yang akan berlaku dalam video, ia mesti memahami bahawa dunia adalah tiga dimensi, bahawa sesetengah objek tidak bernyawa dan tidak bergerak sendiri, dan objek lain adalah hidup dan sukar untuk diramalkan. , sehingga ramalan Tingkah laku makhluk hidup yang kompleks." Setelah sistem AI mempunyai model dunia yang tepat, ia boleh menggunakan model ini untuk merancang tindakan.
LeCun berkata, "Intipati kecerdasan ialah belajar untuk meramalkan." Walaupun dia tidak mendakwa bahawa sistem MAE Meta hampir dengan kecerdasan buatan umum, dia percaya bahawa ia adalah satu langkah penting ke arah kecerdasan buatan umum.
Tetapi tidak semua orang bersetuju bahawa penyelidik Meta berada di jalan yang betul ke arah kecerdasan buatan am. Yoshua Bengio kadangkala terlibat dalam perdebatan mesra dengan LeCun tentang idea besar dalam AI. Dalam e-mel kepada IEEE Spectrum, Bengio membentangkan beberapa perbezaan dan persamaan dalam matlamat mereka.
Bengio menulis: "Saya benar-benar tidak fikir kaedah semasa kami (sama ada diselia sendiri atau tidak) cukup untuk merapatkan jurang antara tahap kecerdasan buatan dan manusia." kemajuan kualitatif", benar-benar boleh mendorong teknologi lebih dekat dengan kecerdasan buatan berskala manusia.
Bengio bersetuju dengan pandangan LeCun bahawa "keupayaan untuk menaakul tentang dunia adalah elemen teras kecerdasan", tetapi pasukannya tidak menumpukan pada model yang boleh meramalkan Model yang boleh mempersembahkan pengetahuan dalam bentuk; bahasa semula jadi. Beliau menyatakan bahawa model sedemikian akan membolehkan kita menggabungkan cebisan pengetahuan ini untuk menyelesaikan masalah baharu, menjalankan simulasi counterfaktual, atau mengkaji kemungkinan masa hadapan. Pasukan Bengio membangunkan rangka kerja rangkaian saraf baharu yang lebih modular daripada yang digemari oleh LeCun, yang bekerja pada pembelajaran hujung ke hujung.
MAE Meta dibina pada seni bina rangkaian neural yang dipanggil Transformer. Seni bina ini pada mulanya menjadi popular dalam bidang pemprosesan bahasa semula jadi, dan kemudiannya berkembang ke banyak bidang seperti penglihatan komputer.
Sudah tentu, Meta bukanlah pasukan pertama yang berjaya menggunakan Transformer untuk tugasan penglihatan. Ross Girshick, seorang penyelidik di Meta AI, berkata bahawa penyelidikan Google mengenai Visual Transformer (ViT) memberi inspirasi kepada pasukan Meta "Penggunaan seni bina ViT membantu (kami) menghapuskan beberapa halangan yang dihadapi semasa percubaan."
Girshick ialah salah seorang pengarang kertas sistem MAE pertama Meta Salah seorang pengarang kertas ini ialah He Kaiming Mereka membincangkan kaedah yang sangat mudah: menutup blok rawak imej input dan membina semula yang hilang. piksel.
Latihan model ini adalah serupa dengan BERT dan beberapa model bahasa berasaskan Transformer yang lain Penyelidik akan menunjukkan kepada mereka pangkalan data teks yang besar, tetapi beberapa perkataan hilang, Dalam erti kata lain , ia telah "dilindungi". Model perlu meramalkan perkataan yang hilang dengan sendirinya, dan kemudian perkataan bertopeng didedahkan supaya model boleh menyemak kerjanya dan mengemas kini parameternya. Proses ini terus berulang. Untuk melakukan sesuatu yang serupa secara visual, pasukan itu memecahkan imej itu kepada tompok, kemudian menutup beberapa tampalan dan meminta sistem MAE untuk meramalkan bahagian imej yang hilang, jelas Girshick.
Salah satu kejayaan pasukan ialah menyedari bahawa menutup sebahagian besar imej akan memberikan hasil yang terbaik, perbezaan utama daripada pengubah bahasa, yang mungkin hanya menutup 15% perkataan. "Bahasa ialah sistem komunikasi yang sangat padat dan cekap, dan setiap simbol membawa banyak makna," kata Girshick "Tetapi imej-isyarat ini dari dunia semula jadi-tidak dibina untuk menghapuskan redundansi kandungan dengan baik semasa mencipta imej JPG 》
Penyelidik di Meta AI bereksperimen dengan berapa banyak imej yang perlu ditutup untuk mendapatkan hasil yang terbaik.
Girshick menjelaskan bahawa dengan menutup lebih daripada 75% tampalan dalam imej, mereka menghapuskan lebihan dalam imej yang sebaliknya akan menjadikan tugas itu terlalu remeh untuk latihan. Sistem MAE dua bahagian mereka mula-mula menggunakan pengekod untuk mempelajari hubungan antara piksel daripada set data latihan, dan kemudian penyahkod melakukan yang terbaik untuk membina semula imej asal daripada imej bertopeng. Selepas skim latihan ini selesai, pengekod juga boleh diperhalusi untuk tugas penglihatan seperti pengelasan dan pengesanan objek.
Girshick berkata, "Apa yang paling menarik bagi kami ialah kami melihat hasil model ini dalam tugasan hiliran apabila menggunakan pengekod untuk menyelesaikan tugas seperti pengecaman objek, "keuntungan yang kami lihat adalah sangat besar. .” Beliau menyatakan bahawa meneruskan peningkatan model boleh membawa kepada prestasi yang lebih baik, yang merupakan hala tuju yang berpotensi untuk model masa hadapan, kerana SSL “berpotensi untuk menggunakan sejumlah besar data tanpa anotasi manual.”
Berusaha sedaya upaya untuk belajar daripada set data yang besar dan tidak ditapis mungkin merupakan strategi Meta untuk meningkatkan hasil SSL, tetapi ia juga merupakan pendekatan yang semakin kontroversi. Penyelidik etika AI seperti Timnit Gebru telah menarik perhatian kepada bias yang wujud dalam set data yang tidak ditentukan yang dipelajari oleh model bahasa besar, yang kadangkala boleh membawa kepada hasil yang buruk.
Dalam sistem MAE video, masker mengaburkan 95% daripada setiap bingkai video kerana persamaan antara bingkai bermakna isyarat video lebih baik daripada statik Imej mempunyai lebih banyak redundansi. Penyelidik meta Christoph Feichtenhofer berkata apabila ia berkaitan dengan video, kelebihan besar pendekatan MAE ialah video selalunya intensif secara pengiraan, dan MAE mengurangkan kos pengiraan sehingga 95% dengan menutup sehingga 95% daripada kandungan setiap bingkai. .
Klip video yang digunakan dalam eksperimen ini hanya berdurasi beberapa saat, tetapi Feichtenhofer berkata melatih sistem kecerdasan buatan dengan video yang lebih panjang ialah topik penyelidikan yang sangat aktif. Bayangkan anda mempunyai pembantu maya yang mempunyai video rumah anda dan boleh memberitahu anda tempat anda meninggalkan kunci anda sejam yang lalu.
Lebih langsung, kita boleh bayangkan bahawa sistem imej dan video berguna untuk tugas klasifikasi yang diperlukan untuk penyederhanaan kandungan di Facebook dan Instagram, Feichtenhofer berkata, "integriti" adalah satu aplikasi yang mungkin, "Kami Kami berkomunikasi dengan pasukan produk, tetapi ini sangat baharu dan kami belum mempunyai sebarang projek khusus lagi.”
Untuk kerja audio MAE, pasukan Meta AI berkata mereka akan menerbitkan hasil penyelidikan di arXiv tidak lama lagi. Mereka menemui cara yang bijak untuk menggunakan teknik topeng. Mereka menukar fail bunyi kepada spektrogram, yang merupakan gambaran visual spektrum frekuensi dalam isyarat, dan kemudian menutup bahagian imej untuk latihan. Audio yang dibina semula sangat mengagumkan, walaupun model pada masa ini hanya boleh mengendalikan beberapa saat rakaman.
Aplikasi berpotensi penyelidikan ini termasuk tugas klasifikasi, membantu Voice over IP (VoIP) dengan mengisi audio yang hilang apabila paket digugurkan, atau mencari cara yang lebih cekap untuk memampatkan fail audio.
Meta telah menjalankan penyelidikan AI sumber terbuka, seperti model MAE ini, dan juga menyediakan model bahasa besar yang telah terlatih kepada komuniti kecerdasan buatan. Tetapi pengkritik menegaskan bahawa walaupun begitu terbuka untuk penyelidikan, Meta tidak menyediakan algoritma perniagaan terasnya untuk dikaji: algoritma yang mengawal suapan berita, pengesyoran dan peletakan iklan.
Atas ialah kandungan terperinci Meta AI di bawah LeCun bertaruh pada penyeliaan diri. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!