Pandangan Yann LeCun memang agak berani.
"Tiada sesiapa yang waras akan menggunakan model autoregresif 5 tahun dari sekarang, Pemenang Anugerah Turing Yann LeCun memberikan pembukaan khas untuk perdebatan. Autoregresi yang diperkatakannya adalah betul-betul paradigma pembelajaran yang bergantung pada model keluarga GPT yang popular pada masa ini.
Sudah tentu, bukan hanya model autoregresif yang ditunjukkan oleh Yann LeCun. Pada pandangan beliau, keseluruhan bidang pembelajaran mesin kini menghadapi cabaran besar.
Tema perbahasan ini ialah "Adakah model bahasa yang besar memerlukan asas deria untuk makna dan pemahaman dan merupakan sebahagian daripada persidangan "The Philosophy of Deep Learning" yang diadakan baru-baru ini. Persidangan itu meneroka isu-isu semasa dalam penyelidikan kecerdasan buatan dari perspektif falsafah, terutamanya kerja baru-baru ini dalam bidang rangkaian saraf tiruan dalam. Tujuannya adalah untuk mengumpulkan ahli falsafah dan saintis yang memikirkan tentang sistem ini untuk lebih memahami keupayaan, batasan, dan hubungan model ini dengan kognisi manusia.
Menurut PPT perbahasan, Yann LeCun meneruskan gaya tajamnya yang biasa dan terus terang menunjukkan bahawa "Pembelajaran Mesin menyebalkan!" . Dalam artikel ini, kami menyusun idea teras Yann LeCun berdasarkan PPT.
Untuk maklumat video susulan, sila beri perhatian kepada laman web rasmi persidangan: https://phildeeplearning.github.io/
Pembelajaran diselia (SL) memerlukan sejumlah besar sampel berlabel; 🎜>
Pembelajaran penyeliaan kendiri (SSL) memerlukan sejumlah besar sampel tidak berlabel.Perkara pertama yang anda boleh lihat ialah pembelajaran penyeliaan kendiri telah menjadi paradigma pembelajaran arus perdana semasa LeCun, "Pembelajaran Penyeliaan Kendiri telah mengambil alih dunia." Dalam beberapa tahun kebelakangan ini, kebanyakan model besar untuk pemahaman dan penjanaan teks dan imej telah menerima pakai paradigma pembelajaran ini.
Dalam pembelajaran penyeliaan kendiri, model bahasa besar autoregresif (AR-LLM) yang diwakili oleh keluarga GPT semakin popular. Prinsip model ini adalah untuk meramalkan token seterusnya berdasarkan di atas atau di bawah (token di sini boleh menjadi perkataan, blok imej atau klip ucapan). Model seperti LLaMA (FAIR) dan ChatGPT (OpenAI) yang kami kenali adalah semua model autoregresif. Tetapi pada pandangan LeCun, model jenis ini tidak mempunyai masa depan (LLM Auto-Regresif akan ditakdirkan). Kerana walaupun prestasi mereka mengagumkan, banyak masalah sukar diselesaikan, termasuk kesilapan fakta, kesilapan logik, ketidakkonsistenan, penaakulan terhad dan penjanaan kandungan berbahaya yang mudah. Yang penting, model sedemikian tidak memahami realiti asas dunia.
Dari perspektif teknikal, andaikan e ialah kebarangkalian bahawa token yang dijana secara sewenang-wenangnya boleh membawa kita menjauhi set jawapan yang betul, maka kebarangkalian bahawa jawapan yang panjang n akan akhirnya menjadi jawapan yang betul Iaitu P (betul) = (1-e)^n. Menurut algoritma ini, ralat terkumpul dan ketepatan berkurangan secara eksponen. Sudah tentu, kita boleh mengurangkan masalah ini (melalui latihan) dengan menjadikan ia lebih kecil, tetapi ia tidak boleh dihapuskan sepenuhnya, jelas Yann LeCun. Beliau percaya bahawa untuk menyelesaikan masalah ini, kita perlu menjadikan LLM tidak lagi autoregresif sambil mengekalkan kelancaran model.LeCun percaya bahawa terdapat hala tuju yang menjanjikan: model dunia
Model GPT yang popular pada masa ini, If tidak ada masa depan, lalu apa yang mempunyai masa depan? Menurut LeCun, jawapannya ialah: model dunia.
Sejak beberapa tahun, LeCun telah menekankan bahawa model bahasa berskala besar semasa ini sangat tidak cekap dalam pembelajaran berbanding manusia dan haiwan: seorang remaja yang tidak pernah memandu kereta boleh belajar dalam masa 20 jam Belajar memandu, tetapi sistem pemanduan sendiri yang terbaik memerlukan berjuta-juta atau berbilion-bilion data berlabel, atau berjuta-juta ujian pembelajaran pengukuhan dalam persekitaran maya. Walaupun dengan semua usaha ini, mereka tidak akan dapat mencapai keupayaan pemanduan yang boleh dipercayai seperti manusia.
Jadi, terdapat tiga cabaran utama yang dihadapi oleh penyelidik pembelajaran mesin semasa: satu ialah mempelajari model perwakilan dan ramalan dunia; yang satu lagi ialah mempelajari inferens (Sistem disebutkan oleh LeCun 2 Untuk perbincangan berkaitan, sila rujuk kepada laporan Profesor Wang Jun dari UCL); yang ketiga ialah belajar merancang urutan tindakan yang kompleks.
Berdasarkan masalah ini, LeCun mencadangkan idea membina model "dunia", dan menerbitkan kertas kerja bertajuk "Laluan ke arah kecerdasan mesin autonomi" adalah dijelaskan secara terperinci.
Secara khusus, dia mahu membina seni bina kognitif yang mampu membuat penaakulan dan perancangan. Seni bina ini terdiri daripada 6 modul bebas:
Yann LeCun juga menjelaskan beberapa butiran yang disebut dalam kertas sebelum ini dalam PPT.
Bagaimana untuk membina dan melatih model dunia? Pada pandangan LeCun, halangan sebenar kepada pembangunan kecerdasan buatan dalam beberapa dekad akan datang ialah reka bentuk seni bina dan paradigma latihan untuk model dunia.Melatih model dunia ialah contoh tipikal pembelajaran penyeliaan kendiri (SSL), idea asasnya ialah pelengkapan corak. Ramalan input masa hadapan (atau input tidak diperhatikan buat sementara waktu) ialah kes khas penyiapan corak.
Bagaimana untuk membina dan melatih model dunia? Apa yang perlu dilihat ialah dunia hanya boleh diramalkan sebahagian sahaja. Pertama, persoalannya ialah bagaimana mencirikan ketidakpastian dalam ramalan.
Jadi, bagaimanakah satu model ramalan boleh mewakili berbilang ramalan?
Model kebarangkalian sukar dilaksanakan dalam domain berterusan, manakala model generatif mesti meramalkan setiap butiran dunia. Berdasarkan perkara ini, LeCun memberikan penyelesaian: Seni Bina Ramalan Penyertaan Bersama (JEPA). JEPA tidak generatif kerana ia tidak boleh digunakan dengan mudah untuk meramal y daripada x. Ia hanya menangkap pergantungan antara x dan y tanpa menjana ramalan secara eksplisit untuk y. JEPA Generik.Seperti yang ditunjukkan dalam rajah di atas, dalam seni bina ini, x mewakili pemerhatian masa lalu dan semasa, y mewakili masa depan, a mewakili tindakan, z mewakili pembolehubah pendam yang tidak diketahui, D() mewakili kos ramalan, C() mewakili kos penggantian. JEPA meramalkan perwakilan S_y untuk masa hadapan daripada perwakilan S_x untuk masa lalu dan sekarang.
Seni bina generatif meramalkan semua butiran y, termasuk yang tidak berkaitan manakala JEPA meramalkan perwakilan abstrak y.
Dalam kes ini, LeCun percaya terdapat lima idea yang perlu "sepenuhnya terbengkalai ":
Seperti model tenaga, JEPA boleh dilatih menggunakan kaedah kontrastif. Walau bagaimanapun, kaedah kontrastif tidak cekap dalam ruang dimensi tinggi, jadi lebih sesuai untuk melatih mereka dengan kaedah bukan kontrastif. Dalam kes JEPA, ini boleh dicapai melalui empat kriteria, seperti yang ditunjukkan dalam rajah di bawah: 1. Maksimumkan jumlah maklumat s_x mempunyai tentang x 2. Maksimumkan jumlah maklumat s_y mempunyai tentang y 3. Jadikan s_y mudah untuk meramal daripada s_x ;4 Minimumkan kandungan maklumat yang digunakan untuk meramalkan pembolehubah terpendam z.
Rajah di bawah ialah seni bina yang mungkin untuk ramalan keadaan dunia pada berbilang peringkat dan berskala. Pembolehubah x_0, x_1, x_2 mewakili urutan pemerhatian. Rangkaian peringkat pertama, yang dilambangkan JEPA-1, menggunakan perwakilan peringkat rendah untuk melaksanakan ramalan jangka pendek. Rangkaian tahap kedua JEPA-2 menggunakan perwakilan peringkat tinggi untuk ramalan jangka panjang. Orang boleh membayangkan jenis seni bina ini mempunyai banyak lapisan, mungkin menggunakan konvolusi dan modul lain, dan menggunakan pengumpulan temporal antara peringkat untuk memberikan perwakilan berbutir kasar dan melaksanakan ramalan jangka panjang. Latihan boleh dilakukan secara peringkat atau secara global menggunakan mana-mana kaedah bukan kontras JEPA.
Perancangan hierarki adalah sukar, terdapat sedikit penyelesaian, dan kebanyakannya memerlukan kata-kata pengantara bagi tindakan yang telah ditetapkan. Rajah berikut menunjukkan peringkat perancangan hierarki di bawah ketidakpastian:
Peringkat perancangan hierarki di bawah ketidakpastian.
Apakah langkah ke arah sistem AI autonomi? LeCun juga memberikan ideanya sendiri:
1 Pembelajaran penyeliaan sendiriMempelajari perwakilan dunia
Seni bina ramalan tertanam bersama
Seperti haiwan dan bayi manusia?
Serasi dengan pembelajaran berasaskan kecerunan
Akhirnya, LeCun merumuskan cabaran semasa penyelidikan AI: (Bacaan yang disyorkan: Ringkasan pemikiran 10 tahun, pemenang Anugerah Turing Yann LeCun menunjukkan hala tuju generasi AI: Autonomous Machine Intelligence)
Bagi soalan kedua, dia juga menemui penyelesaiannya. kecerdasan buatan seperti anda." gesaan "Sangat meragukan".
Apakah maksudnya? "Keupayaan potensi LLM, dan terutamanya GPT-4, mungkin jauh lebih besar daripada yang kita sedar, dan selalunya adalah satu kesilapan untuk bertaruh bahawa mereka tidak akan dapat melakukan sesuatu pada masa hadapan. Jika anda menggunakan gesaan yang betul, mereka sebenarnya boleh melakukannya berikan hasil yang betul. Jawapannya...
Dalam percubaan yang diumumkan oleh netizen, kebanyakan orang yang mendapat jawapan yang betul memberikan gesaan yang sangat kaya, manakala yang lain lambat. untuk bertindak balas. Bolehkah "kejayaan" seperti ini diulangi. Ia boleh dilihat bahawa keupayaan GPT-4 juga "berkedip", dan penerokaan had atas tahap kecerdasannya akan berterusan untuk beberapa waktu.
Atas ialah kandungan terperinci Adakah laluan penyelidikan GPT-4 tiada harapan? Yann LeCun menjatuhkan hukuman mati kepada Zi Hui. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!