Dalam beberapa hari lepas, persidangan besar AI - ICLR telah diadakan di Vienna.
OpenAI, Meta, Google, Zhipu AI dan syarikat teknologi AI terkemuka dunia yang lain berkumpul bersama.
Selebriti berkumpul di tempat itu, dan bintang-bintang mempesonakan Jika anda hanya berjalan beberapa langkah, anda boleh terserempak dengan seorang selebriti yang telah menerbitkan kertas subversif.
Tidak hairanlah, dewan pameran ICLR 2024 juga menjadi adegan mengejar bintang. Suasana yang meriah hampir menghancurkan bumbung.
Mengejar gergasi Turing di tapak
LeCun, "e-person" yang terkenal di kalangan tiga gergasi Turing, dengan murah hati mengumumkan jadualnya pada .
Di ruangan komen, bukan sahaja peminat teruja untuk mendaftar masuk, malah ada juga yang bersedia menyerahkan resume mereka di tempat kejadian.
Perjalanan peminat sememangnya berbaloi Di tempat kejadian, LeCun menerangkan dengan fasih, dan penonton yang bersemangat membentuk bulatan padat di sekelilingnya.
Lebih dekat dengan rumah, sepanjang acara ICLR berlangsung, pasukan Meta akan berkongsi lebih daripada 25 kertas kerja dan dua bengkel. Kali ini, pasukan LeCun menerbitkan dua kertas kerja berikut di ICLR.
Alamat kertas: https://arxiv.org/abs/2305.19523
Alamat kertas: https://arxiv.org3 Satu lagi gambar sikit Gergasi rohani Yoshua Bengio juga telah menunjukkan popularitinya yang tinggi.
Penonton membuat kesimpulan: "Seseorang benar-benar perlu unik dalam bidangnya untuk beratur panjang di luar bilik persidangannya
LeCun dan Hinton mempunyai kedua-duanya Dia telah menyatakan pendapat yang kukuh mengenai perkara ini!" , tetapi sikap Bengio nampaknya agak samar-samar saya tidak sabar untuk mengetahui pendapatnya tentang AGI. Pada 11 Mei akan datang, beliau akan memberi ucapan di Bengkel AGI.
Adalah diingatkan bahawa pasukan Bengio turut menerima penghormatan untuk Kertas Cemerlang pada ICLR tahun ini.
Alamat kertas: https://openreview.net/pdf?id=Ouj6p4ca60
Sebelah Google Meta, Zhipu AI juga ada di tapak, model sumber terbuka Google Robot Rangka kerja di sebalik badan, Robotics Transformers, dan penyelidikan terobosan lain dibentangkan.
Sebelah Meta dan Google, terdapat sebuah syarikat yang sangat menarik perhatian di tengah-tengah dewan pameran - Zhipu AI.Kasut kanak-kanak di tapak memperkenalkan satu siri hasil penyelidikan seperti GLM-4 dan ChatGLM.
Siri paparan ini menarik perhatian ramai sarjana luar negara.
Hampir dua ribu tetamu dan cendekiawan di tempat kejadian mendengar dengan teliti pengenalan pasukan teknikal model besar GLM.
Pengenalan termasuk beberapa hasil penyelidikan canggih tentang siri model besar GLM, meliputi bidang seperti matematik, gambar rajah Vincentian, pemahaman imej, pemahaman UI visual dan kecerdasan Agen.
Di tempat kejadian, semua orang mengadakan perbincangan hangat tentang pandangan mereka tentang Undang-undang Skala. Pasukan GLM juga mempunyai pandangan unik tentang perkara ini -
"Berbanding dengan saiz model atau jumlah pengiraan latihan, kemunculan kecerdasan dan kehilangan pra-latihan adalah lebih berkait rapat
Sebagai contoh, penyelidik OpenAI 996 yang terkenal." Wei, selepas membaca kertas Zhipu AI dengan teliti mengenai kehilangan pra-latihan, dia sangat kagum.
Dalam kertas kerja, pasukan menilai prestasinya pada 12 set data Cina dan Inggeris dengan melatih 30+ LLM dengan parameter dan saiz data yang berbeza.
Alamat kertas: https://arxiv.org/abs/2403.15796
Diperhatikan bahawa hanya apabila kerugian pra-latihan adalah lebih rendah daripada ambang tertentu, LLM akan mempunyai keupayaan.
Selain itu, mentakrifkan "kemampuan muncul" dari perspektif kehilangan pra-latihan adalah lebih baik daripada hanya bergantung pada parameter model atau volum latihan.
Prestasi Zhipu AI juga telah membuatkan semakin ramai netizen asing menyedari bahawa-
Tanishq, pengarah penyelidikan Stability AI yang menerima PhD pada usia 19 tahun, berkata CogVLM adalah paling berdaya saing, model asas sumber terbuka yang telah memberikan sumbangan besar kepada ekosistem sumber terbuka datang dari China.
Bekas CEO studio permainan ini mula menggunakan CogVLM dan Stable Diffusion untuk membuat versi sumber terbuka lengkap tahun lepas.
Ya, sejak CogVLM dikeluarkan, keupayaan hebatnya telah menyebabkan netizen asing menjerit.
Dalam kedudukan LLM pada Januari tahun ini, seseorang juga mendapati bahawa -
Pada masa itu, Gemini dan GPT-4V berada jauh di hadapan mana-mana LLM sumber terbuka sahaja, menjadi CogVLM.
Dapat dilihat dengan gelombang model domestik berskala besar ini ke luar negara, Zhipu AI secara senyap-senyap telah mewujudkan pengaruh besarnya di luar negara.
Selain demonstrasi yang menarik di dewan pameran, ICLR tahun ini menjemput seramai tujuh penceramah khas untuk berkongsi pandangan mereka tentang AI.
Terdapat saintis penyelidikan dari Google DeepMind Raia Hadsell, profesor madya di Georgia Institute of Technology & ketua saintis FAIR Devi Parik, dan pengarah Moritz Hardt dari Max Planck Institute for Computer Science (MPI-SWS). ialah pasukan teknikal model besar GLM Zhipu AI.
Tajuk ucapan saintis Google DeepMind Raia Hadsell ialah - "Belajar semasa jatuh bangun pembangunan kecerdasan buatan: Kebenaran yang tidak dijangka di jalan menuju AGI".
Selepas berdekad-dekad pembangunan yang mantap dan kemunduran sekali-sekala, AI berada pada titik infleksi kritikal.
Produk AI telah meletup ke pasaran arus perdana, dan kami masih belum mencapai siling skala dividen, jadi seluruh komuniti sedang meneroka langkah seterusnya.
Dalam ucapan ini, berdasarkan pengalaman lebih 20 tahun dalam bidang AI, Raia membincangkan bagaimana andaian kami tentang laluan pembangunan AGI telah berubah dari semasa ke semasa.
Pada masa yang sama, dia juga mendedahkan penemuan luar jangka yang kami buat semasa penerokaan ini.
Daripada pembelajaran pengukuhan kepada seni bina teragih kepada rangkaian saraf, mereka sudah memainkan peranan yang berpotensi revolusioner dalam bidang sains.
Raia percaya bahawa dengan belajar daripada pengalaman dan pelajaran lepas, pandangan penting boleh diberikan untuk hala tuju penyelidikan AI pada masa hadapan.
Di sisi lain, ketua saintis FAIR Devi Parik memberitahu semua orang kisah hidupnya.
Anda boleh tahu dari tajuk ucapan bahawa kandungan yang dikongsikan oleh Parik adalah luar biasa.
Pada persidangan ICLR, apabila menerangkan mengapa persekitaran teknikal seperti sekarang, semua orang akan memberi tumpuan kepada pembangunan Internet, data besar dan kuasa pengkomputeran.
Namun, hanya sedikit orang yang memberi perhatian kepada kisah peribadi yang kecil tetapi penting itu.
Malah, cerita semua orang boleh berkumpul untuk menjadi kuasa penting dalam mempromosikan kemajuan teknologi.
Dengan cara ini, kita boleh belajar dari satu sama lain dan memberi inspirasi antara satu sama lain. Ini menjadikan kami lebih tabah dan cekap dalam mencapai matlamat kami.
Moritz Hardt, Pengarah MPI-SWS Jerman, memberi ucapan mengenai "Tanda Aras Saintifik yang Muncul".
Jelas sekali, ujian penanda aras telah menjadi "tiang teras" dalam bidang pembelajaran mesin.
Sejak 1980-an, walaupun manusia telah mencapai banyak pencapaian di bawah paradigma penyelidikan ini, pemahaman mendalam mereka masih terhad.
Dalam ceramah ini, Hardt meneroka asas penanda aras sebagai sains yang sedang berkembang melalui siri kajian empirikal dan analisis teori yang terpilih.
Beliau membincangkan secara khusus kesan ralat anotasi pada kualiti data, pengesahan luaran kedudukan model dan prospek untuk penanda aras berbilang tugas.
Pada masa yang sama, Hard juga membentangkan banyak kajian kes.
Ini mencabar kebijaksanaan konvensional kami dan juga menyerlahkan kepentingan dan faedah membangunkan penanda aras saintifik.
Di China, pasukan teknikal model besar GLM Zhipu AI turut memberikan ucapan yang menarik tentang "Jalan ChatGLM ke AGI".
Perlu dinyatakan bahawa ini juga merupakan "kali pertama" di China untuk menyampaikan ucaptama berkaitan model besar di persidangan antarabangsa terkemuka.
Ucapan ini mula-mula akan memperkenalkan sejarah pembangunan AI dalam beberapa dekad yang lalu dari perspektif Cina.
Pada masa yang sama, mereka menggunakan ChatGLM sebagai contoh untuk menerangkan pemahaman dan pandangan mereka yang diperoleh dalam proses amalan.
2024 Pratonton AGI: GLM 4.5, GLM-OS, GLM-sifar
Di ICLR pasukan teknologi besar, GLM memperkenalkan tiga model besar.
Di manakah satu-satunya cara untuk AGI?
Industri mempunyai pendapat yang berbeza tentang perkara ini. Sesetengah orang berpendapat ia adalah ejen pintar, ada yang berpendapat ia berbilang modal, dan sesetengah orang mengatakan bahawa Undang-undang Penskalaan adalah syarat yang perlu tetapi tidak mencukupi untuk AGI.
Tetapi LeCun menegaskan bahawa LLM adalah jalan yang salah ke AGI, dan LLM tidak boleh membawa AGI.
Sehubungan itu, pasukan itu turut mengemukakan sudut pandangan tersendiri.
Pertama sekali, mereka bercakap tentang versi GLM-4 yang dinaik taraf seterusnya, iaitu GLM-4.5 dan modelnya yang dinaik taraf.
Versi GLM-4 yang dinaik taraf seterusnya akan berasaskan teknologi SuperIntelligence dan SuperAlignment, sambil membuat kemajuan besar dalam bidang pelbagai mod asli dan keselamatan AI.
Pasukan model besar GLM percaya bahawa teks adalah asas paling kritikal dalam perjalanan ke AGI.
Langkah seterusnya ialah menggabungkan teks, imej, video, audio dan modaliti lain bersama-sama untuk latihan untuk menjadi "model multi-modal asli" yang sebenar.
Pada masa yang sama, untuk menyelesaikan masalah yang lebih kompleks, mereka juga memperkenalkan konsep GLM-OS, sistem pengkomputeran umum yang berpusat pada model besar.
Pandangan ini bertepatan dengan pandangan sistem pengendalian model besar yang dicadangkan oleh Karpathy sebelum ini.
Di tapak ICLR, pasukan model besar GLM memperkenalkan secara terperinci pelaksanaan GLM-OS:
Berdasarkan keupayaan All-Tools sedia ada, ditambah ingatan semula dan makan sendiri refleksi), GLM-OS dijangka berjaya meniru mekanisme PDCA manusia, iaitu, kitaran Plan-Do-Check-Act.
Secara khusus, buat rancangan dahulu, kemudian cuba buat maklum balas, laraskan rancangan, dan kemudian ambil tindakan untuk mencapai hasil yang lebih baik.
Bergantung pada mekanisme kitaran PDCA, LLM boleh memberi maklum balas sendiri dan berkembang secara bebas - sama seperti manusia.
Selain itu, pasukan model besar GLM juga mendedahkan bahawa sejak 2019, pasukan itu telah mengkaji teknologi yang dipanggil GLM-sifar, bertujuan untuk mengkaji mekanisme pembelajaran "tidak sedarkan diri" manusia.
"Apabila orang sedang tidur, otak masih belajar tanpa sedar."
Pasukan model besar GLM menyatakan bahawa mekanisme pembelajaran "tidak sedarkan diri" adalah bahagian penting dalam kebolehan kognitif manusia, termasuk pembelajaran kendiri, kendiri. -pembelajaran, dan pembelajaran kendiri Refleksi dan kritikan kendiri.
Terdapat dua sistem dalam otak manusia, "maklum balas" dan "membuat keputusan", yang masing-masing sepadan dengan model dan memori besar LLM.
Oleh itu, penyelidikan berkaitan GLM-sifar akan meluaskan lagi pemahaman manusia tentang kesedaran, pengetahuan, dan tingkah laku pembelajaran.
Walaupun masih dalam peringkat penyelidikan yang sangat awal, GLM-sifar boleh dianggap sebagai satu-satunya cara untuk AGI.
Ini juga kali pertama pasukan model besar GLM mendedahkan trend teknologi ini kepada dunia luar.
Pada penghujung tahun 2020, pasukan teknikal model besar GLM membangunkan seni bina pra-latihan GLM.
Pada tahun 2021, berpuluh bilion model parameter GLM-10B telah dilatih, dan pada tahun yang sama, model jarang bertrillion tertumpu berjaya dilatih menggunakan seni bina MoE.
Pada tahun 2022, kami juga bekerjasama untuk membangunkan model pra-latihan ultra-besar berskala besar 100 bilion Cina-Inggeris dan sumber terbukanya.
Pada tahun lalu, pasukan telah menyelesaikan peningkatan model asas besar hampir setiap 3-4 bulan, dan kini telah dikemas kini kepada versi GLM-4.
Bukan itu sahaja, sebagai syarikat LLM domestik pertama yang memasuki pasaran, Zhipu AI telah menetapkan matlamat bercita-cita tinggi pada 2023 - untuk menanda aras OpenAI secara menyeluruh.
Pasukan teknikal model besar GLM telah membina matriks produk model besar yang lengkap berdasarkan visi AGI.
Selain siri GLM, terdapat juga model grafik CogView, model kod CodeGeeX, model pemahaman berbilang modal CogVLM, dan kemudian model besar berbilang modal GLM-4V dan fungsi Semua Alat serta pembantu AI Zhipu Qingyan .
Pada masa yang sama, penyelidik pasukan teknologi model besar GLM mempunyai pengaruh yang sangat tinggi dalam industri.
Sebagai contoh, Li Feifei, yang sangat popular dalam kalangan, mengajar kursus CS25 di Universiti Stanford Setiap kali, dia menjemput pakar di barisan hadapan penyelidikan Transformer untuk berkongsi penemuan terbarunya.
Telah disahkan di kalangan tetamu kursus CS25, terdapat penyelidik dari Zhipu AI. Model bahasa visual sumber terbuka CogVLM yang dibangunkan oleh pasukan itu telah menarik perhatian dalam industri sebaik sahaja ia dikeluarkan.
Sebuah kertas kerja yang diterbitkan oleh Stability AI pada bulan Mac menunjukkan bahawa CogVLM telah digunakan secara langsung oleh Stable Diffufion 3 untuk anotasi imej kerana prestasinya yang sangat baik.
Alamat kertas: https://arxiv.org/abs/2403.03206
CogAgent🜎
berdasarkan asas terbuka ini Model bahasa visual VLM CogAgent , terutamanya bertujuan untuk memahami GUI antara muka grafik pengguna.
Kertas berkaitan CogAgent telah dimasukkan dalam CVPR 2024, persidangan akademik peringkat tertinggi dalam bidang penglihatan komputer antarabangsa.
Anda mesti tahu bahawa CVPR terkenal dengan kemasukan yang ketat pada tahun ini kadar penerimaan tesis hanya kira-kira 2.8%. Alamat
Paper: https://arxiv.org/abs/2312.08914
chatglm-math
in untuk menyelesaikan masalah matematik dengan LLM, pasukan model besar GLM yang dicadangkan " Kritikan Kendiri" " kaedah latihan berulang.
Melalui mekanisme maklum balas kendiri, ia membantu LLM meningkatkan kedua-dua kebolehan bahasa dan matematik.
Alamat kertas: https://arxiv.org/abs/2404.02893
Kaedah ini mengandungi dua langkah utama:Melatih penjana pertama "Critique" model untuk menjana jawapan kepada soalan matematik dan memberikan isyarat maklum balas.
Kedua, melalui penalaan halus pensampelan penolakan dan DPO, model baharu digunakan untuk menyelia penjanaan LLM itu sendiri. Pasukan model besar GLM juga mereka bentuk set ujian penanda aras MATHUSEREVAL untuk menilai keupayaan matematik model baharu itu: yang jelas. kaedah baharu dengan ketara meningkatkan matematik kemahiran menyelesaikan masalah LLM sambil masih meningkatkan kemahiran bahasa mereka. Yang penting, ia mengatasi model yang lebih besar dengan dua kali ganda bilangan parameter dalam beberapa kes. Dalam ujian penanda aras OpenCompass 2.0, kekuatan model asas generasi baharu Zhipu AI tidak boleh dipandang remeh. Dalam ranking keseluruhan, GLM-4 menduduki tempat ketiga dan menduduki tempat pertama di negara ini. Dalam "Laporan Penilaian Keupayaan Komprehensif Model Besar SuperBench" yang dikeluarkan oleh pasukan SuperBench tidak lama dahulu, GLM-4 turut menduduki antara peringkat pertama di dunia. Terutama dalam pemahaman semantik dan keupayaan ejen yang paling kritikal, GLM-4 menduduki tempat pertama di negara ini, mengatasi semua pesaing. Pada tahun pertama model besar yang baru berlalu, perang model yang meriah telah berlangsung selama setahun. Jika 2024 mahu menjadi tahun pertama AGI, pasukan model besar dunia masih jauh lagi. GLM-4 berada di antara peringkat pertama di dunia
Atas ialah kandungan terperinci Gergasi Turing muncul di ICLR dan menjadi gila untuk bintang LeCun dan Bengio di puncak! Tiga trend teknologi utama pasukan China mencetuskan imaginasi baharu AGI. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!