


'Lu Zhiwu, seorang penyelidik di Universiti Renmin China, mencadangkan kesan penting ChatGPT pada model generatif pelbagai mod'
Berikut ialah kandungan ucapan Profesor Lu Zhiwu di ChatGPT dan Persidangan Teknologi Model Besar yang diadakan oleh Heart of the Machine telah menyunting dan mengaturnya tanpa mengubahnya maksud asal:
Helo semua, saya Lu Zhiwu dari Universiti Renmin China. Tajuk laporan saya hari ini ialah "Pencerahan Penting ChatGPT pada Model Generatif Multimodal", yang terdiri daripada empat bahagian.
Pertama sekali, ChatGPT membawakan kita sedikit inspirasi tentang inovasi paradigma penyelidikan. Perkara pertama ialah menggunakan "model besar + data besar", yang merupakan paradigma penyelidikan yang telah berulang kali disahkan dan juga merupakan paradigma penyelidikan asas ChatGPT. Adalah penting untuk menekankan bahawa hanya apabila model besar mencapai tahap tertentu, ia akan mempunyai keupayaan yang muncul, seperti pembelajaran dalam konteks, penaakulan CoT dan keupayaan lain.
Perkara kedua ialah menegaskan "model besar + inferens". Kerana dalam bidang pembelajaran mesin atau kecerdasan buatan, penaakulan diiktiraf sebagai yang paling sukar, dan ChatGPT juga telah membuat penemuan dalam hal ini. Sudah tentu, keupayaan penaakulan ChatGPT mungkin berasal dari latihan kod, tetapi sama ada terdapat sambungan yang tidak dapat dielakkan masih belum pasti. Dari segi penaakulan, kita harus berusaha lebih untuk mencari tahu dari mana asalnya, atau sama ada terdapat kaedah latihan lain untuk meningkatkan lagi keupayaan penaakulannya.
Perkara ketiga ialah model besar mesti sejajar dengan manusia Inilah yang ChatGPT berikan kepada kita dari perspektif kejuruteraan atau sudut pendaratan model. Pencerahan. Jika tidak sejajar dengan manusia, model itu akan menghasilkan banyak maklumat berbahaya, menjadikan model itu tidak boleh digunakan. Perkara ketiga bukanlah untuk menaikkan had atas model, tetapi kebolehpercayaan dan keselamatan model sememangnya sangat penting.
Kemunculan ChatGPT telah memberi impak yang besar dalam banyak bidang, termasuk saya sendiri. Kerana saya telah melakukan pelbagai mod selama beberapa tahun, saya akan mula memikirkan mengapa kami tidak membuat model yang begitu berkuasa.
ChatGPT ialah generasi universal dalam bahasa atau teks. Mari kita lihat kemajuan terkini dalam bidang generasi universal berbilang modal. Model pra-latihan multimodal telah mula berubah menjadi model generatif am multimodal, dan terdapat beberapa penerokaan awal. Mula-mula, mari kita lihat model Flamingo yang dicadangkan oleh Google pada 2019. Angka berikut ialah struktur modelnya.
Badan utama seni bina model Flamingo ialah penyahkod (Dekoder) model bahasa besar, iaitu modul biru di sebelah kanan daripada gambar di atas dalam setiap biru Beberapa lapisan penyesuai ditambah antara modul warna, dan Pengekod Penglihatan dan Perceiver Resampler ditambahkan pada bahagian visual kiri. Reka bentuk keseluruhan model adalah untuk mengekod dan menukar perkara visual, melalui penyesuai, dan menyelaraskannya dengan bahasa, supaya model boleh menjana penerangan teks secara automatik untuk imej.
Apakah faedah reka bentuk seni bina seperti Flamingo? Pertama sekali, modul biru dalam gambar di atas adalah tetap (beku), termasuk Dekoder model bahasa manakala jumlah parameter modul merah jambu itu sendiri boleh dikawal, jadi bilangan parameter yang sebenarnya dilatih oleh model Flamingo adalah sangat kecil. Oleh itu, jangan fikir bahawa model generatif universal berbilang modal sukar untuk dibina. Model Flamingo terlatih boleh melakukan banyak tugas umum berdasarkan penjanaan teks Sudah tentu, input adalah berbilang modal, seperti penerangan video, soalan dan jawapan visual, dialog berbilang modal, dsb. Dari perspektif ini, Flamingo boleh dianggap sebagai model generatif umum.
Contoh kedua ialah model BLIP-2 yang baru dikeluarkan beberapa ketika dahulu Ia dipertingkatkan berdasarkan BLIP-1 Seni bina modelnya sangat serupa dengan Flamingo, dan ia pada asasnya termasuk imej pengekodan. Penyahkod dan penyahkod model bahasa besar ditetapkan, dan kemudian Q-Former dengan fungsi penukar ditambah di tengah - daripada penukaran visual kepada bahasa. Jadi, bahagian BLIP-2 yang benar-benar memerlukan latihan ialah Q-Former.
Seperti yang ditunjukkan dalam rajah di bawah, mula-mula masukkan gambar (gambar di sebelah kanan) ke dalam Pengekod Imej Teks di tengah ialah soalan atau arahan yang dibangkitkan oleh pengguna, yang merupakan input selepas pengekodan Q-Former Pergi ke model bahasa yang besar dan akhirnya menghasilkan jawapan, yang mungkin merupakan proses penjanaan.
Kekurangan kedua-dua model ini jelas, kerana ia muncul agak awal atau baru muncul, dan kaedah kejuruteraan yang digunakan oleh ChatGPT tidak dipertimbangkan . Sekurang-kurangnya tiada arahan penalaan halus untuk dialog grafik atau dialog pelbagai mod, jadi kesan penjanaan keseluruhannya tidak memuaskan.
Yang ketiga ialah Kosmos-1 yang dikeluarkan baru-baru ini oleh Microsoft Ia mempunyai struktur yang sangat mudah dan hanya menggunakan pasangan imej dan teks untuk latihan. Perbezaan terbesar antara Kosmos-1 dan dua model di atas ialah model bahasa besar itu sendiri dalam dua model di atas adalah tetap, manakala model bahasa besar itu sendiri dalam Kosmos-1 perlu dilatih, jadi model Kosmos-1 Nombor daripada parameter hanya 1.6 bilion, dan model dengan 1.6 bilion parameter mungkin tidak mempunyai keupayaan untuk muncul. Sudah tentu, Kosmos-1 tidak mengambil kira penalaan halus arahan dalam dialog grafik, menyebabkan ia kadang-kadang bercakap karut.
Contoh seterusnya ialah model bahasa visual terkandung pelbagai mod Google PaLM-E. Model PaLM-E adalah serupa dengan tiga contoh pertama PaLM-E juga menggunakan model bahasa ViT + besar. Kejayaan terbesar PaLM-E ialah ia akhirnya meneroka kemungkinan melaksanakan model bahasa besar berbilang modal dalam bidang robotik. PaLM-E mencuba langkah pertama penerokaan, tetapi jenis tugas robot yang dianggapnya adalah sangat terhad dan tidak boleh benar-benar universal.
Contoh terakhir ialah GPT-4 - ia memberikan hasil yang sangat menakjubkan pada set data standard, dan banyak kali keputusannya lebih baik daripada Pada masa ini, model SOTA diperhalusi yang dilatih pada set data adalah lebih baik. Ini mungkin mengejutkan, tetapi ia sebenarnya tidak bermakna apa-apa. Semasa kami membina model besar berbilang modal dua tahun lalu, kami mendapati bahawa keupayaan model besar tidak boleh dinilai pada set data standard Prestasi yang baik pada set data standard tidak bermakna hasil yang baik dalam penggunaan sebenar dua. Atas sebab ini, saya sedikit kecewa dengan GPT-4 semasa, kerana ia hanya memberikan hasil pada set data standard. Selain itu, GPT-4 yang tersedia pada masa ini bukanlah versi visual, tetapi versi teks tulen.
Secara umumnya, model di atas digunakan untuk penjanaan bahasa umum, dan input adalah input berbilang modal Dua model berikut adalah berbeza. Kini - bukan sahaja penjanaan bahasa umum, tetapi juga penjanaan visual, yang boleh menjana kedua-dua bahasa dan imej.
Yang pertama ialah Visual ChatGPT Microsoft, yang akan saya ulas secara ringkas. Idea model ini sangat mudah, dan ia lebih kepada pertimbangan reka bentuk produk. Terdapat banyak jenis penjanaan berkaitan penglihatan, serta beberapa model pengesanan visual Input dan arahan untuk tugasan yang berbeza ini berbeza secara meluas Masalahnya ialah cara menggunakan satu model untuk memasukkan semua tugasan ini, jadi Microsoft mereka bentuk pengurus Prompt. yang digunakan dalam bahagian teras OpenAI's ChatGPT adalah setara dengan menterjemah arahan untuk tugas penjanaan visual yang berbeza melalui ChatGPT. Soalan pengguna ialah arahan yang diterangkan dalam bahasa semula jadi, yang diterjemahkan ke dalam arahan yang boleh difahami oleh mesin melalui ChatGPT.
Visual ChatGPT melakukan perkara sedemikian. Jadi ia benar-benar bagus dari perspektif produk, tetapi tidak ada yang baru dari perspektif reka bentuk model. Oleh itu, model keseluruhan adalah "raksasa jahitan" dari perspektif model Tiada latihan model bersatu, menyebabkan tiada promosi bersama antara modaliti yang berbeza. Sebab kami melakukan pelbagai modaliti adalah kerana kami percaya bahawa data daripada modaliti yang berbeza mesti membantu antara satu sama lain. Dan Visual ChatGPT tidak menganggap arahan penjanaan pelbagai mod Penalaan halus arahannya hanya bergantung pada ChatGPT itu sendiri.
Contoh seterusnya ialah model UniDiffuser yang dikeluarkan oleh pasukan Profesor Zhu Jun di Universiti Tsinghua. Dari perspektif akademik, model ini benar-benar boleh menjana kandungan teks dan visual daripada input berbilang modal Ini disebabkan oleh seni bina rangkaian berasaskan pengubah U-ViT, yang serupa dengan U-Net, komponen teras Stable Diffusion, dan. kemudian menjana imej dan penjanaan teks disatukan dalam rangka kerja. Kerja ini sendiri sangat bermakna, tetapi ia masih agak awal Sebagai contoh, ia hanya mempertimbangkan tugasan Kapsyen dan VQA, tidak mempertimbangkan beberapa pusingan dialog dan tidak memperhalusi arahan untuk penjanaan berbilang modal.
Setelah sekian banyak ulasan, kami juga membuat satu produk bernama ChatImg, seperti yang ditunjukkan dalam gambar di bawah. Secara umumnya, ChatImg termasuk pengekod imej, pengekod imej dan teks berbilang mod, dan penyahkod teks Ia serupa dengan Flamingo dan BLIP-2, tetapi kami mempertimbangkan lebih banyak, dan terdapat perbezaan terperinci dalam pelaksanaan khusus.
Salah satu kelebihan terbesar ChatImg ialah ia boleh menerima input video. Kami memberi perhatian khusus kepada penjanaan umum berbilang modal, termasuk penjanaan teks, penjanaan imej dan penjanaan video. Kami berharap dapat melaksanakan pelbagai tugas penjanaan dalam rangka kerja ini, dan akhirnya berharap dapat mengakses teks untuk menjana video.
Kedua, kami memberi perhatian khusus kepada data pengguna sebenar Kami berharap untuk terus mengoptimumkan model penjanaan itu sendiri dan meningkatkan keupayaannya selepas memperoleh data pengguna sebenar, jadi kami mengeluarkan aplikasi ChatImg.
Gambar berikut adalah beberapa contoh ujian kami Sebagai model awal, walaupun masih terdapat beberapa perkara yang tidak dilakukan dengan baik, secara amnya ChatImg masih boleh memahami gambar tersebut. Contohnya, ChatImg boleh menjana penerangan lukisan dalam perbualan dan juga boleh melakukan beberapa pembelajaran dalam konteks.
Contoh pertama dalam gambar di atas menerangkan lukisan "Starry Night" Dalam keterangan, ChatImg mengatakan bahawa Van Gogh adalah seorang pelukis Amerika. Anda memberitahunya Salah, ia boleh dibetulkan serta-merta; contoh kedua ChatImg membuat kesimpulan fizikal tentang objek dalam gambar itu adalah foto yang saya ambil sendiri. Terdapat dua pelangi dalam foto ini, dan ia Dikenali dengan tepat.
Kami mendapati bahawa contoh ketiga dan keempat di atas melibatkan isu emosi. Ini sebenarnya berkaitan dengan kerja yang akan kami lakukan seterusnya Kami ingin menyambungkan ChatImg ke robot. Robot hari ini biasanya pasif, dan semua arahan telah ditetapkan, yang menjadikannya kelihatan sangat tegar. Kami berharap robot yang disambungkan kepada ChatImg boleh berkomunikasi secara aktif dengan orang ramai. Bagaimana untuk melakukan ini? Pertama sekali, robot mesti dapat merasakan orang Ia mungkin untuk melihat keadaan dunia dan emosi orang secara objektif, atau mungkin untuk mendapatkan refleksi barulah robot itu dapat memahami dan berkomunikasi secara aktif dengan orang. Melalui dua contoh ini, saya merasakan bahawa matlamat ini boleh dicapai.
Akhir sekali, izinkan saya meringkaskan laporan hari ini. Pertama sekali, ChatGPT dan GPT-4 telah membawa inovasi kepada paradigma penyelidikan. Kita semua harus menerima perubahan ini secara aktif untuk mengatasi kesukaran. Penyelidikan multimodal tidak memerlukan mesin dengan ratusan kad Selagi strategi yang sepadan diterima pakai, sebilangan kecil mesin boleh melakukan kerja yang baik. Kedua, model generatif multi-modal sedia ada semuanya mempunyai masalah sendiri GPT-4 belum mempunyai versi visual terbuka, dan masih ada peluang untuk kita semua. Lebih-lebih lagi, saya fikir GPT-4 masih mempunyai masalah, yang mana model generatif berbilang mod akhirnya sepatutnya kelihatan seperti itu tidak memberikan jawapan yang sempurna (sebenarnya, ia tidak mendedahkan sebarang butiran GPT-4). Ini sebenarnya satu perkara yang baik Orang di seluruh dunia sangat pintar dan setiap orang mempunyai idea mereka sendiri. Ini mungkin mewujudkan situasi penyelidikan baru di mana seratus bunga mekar. Sekian sahaja ucapan saya, terima kasih semua.
Atas ialah kandungan terperinci 'Lu Zhiwu, seorang penyelidik di Universiti Renmin China, mencadangkan kesan penting ChatGPT pada model generatif pelbagai mod'. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

FP8 dan ketepatan pengiraan titik terapung yang lebih rendah bukan lagi "paten" H100! Lao Huang mahu semua orang menggunakan INT8/INT4, dan pasukan Microsoft DeepSpeed memaksa diri mereka menjalankan FP6 pada A100 tanpa sokongan rasmi daripada Nvidia. Keputusan ujian menunjukkan bahawa kaedah baharu TC-FPx FP6 kuantisasi pada A100 adalah hampir atau kadangkala lebih pantas daripada INT4, dan mempunyai ketepatan yang lebih tinggi daripada yang terakhir. Selain itu, terdapat juga sokongan model besar hujung ke hujung, yang telah bersumberkan terbuka dan disepadukan ke dalam rangka kerja inferens pembelajaran mendalam seperti DeepSpeed. Keputusan ini juga mempunyai kesan serta-merta pada mempercepatkan model besar - di bawah rangka kerja ini, menggunakan satu kad untuk menjalankan Llama, daya pemprosesan adalah 2.65 kali lebih tinggi daripada dua kad. satu
