Baru-baru ini, Profesor Lu Zhiwu, Profesor Madya Perennial Sun Hao, dan Dekan Profesor Wen Jirong dari Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin China menerbitkan artikel sebagai pengarang yang sepadan dalam jurnal komprehensif antarabangsa "Nature Communications" (nama Inggeris : Nature Communications, dirujuk sebagai Nat Commun) ) menerbitkan kertas penyelidikan bertajuk "Ke Arah Kecerdasan Umum Buatan melalui Model Asas Multimodal Pengarang pertama artikel itu ialah pelajar kedoktoran Fei Nanyi. Kerja ini cuba memanfaatkan model asas multimodal ke arah kecerdasan buatan am dan akan mempunyai implikasi yang luas untuk pelbagai bidang AI+ seperti neurosains dan penjagaan kesihatan. Artikel ini adalah tafsiran kertas ini.
Matlamat asas kecerdasan buatan adalah untuk meniru aktiviti kognitif teras manusia, seperti persepsi, ingatan, penaakulan, dll. Walaupun banyak algoritma atau model kecerdasan buatan telah mencapai kejayaan besar dalam pelbagai bidang penyelidikan, kebanyakan penyelidikan kecerdasan buatan masih terhad oleh pemerolehan sejumlah besar data berlabel atau sumber pengkomputeran yang tidak mencukupi untuk menyokong latihan mengenai data berskala besar satu keupayaan kognitif.
Untuk mengatasi batasan ini dan mengambil langkah ke arah kecerdasan buatan am, kami membangunkan model asas multimodal (Bahasa visual), iaitu model yang telah dilatih. Di samping itu, untuk model memperoleh keupayaan generalisasi yang kuat, kami mencadangkan bahawa gambar dan teks dalam data latihan harus mengikut hipotesis korelasi semantik yang lemah (seperti yang ditunjukkan dalam Rajah 1b), dan bukannya padanan halus kawasan gambar dan perkataan. (korelasi semantik yang kuat), kerana korelasi semantik yang kuat Andaian korelasi semantik akan menyebabkan model kehilangan emosi dan pemikiran yang kompleks yang dibayangkan oleh orang apabila memberi kapsyen pada gambar.
Rajah 1: Model BriVL berdasarkan andaian korelasi semantik yang lemah. a. Perbandingan antara model BriVL kami dan otak manusia dalam memproses maklumat bahasa visual. b. Perbandingan memodelkan data berkaitan semantik yang lemah dan memodelkan data berkaitan semantik yang kuat.
Dengan melatih data imej dan teks berskala besar yang dirangkak dari Internet, model asas berbilang modal yang kami perolehi menunjukkan keupayaan generalisasi dan imaginasi yang kukuh . Kami percaya bahawa kerja kami mewakili langkah penting (walaupun berpotensi kecil) ke arah kecerdasan buatan am dan akan mempunyai implikasi yang luas untuk pelbagai bidang AI+ seperti neurosains dan penjagaan kesihatan.
Kami membangunkan model asas berbilang modal berskala besar untuk latihan penyeliaan sendiri mengenai data berbilang modal besar, dan menamakannya BriVL (Bridging-Vision -dan-Bahasa).
Pertama, kami menggunakan set data imej dan teks berbilang sumber berskala besar yang dibina daripada Internet, dipanggil Weak Semantic Correlation Dataset (WSCD). WSCD mengumpul pasangan teks imej Cina daripada pelbagai sumber di web, termasuk berita, ensiklopedia dan media sosial. Kami hanya menapis data lucah dan sensitif dalam WSCD tanpa sebarang bentuk pengeditan atau pengubahsuaian pada data asal untuk mengekalkan pengedaran data semula jadinya. Secara keseluruhan, WSCD mempunyai kira-kira 650 juta pasangan teks gambar yang meliputi banyak topik seperti sukan, kehidupan harian dan filem.
Kedua, untuk seni bina rangkaian kami, memandangkan padanan perkataan serantau yang halus tidak semestinya wujud antara imej dan teks, kami membuang pengesan objek yang memakan masa dan menggunakan seni bina Menara berganda yang ringkas , dengan itu dapat mengekod input imej dan teks melalui dua pengekod bebas (Rajah 2). Struktur menara berkembar mempunyai kelebihan kecekapan yang jelas dalam proses inferens kerana ciri set calon boleh dikira dan diindeks sebelum membuat pertanyaan, memenuhi keperluan masa nyata aplikasi dunia sebenar. Ketiga, dengan pembangunan teknologi latihan teragih berskala besar dan pembelajaran penyeliaan sendiri, ia telah menjadi mungkin untuk melatih model dengan data berbilang modal besar tanpa label.
Khususnya, untuk memodelkan korelasi lemah pasangan teks imej dan mempelajari ruang semantik bersatu, kami mereka bentuk algoritma pembelajaran kontrastif merentas mod berdasarkan kaedah pembelajaran kontrastif mod tunggal MoCo. Seperti yang ditunjukkan dalam Rajah 2, model BriVL kami menggunakan mekanisme momentum untuk mengekalkan baris gilir sampel negatif secara dinamik dalam kelompok latihan yang berbeza. Dengan cara ini, kami mempunyai bilangan sampel negatif yang agak besar (kritikal untuk pembelajaran kontrastif) sambil menggunakan saiz kelompok yang agak kecil untuk mengurangkan penggunaan memori GPU (iaitu penjimatan sumber GPU).
Rajah 2: Gambar rajah skema model BriVL untuk latihan pra-latihan berbilang modal berskala besar.
Apabila kita mendengar perkataan atau ayat deskriptif, sesuatu terlintas di fikiran kita. Untuk BriVL kami, selepas ia dilatih terlebih dahulu pada sebilangan besar pasangan teks imej yang berkorelasi lemah, kami sangat ingin tahu tentang apa yang dibayangkan apabila teks diberikan.
Secara khusus, kami mula-mula memasukkan sekeping teks dan mendapatkan pembenaman teksnya melalui pengekod teks BriVL. Kemudian kami secara rawak memulakan imej yang bising dan mendapatkan pembenaman cirinya melalui pengekod imej. Memandangkan imej input dimulakan secara rawak, cirinya mestilah tidak konsisten dengan teks input. Oleh itu, kami menentukan matlamat memadankan dua pembenaman ciri dan mengemas kini imej input melalui perambatan belakang. Imej yang terhasil jelas menunjukkan bagaimana BriVL membayangkan teks input. Di sini kami tidak menggunakan sebarang modul atau data tambahan, dan BriVL yang telah dilatih juga dibekukan sepanjang proses visualisasi.
Kami mula-mula memperkenalkan keupayaan BriVL untuk membayangkan beberapa konsep semantik peringkat tinggi (Rajah 3). Seperti yang anda lihat, walaupun konsep ini sangat abstrak, visualisasi dapat menunjukkannya dalam bentuk konkrit (cth., "alam semula jadi": tumbuhan seperti rumput; "masa": jam; "sains": wajah dengan gelas dan kelalang Erlenmeyer; "Dreamland": awan, jambatan ke pintu, dan suasana seperti mimpi). Keupayaan untuk menyamaratakan konsep abstrak kepada satu siri objek konkrit menunjukkan keberkesanan pra-latihan multimodal kami hanya menggunakan data berkaitan semantik yang lemah.
Rajah 3: Imaginasi model BriVL tentang konsep abstrak.
Dalam Rajah 4, kami menunjukkan imaginasi BriVL untuk ayat. Imaginasi BriVL tentang "Terdapat cahaya matahari di sebalik awan" bukan sahaja merangkumi cahaya matahari di sebalik awan, tetapi juga nampaknya menunjukkan keadaan berbahaya di laut (terdapat objek seperti kapal dan ombak di sebelah kiri), menyatakan maksud tersirat ini ayat . Dalam visualisasi "Mekar sebagai Bunga Musim Panas" kita dapat melihat sekumpulan bunga. Input teks yang lebih kompleks untuk dua senario seterusnya adalah kedua-duanya daripada puisi Cina purba, dan sintaksnya berbeza sama sekali daripada kebanyakan teks dalam set latihan. Nampaknya BriVL juga boleh memahaminya dengan baik: untuk "Tiga atau dua dahan bunga pic di luar buluh", kita dapat melihat bahawa terdapat buluh dan bunga merah jambu untuk "Matahari di atas pergunungan, Sungai Kuning mengalir ke dalam laut", kita dapat melihat pokok-pokok di atas gunung menutupi matahari terbenam, dan terdapat sebuah bot kecil di sungai di hadapan. Secara keseluruhannya, kami mendapati bahawa BriVL kekal sangat imaginatif walaupun digesa oleh ayat yang kompleks.
Rajah 4: Imaginasi model BriVL tentang ayat bahasa Cina.
Dalam Rajah 5, beberapa teks yang serupa digunakan untuk visualisasi rangkaian saraf BriVL. Untuk "Gunung dengan Hutan" terdapat lebih banyak kawasan hijau dalam imej; untuk "Gunung dengan Batu" terdapat lebih banyak batu dalam imej; untuk "Gunung dengan Salji" tanah di sekeliling pokok tengah sama ada putih atau Biru; dengan Air Terjun" air biru boleh dilihat jatuh ke bawah dan juga beberapa wap air. Visualisasi ini menunjukkan bahawa BriVL boleh memahami dan membayangkan pengubah gunung dengan tepat.
Rajah 5: Imaginasi model BriVL tentang “gunung dengan…”.
Penggambaran rangkaian saraf sangat mudah, tetapi kadangkala sukar untuk ditafsirkan. Oleh itu, kami membangunkan pendekatan visualisasi/tafsiran alternatif supaya kandungan BriVL yang dibayangkan dapat difahami dengan lebih baik oleh kita manusia. Khususnya, kami memanfaatkan VQGAN untuk menjana imej di bawah bimbingan BriVL kerana VQGAN, yang telah dilatih pada set data ImageNet, sangat baik dalam menjana imej yang realistik. Kami mula-mula secara rawak mendapatkan jujukan token dan mendapatkan imej yang dijana daripada VQGAN yang telah terlatih. Seterusnya, kami memasukkan imej yang dijana ke dalam pengekod imej BriVL dan sekeping teks ke dalam pengekod teks. Akhir sekali, kami mentakrifkan sasaran padanan antara pembenaman imej dan teks dan mengemas kini jujukan token awal melalui perambatan belakang. Seperti visualisasi rangkaian saraf, kedua-dua VQGAN dan BriVL dibekukan semasa proses penjanaan. Sebagai perbandingan, kami juga menunjukkan imej yang dijana oleh model CLIP OpenAI dan bukannya BriVL.
Kami mula-mula memilih empat input teks, menunjukkan hasil graf penjanaan teks CLIP dan BriVL kami masing-masing dalam Rajah 6 dan Rajah 7. Kedua-dua CLIP dan BriVL memahami teks dengan baik, namun kami juga melihat dua perbezaan utama. Pertama, elemen gaya kartun akan muncul dalam imej yang dihasilkan oleh CLIP, manakala imej yang dihasilkan oleh BriVL adalah lebih realistik dan semula jadi. Kedua, CLIP cenderung untuk meletakkan elemen bersama-sama, manakala BriVL menghasilkan imej yang lebih bersatu secara global. Perbezaan pertama mungkin disebabkan oleh data latihan berbeza yang digunakan oleh CLIP dan BriVL. Imej dalam data latihan kami dikikis daripada Internet (kebanyakannya foto sebenar), sementara mungkin terdapat beberapa imej kartun dalam data latihan CLIP. Perbezaan kedua mungkin disebabkan oleh fakta bahawa CLIP menggunakan pasangan teks imej dengan korelasi semantik yang kuat (melalui penapisan perkataan), manakala kami menggunakan data berkorelasi lemah. Ini bermakna semasa pralatihan berbilang modal, CLIP lebih berkemungkinan mempelajari kesesuaian antara objek tertentu dan perkataan/frasa, manakala BriVL cuba memahami setiap imej dengan teks yang diberikan secara keseluruhan.
Rajah 6: CLIP (w/ ResNet-50x4) menggunakan VQGAN untuk melaksanakan contoh graf penjanaan teks .
Rajah 7: BriVL Kami Contoh pelaksanaan VQGAN untuk menjana graf.
Kami juga menganggap tugas yang lebih mencabar untuk menghasilkan jujukan imej berdasarkan berbilang ayat berturut-turut. Seperti yang ditunjukkan dalam Rajah 8, walaupun setiap imej dijana secara bebas, kita dapat melihat bahawa empat imej adalah koheren secara visual dan mempunyai gaya yang sama. Ini menunjukkan satu lagi kelebihan model BriVL: walaupun persekitaran dan latar belakang dalam imej sukar untuk disebut secara eksplisit dalam teks yang berkaitan, ia tidak diabaikan dalam pra-latihan berbilang modal berskala besar kami.
Rajah 8: Contoh BriVL kami menggunakan VQGAN untuk menjana satu siri kandungan yang koheren.
Dalam Rajah 9, kami telah memilih beberapa konsep/senario yang jarang dilihat oleh manusia (seperti "laut terbakar" dan "hutan bercahaya"), malah yang tidak wujud dalam Konsep/senario kehidupan sebenar (cth. " bandar cyberpunk" dan "istana di awan"). Ini membuktikan bahawa prestasi unggul BriVL tidak datang dari overfitting kepada data pra-latihan, kerana input konsep/senario di sini bahkan tidak wujud dalam kehidupan sebenar (sudah tentu, kemungkinan besar tiada dalam set data pra-latihan ). Tambahan pula, contoh yang dijana ini mengesahkan semula kelebihan pra-latihan BriVL pada data berkaitan semantik yang lemah (kerana penjajaran kata serantau yang halus akan menjejaskan keupayaan imaginasi BriVL).
Rajah 9: Lebih banyak hasil penjanaan teks BriVL, konsep/senarionya Ia adalah sesuatu yang manusia tidak sering melihat atau bahkan tidak wujud dalam kehidupan sebenar.
Selain itu, kami juga telah menggunakan BriVL pada berbilang tugas hiliran seperti pengelasan tangkapan sifar imej penderiaan jauh, klasifikasi tangkapan sifar berita Cina, soal jawab visual, dsb. ., dan telah mencapai beberapa keputusan yang menarik Sila lihat teks asal kertas kami untuk butiran.
Kami membangunkan model asas multimodal berskala besar yang dipanggil BriVL, yang beroperasi pada 650 juta imej dan teks yang berkaitan dengan semantik lemah. Kami secara intuitif menunjukkan ruang pembenaman teks imej yang sejajar melalui visualisasi rangkaian saraf dan graf yang dijana teks. Di samping itu, eksperimen pada tugas hiliran lain juga menunjukkan keupayaan pembelajaran/pemindahan merentas domain BriVL dan kelebihan pembelajaran pelbagai mod berbanding pembelajaran mod tunggal. Khususnya, kami mendapati bahawa BriVL nampaknya telah memperoleh beberapa keupayaan untuk membayangkan dan menaakul. Kami percaya kelebihan ini terutamanya datang daripada andaian korelasi semantik yang lemah diikuti oleh BriVL. Iaitu, dengan melombong emosi dan pemikiran manusia yang kompleks dalam pasangan teks imej yang berkorelasi lemah, BriVL kami menjadi lebih kognitif.
Kami percaya bahawa langkah yang kami ambil ke arah kecerdasan buatan am ini akan memberi impak yang luas bukan sahaja pada bidang kecerdasan buatan itu sendiri, tetapi juga pada pelbagai bidang AI +. Untuk penyelidikan kecerdasan buatan, berdasarkan rangka kerja pra-latihan berbilang modal penjimatan sumber GPU kami, penyelidik boleh dengan mudah memanjangkan BriVL kepada magnitud yang lebih besar dan lebih banyak modaliti untuk mendapatkan model asas yang lebih umum. Dengan bantuan model asas berbilang modal berskala besar, ia juga lebih mudah bagi penyelidik untuk meneroka tugas baharu (terutamanya yang tidak mempunyai sampel anotasi manusia yang mencukupi). Untuk medan AI+, model asas boleh menyesuaikan diri dengan pantas kepada persekitaran kerja tertentu kerana keupayaan generalisasi yang kukuh. Sebagai contoh, dalam bidang penjagaan kesihatan, model asas multimodal boleh menggunakan sepenuhnya data multimodal kes untuk meningkatkan ketepatan diagnostik dalam bidang neurosains, model asas multimodal mungkin membantu mengetahui cara maklumat multimodal digunakan dalam Mekanisme gabungan; dalam otak manusia, kerana rangkaian saraf tiruan lebih mudah dipelajari daripada sistem saraf sebenar dalam otak manusia.
Walau bagaimanapun, model asas multimodal masih menghadapi beberapa risiko dan cabaran. Model asas mungkin mempelajari bias dan stereotaip tentang perkara tertentu, dan isu ini harus ditangani dengan teliti sebelum latihan model dan dipantau dan ditangani dalam aplikasi hiliran. Di samping itu, apabila model asas memperoleh lebih banyak keupayaan, kita mesti berhati-hati bahawa ia disalahgunakan oleh orang yang berniat jahat untuk mengelak daripada memberi kesan negatif kepada masyarakat. Selain itu, terdapat juga beberapa cabaran dalam penyelidikan masa depan tentang model asas: cara membangunkan alat kebolehtafsiran model yang lebih mendalam, cara membina set data pra-latihan dengan lebih banyak modaliti, dan cara menggunakan teknik penalaan halus yang lebih berkesan untuk mengubah model asas. . Digunakan untuk pelbagai tugas hiliran.
Penulis makalah ini ialah: Fei Nanyi, Lu Zhiwu, Gao Yizhao, Yang Guoxing, Huo Yuqi, Wen Jingyuan, Lu Haoyu, Song Ruihua, Gao Xin, Xiang Tao, Sun Hao, Wen Jirong ; Pengarang yang sepadan ialah Profesor Lu Zhiwu, Profesor Madya Tetap Sun Hao, dan Profesor Wen Jirong dari Sekolah Kecerdasan Buatan Hillhouse, Universiti Renmin China. Makalah itu diterbitkan dalam jurnal komprehensif antarabangsa "Nature Communications" (nama Inggeris: Nature Communications, disingkat sebagai Nat Commun). Makalah ini telah ditafsirkan oleh Fei Nanyi.
Atas ialah kandungan terperinci Sub-jurnal Nature dari Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin cuba menggunakan model asas berbilang modal untuk bergerak ke arah kecerdasan buatan umum. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!