Berikut ialah kandungan ucapan Zhou Bowen di Persidangan Tahunan Heart of Machine AI Technology telah menyunting dan mengaturnya tanpa mengubah maksud asal:
Terima kasih, Jantung Mesin Dijemput oleh hati saya, saya Zhou Bowen dari Universiti Tsinghua. Kini adalah penghujung kalendar lunar dan permulaan kalendar Gregorian Saya sangat gembira mendapat jemputan sedemikian untuk berkongsi dengan anda ringkasan kami tentang trend pembangunan kecerdasan buatan dalam tempoh yang lalu, serta beberapa pemikiran tentang. masa hadapan.
Pertama kongsi idea teras Jika anda hanya boleh mengingati tiga perkara selepas mendengar keseluruhan ucapan, sila ingat tiga perkara ini:
Pertama, kejayaan seterusnya dalam kecerdasan buatan akan beralih daripada kewujudan maya semata-mata kepada membantu orang ramai memperoleh pandangan yang lebih cekap dan membentuk pengetahuan baharu dalam dunia fizikal, biologi dan maklumat . , selesaikan tugas dan buat senario bernilai lebih tinggi.
Kedua, generasi kecerdasan buatan seterusnya perlu segera mengukuhkan gabungan pengetahuan (termasuk pengetahuan gelap), pengiraan dan keupayaan penaakulan. Keupayaan gabungan ini sangat penting, tetapi kami percaya bahawa interaksi + kerjasama yang cekap antara kecerdasan buatan dan manusia dan alam sekitar adalah teras untuk menggabungkan kebolehan ini.
Terdapat dua sebab: Pertama, kerana kerjasama dan interaksi dengan manusia dan alam sekitar adalah syarat yang diperlukan untuk penciptaan nilai tinggi Tanpa kerjasama antara AI dan manusia, AI tidak dapat menyelesaikan tugasan ini secara bebas. Senario bernilai tinggi; kedua, kerana kerjasama dan interaksi seperti ini juga merupakan cara yang berkesan untuk meningkatkan keupayaan pengetahuan, pengkomputeran, penaakulan dan gabungan AI. AI telah mencapai kemajuan yang besar dalam pengkomputeran, tetapi masih terdapat kesesakan besar antara pengetahuan dan penaakulan dan gabungan modul yang berkesan. Menambahkan kerjasama dan interaksi antara manusia dan alam sekitar boleh membantu mengatasi beberapa kesesakan AI dalam bidang ini.
Ketiga, kami mempunyai tiga pertimbangan tentang pelbagai modaliti: pertama, pemahaman dan penjanaan pelbagai modal adalah asas penting dalam kerjasama dan interaksi kedua, dalam dua tahun lalu, antara modaliti yang berbeza , Ini adalah syarat asas yang sangat baik untuk pembelajaran perwakilan untuk disatukan di antara komputer, ketiga, ChatGPT yang popular baru-baru ini, sebagai prototaip paradigma masa depan untuk penciptaan bersama dan interaksi manusia-mesin, pasti akan berkembang menjadi pelbagai modaliti; masa depan dan akan menjadi model multi-modal Pembelajaran dinamik membawa peluang baharu. Walaupun ia masih mempunyai banyak aspek naif, penyampaian paradigma ini menunjukkan kita ke arah masa depan.
Perkara di atas adalah intipatinya. Dalam laporan hari ini, saya akan bercakap tentang kecerdasan interaktif kolaboratif dan pembelajaran pelbagai mod, dan menyemak kemajuan dan peluang terkini.
Bahagian Pertama, dari perspektif kecerdasan interaktif tradisional, kami telah melangkah jauh. Pertama sekali, saya ingin menekankan bahawa kerjasama dan interaksi yang kita bicarakan hari ini adalah berbeza sama sekali daripada kecerdasan interaktif asal. Dari segi sejarah, interaksi lebih kepada diberikan sistem terlatih dan melengkapkan interaksi sebagai tugas, seperti daripada ELIZA, IBM Watson, Microsoft Xiaoice, Siri kepada perkhidmatan pelanggan pintar JD.com. Kerjasama dan interaksi yang kita bicarakan hari ini ialah menggunakan interaksi sebagai kaedah pembelajaran dan kolaborasi sebagai pembahagian kerja antara AI dan manusia untuk melengkapkan penyepaduan kerjasama manusia-mesin dengan lebih baik untuk mendapatkan cerapan, membentuk pengetahuan baharu dan menyelesaikan tugasan. Ini adalah perspektif sejarah kecerdasan interaktif secara keseluruhan. Dapat diperhatikan bahawa apa yang mendorong kemajuan ialah perubahan dalam perspektif teknikal, termasuk daripada templat peraturan awal kepada dialog berasaskan tugas berasaskan Bingkai, kepada penjanaan model bahasa statistik, Model Seq2seq dan model pra-latihan berskala ultra besar. .
Mengenai perubahan ini, kami mempunyai pertimbangan bahawa pusingan baharu inovasi dalam AI pasti akan membawa perubahan kepada produktiviti corak. Beberapa tahun yang lalu, semua orang bercakap lebih lanjut tentang senario aplikasi kecerdasan buatan, memfokuskan pada bidang seperti pemeriksaan kualiti pintar dan perkhidmatan pelanggan. Tetapi kini kita melihat bahawa senario inovasi AI semakin kompleks, mula melibatkan penciptaan kandungan artistik, penemuan dadah dan penemuan pengetahuan baharu. Buku terlaris "Thinking Fast And Slow" oleh Daniel Kahneman, pemenang Hadiah Nobel dalam Ekonomi 2002, mencadangkan bahawa terdapat dua jenis kaedah pemikiran manusia: Sistem 1 dicirikan oleh gerak hati dan ketidaksadaran, dan Sistem 1 dicirikan oleh intuisi dan tidak sedarkan diri 2 Terdapat bahasa, algoritma, pengiraan, dan logik di dalamnya.
Dalam beberapa tahun kebelakangan ini, kecerdasan buatan telah digunakan lebih banyak dalam senario Sistem 1, tetapi pada masa hadapan, termasuk apa yang berlaku sekarang, kecerdasan buatan sebenarnya lebih baik dan lebih sesuai untuk mengambil lebih banyak tugas daripada perspektif kerjasama manusia-mesin Sistem 2 berfungsi. Oleh kerana Sistem 1 lebih cekap untuk orang ramai, ia adalah tugas dengan penggunaan otak yang rendah dan beban kognitif yang rendah, manakala Sistem 2 mempunyai beban kognitif yang sangat berat untuk orang ramai. Cuma pada masa lalu, kemajuan teknologi kecerdasan buatan hanya boleh melakukan sistem 1 dan bukan sistem 2 dengan baik Trend semasa ialah AI semakin hampir dengan sistem 2.
Dari perspektif gelung tertutup industri, adegan AI mempunyai berubah daripada kolar biru kepada kolar biru pada masa lalu Kerja berulang (pemeriksaan kualiti, perkhidmatan pelanggan, dll.) telah menjadi kawasan aplikasi untuk pekerja kolar putih dan inovasi pengetahuan. Tidak syak lagi bahawa ini akan membawa ruang nilai yang lebih besar dan lebih banyak kesan roda tenaga. Apakah kesan roda tenaga? Maksudnya, AI boleh membantu pekerja kolar putih dan pekerja berpengetahuan lebih memahami, memperoleh cerapan dan membentuk pengetahuan baharu. Pengetahuan baharu akan membantu mereka bentuk AI yang lebih baik, dan AI yang lebih baik boleh menjana lebih banyak pengetahuan baharu.
Di bawah aliran ini, kita mesti sedar dengan jelas bahawa cara AI dan orang ramai mesti berubah, kerana AI bukan lagi AI asal Sistem 1, tetapi menjadi AI Sistem 2. Dalam kes ini, cara AI harus bekerjasama dan berinteraksi adalah isu canggih yang perlu dipertimbangkan.
Mengapa AI perlu mempunyai keupayaan untuk menggabungkan pengetahuan, pengiraan dan penaakulan? Berikut ialah beberapa contoh pengiraan berbilang modal untuk rujukan anda:
Sebagai contoh, dalam gambar pertama di sebelah kiri , tanya Di mana orang berjaket merah berkemungkinan besar akan tamat pada akhir permainan, jawapannya ialah tempat keempat. Untuk menjawab soalan sedemikian, sebagai tambahan kepada pembahagian imej yang sangat tepat dan pembahagian semantik, banyak penaakulan akal dan penaakulan diskret juga diperlukan. Ini adalah perkara yang sistem AI semasa kami sangat, sangat kurang.
Untuk contoh kedua, apakah yang membuatkan kerusi ini mudah dibawa? Jawapannya ialah "boleh dilipat". Terdapat juga penaakulan logik di dalamnya. Cabaran Sistem 2 seperti ini sebenarnya memerlukan lebih banyak lelaran dan evolusi kecerdasan buatan.
Perkembangan yang semua orang sedia maklum pada masa ini ialah penemuan model bahasa pra-latihan berskala besar. Jadi persoalan yang wajar ialah, jika kita terus mengikuti paradigma ini, bolehkah kita menyelesaikan penyepaduan berkesan senario aplikasi dan pengetahuan, pengiraan dan penaakulan yang berkesan?
Ambil GPT-3 sebagai contoh Semua orang tahu bahawa ia mempunyai 175 bilion parameter. Di satu pihak, dengan sokongan "Undang-undang Penskalaan", ia mempunyai lebih banyak data dan keupayaan modelnya semakin kuat dan lebih kukuh di sisi lain, beberapa sarjana di NYU telah mengadakan cabaran yang dipanggil "Penskalaan Songsang" untuk semua orang untuk mencari Beberapa senario aplikasi - lebih besar model dan lebih besar parameter, lebih teruk prestasinya.
Terdapat dua contoh dalam gambar di atas: satu dipanggil Negation QA, iaitu negation of negation, menggunakan penafian berganda. Menguji keupayaan pemahaman dan penaakulan model yang telah dilatih. Yang satu lagi ialah Redefine Math, Tugas ini mentakrifkan semula pemalar matematik untuk masalah pengiraan matematik sedia ada untuk menguji sama ada model bahasa boleh memahami maksudnya dan mengira dengan betul Kira. Seperti yang anda lihat dari dua rajah di sebelah kanan, untuk tugasan ini, lebih besar parameter model, lebih rendah ketepatannya.
Contoh ini sebenarnya menunjukkan bahawa model asas mungkin menjadi asas kecerdasan interaktif masa hadapan, secara peribadi saya fikir ia adalah perkataan yang lebih penting daripada "model besar". Perkara yang sangat penting ialah model asas bukanlah bentuk terakhirnya Untuk menyelesaikan masalah yang dihadapi, ia perlu divisualisasikan dengan lebih baik. Oleh itu, saya mencadangkan gabungan ilmu, pengiraan dan penaakulan yang berkesan adalah hala tuju yang perlu diteliti seterusnya. Aspek penting gabungan ini ialah kerjasama dan interaksi manusia boleh menggalakkan peningkatan model asas ini.
Kami menggunakan contoh lain berdasarkan model GPT3 "InstructGPT" sebagai perbandingan:
Untuk beberapa soalan, GPT-3 boleh belajar menjawab dengan baik berdasarkan gesaan. Tetapi jika anda meminta untuk menerangkan pendaratan bulan kepada kanak-kanak berusia 6 tahun, dari segi keupayaan model asas GPT3, ia mempunyai pelbagai sudut untuk menjawab soalan ini, kerana ia mempunyai sejumlah besar nilai di belakangnya. Sebagai contoh, bermula dari prinsip fizikal graviti, ini adalah yang pertama dari perspektif latar belakang sejarah, pendaratan di bulan berlaku semasa Perang Dingin antara Amerika Syarikat dan Kesatuan Soviet, menjelaskan bagaimana Perang Dingin. berlaku dan bagaimana ia membawa kepada projek pendaratan di bulan; Yang ketiga ialah dari perspektif astronomi, bulan adalah planet bumi. Jenis keempat bermula dari perspektif manusia Sebagai contoh, manusia sentiasa ingin mendarat di bulan Terdapat banyak legenda indah tentang Chang'e di China, dan perkara yang sama berlaku di Barat.
Namun, model GPT3 masa kini sukar untuk menilai kaedah mana yang sesuai untuk mengajar perkara sedemikian kepada kanak-kanak berumur 6 tahun Ia lebih berdasarkan kekerapan dan kepentingan korpus, yang berkemungkinan besar Ia berdasarkan halaman Wikipedia untuk menerangkan tentang pendaratan di bulan dan projek pendaratan bulan, yang jelas tidak sesuai dengan konteksnya. Jadi InstructGPT adalah berdasarkan asas ini, membolehkan pengguna memilih dan menjaringkan empat jenis jawapan: a, b, c, dan d. Selepas kedudukan diberikan, maklum balas ini boleh diambil semula untuk memperhalusi model GPT3. Dengan cara ini, jika ada soalan baru seterusnya, seperti "Tulis cerita katak", permulaan model ini akan menjadi "satu masa dulu", cara yang sangat sesuai untuk kanak-kanak mula mendengar cerita.
Maksud pertama keputusan ini ialah model sudah pasti lebih cekap, dan perkara lain ialah ia membantu mengurangkan parameter model. InstructGPT hanya mempunyai 1.3 bilion parameter model, yang beratus kali dimampatkan berbanding model GPT3, tetapi ia boleh memberi perkhidmatan yang lebih baik kepada orang dalam senario tertentu. Interaksi kolaboratif ialah syarat yang diperlukan untuk meningkatkan pengetahuan pengkomputeran gelung tertutup AI, pengiraan dan keupayaan penaakulan.
Kami percaya bahawa kecerdasan merangkumi tiga kebolehan asas: pengetahuan, pengiraan dan penaakulan. Kami melihat bahawa pengkomputeran sedang berkembang dengan sangat pantas Sudah tentu, pengkomputeran juga mempunyai cabaran dalam kuasa dan data pengkomputeran, tetapi kekurangan pengetahuan dan penaakulan amat jelas.
Jadi inilah soalan: Bagaimana untuk mencapai gelung tertutup antara ketiga-tiganya? Bolehkah mengukuhkan interaksi kolaboratif aktif antara AI, manusia dan alam sekitar dengan lebih baik membantu AI mencapai gelung tertutup antara ketiga-tiganya? Pandangan akademik kami ialah kami perlu memperkenalkan kerjasama dan interaksi antara AI, manusia dan alam sekitar Di satu pihak, kami boleh meningkatkan keupayaan setiap modul, dan sebaliknya, kami boleh menggabungkan modul untuk membentuk kolaboratif. interaksi.
Menggemakan titik pembukaan kami, kejayaan AI seterusnya akan beralih daripada kewujudan maya kepada membantu orang ramai memperoleh cerapan pengetahuan baharu dan menyelesaikan tugasan dalam dunia fizikal, biologi dan maklumat dengan lebih cekap.
Di Pusat Penyelidikan Perisikan Interaktif Kolaboratif Universiti Tsinghua, kami terutamanya mencadangkan dan melakukan penyelidikan mengenai isu akademik ini:
Yang pertama ialah kami mengemukakan perspektif kerjasama baharu, iaitu kami mengkaji untuk menjadikan AI lebih bertanggungjawab terhadap sistem 2 dan orang yang lebih bertanggungjawab untuk sistem 1. Cabaran pertama yang dibawa ini ialah AI sendiri mesti beralih lebih ke arah tugas seperti penaakulan logik, pengiraan tinggi dan kerumitan tinggi, bukannya hanya melakukan pengecaman corak dan kerja gerak hati Sistem 1. Cabaran kedua ialah bagaimana manusia dan AI boleh bekerjasama di bawah bahagian kerja baharu ini. Ini adalah dua hala tuju penyelidikan.
Yang kedua ialah dalam kerjasama antara AI dan manusia, membolehkan AI mempelajari pembelajaran pengukuhan manusia dalam gelung dengan lebih baik. Kita perlu mengkaji pembelajaran berterusan AI yang lebih baik, dan melakukan banyak kerja peningkatan perwakilan berbilang mod dalam kerjasama antara AI, alam sekitar dan manusia. Multimodaliti adalah saluran penting untuk kerjasama, dan pada masa yang sama, mekanisme peningkatan untuk interaksi perbualan mesti diperkukuh.
Terdapat juga sinergi yang sangat penting, iaitu sinergi antara AI dan alam sekitar. AI perlu menyesuaikan diri dengan persekitaran yang berbeza ini boleh disimpulkan dalam satu ayat: penyesuaian awan ke tepi dan evolusi diri dari tepi ke awan. Adalah mudah untuk memahami penyesuaian diri dari awan ke tepi Di bawah kuasa pengkomputeran dan keadaan komunikasi yang berbeza, bagaimana untuk menjadikan model asas ini lebih sesuai dengan persekitaran ini, evolusi diri dari tepi ke awan sebenarnya membolehkan kecerdasan di tepi untuk membantu terbalik Model asas berulang lebih baik. Dalam erti kata lain, ini adalah kerjasama dan interaksi antara model kecil dan model besar. Walau bagaimanapun, kami tidak percaya bahawa kerjasama dan interaksi seperti ini adalah sehala. Ia hanya boleh menjadi model besar yang memperoleh model kecil melalui penyulingan dan pemangkasan pengetahuan. Kami percaya bahawa lelaran dan interaksi model kecil harus mempunyai laluan yang lebih berkesan ke model asas.
Kami percaya bahawa tiga laluan teknikal di atas adalah sangat penting. Akan ada sokongan peringkat bawah di bawah - mungkin penyelidikan semasa kami akan menghasilkan beberapa penemuan teori asas dalam kecerdasan buatan yang boleh dipercayai, kerana gabungan pengetahuan, pengiraan dan penaakulan yang lebih baik dapat menyelesaikan masalah yang asalnya disebabkan oleh pengetahuan, pengiraan, dan penaakulan. Cabaran kebolehtafsiran, keteguhan dan generalisasi kotak hitam yang dicipta oleh gabungan pengkomputeran dan penaakulan. Kami berharap dapat mencapai kemajuan ini dengan lebih baik dalam kecerdasan buatan yang boleh dipercayai dengan cara yang boleh dibahagikan dan boleh dikompilasi. Jika seseorang tidak dapat melihat secara telus proses penaakulan kecerdasan buatan, sebenarnya sukar untuk mempercayai keputusan Sistem 2 kecerdasan buatan.
Lihat masalah ini dari sudut lain. Semua orang tahu bahawa ChatGPT sangat popular baru-baru ini, jadi kami telah melakukan banyak kerja untuk mengelakkan ChatGPT. Sudah tentu, ia juga termasuk Galactica, sistem yang dicadangkan oleh Facebook suatu ketika dahulu yang menggunakan AI untuk membantu menulis kertas saintifik. Kami mendapati bahawa mereka semua memerlukan kerjasama orang ramai dan alam sekitar untuk mencipta adegan. Senario nilai ini sebenarnya tidak wujud sebelum ini, tetapi kini ia mula menjadi mungkin. Tetapi sebaik sahaja kemungkinan ini dipisahkan daripada kerjasama dan interaksi manusia, kami akan segera mendapati bahawa sistem AI ini gagal.
Termasuk Galactica, yang boleh menulis kertas yang sangat lancar, tetapi banyak fakta asas dan rujukan yang salah . Sebagai contoh, nama pengarang adalah benar, tetapi sebahagian daripada tajuk adalah benar dan sebahagian palsu, atau berbilang kertas digabungkan bersama. Apa yang ingin saya tekankan ialah AI semasa tidak mempunyai keupayaan untuk melengkapkan gelung tertutup lengkap pengetahuan, pengiraan dan penaakulan ini, jadi ia mesti melibatkan manusia.
Walaupun Galactica akan berada di luar talian tidak lama lagi, tujuannya bukan untuk membenarkan semua orang menggunakannya untuk menyelesaikan kertas kerja dan penyelidikan saintifik secara bebas, tetapi untuk membantu orang ramai dengan lebih baik, jadi orang mesti berada dalam lingkaran tertutup dalam. Ini adalah satu lagi perspektif yang menekankan bahawa kerjasama dan interaksi manusia adalah syarat asas yang sangat penting.
Seterusnya, saya akan bercakap tentang cara saya melihat kemajuan dan peluang baharu pembelajaran pelbagai mod dalam konteks interaksi kolaboratif. Pertama sekali, saya fikir multimodaliti telah berkembang dengan sangat pesat sejak kebelakangan ini, dan ia telah mula membawa beberapa trend yang jelas.
Pertama, terdapat penumpuan antara pelbagai mod dalam dimensi pemodelan dan pencirian struktur. Sebagai contoh, pada masa lalu, dalam imej dan video, semua orang menggunakan CNN, kerana teks ialah Model Jujukan, dan semua orang kebanyakannya menggunakan RNN dan LSTM Tetapi sekarang, tidak kira apa modalitinya, semua orang boleh menganggap semua input token sebagai satu Jujukan atau Model Graf diproses menggunakan perhatian kendiri ditambah mekanisme berbilang kepala. Seni bina Transformer yang popular dalam beberapa tahun kebelakangan ini telah menjadikan struktur pada asasnya semua model bertumpu.
Tetapi persoalan yang mendalam ialah, mengapa seni bina Transformer ini mempunyai kelebihan untuk semua perwakilan modal? Kami juga mempunyai beberapa pemikiran, dan kesimpulannya ialah Transformer boleh memodelkan mod yang berbeza dalam ruang topologi geometri yang lebih universal, seterusnya mengurangkan halangan pemodelan antara pelbagai mod. Oleh itu, kelebihan Transformer ini hanya meletakkan asas untuk penumpuan seni bina ini dalam arah berbilang modal.
Kedua, kami mendapati bahawa dimensi pra-latihan pelbagai mod juga bertumpu. Bert yang terawal dicadangkan dalam bidang bahasa semula jadi, dan mod Topeng ini meledakkan model pra-latihan. Kerja terkini, termasuk kerja MAE guru He Kaiming, termasuk kerja dalam bidang pertuturan, sentiasa menggunakan idea yang serupa. Melalui kaedah topeng ini, seni bina model pra-latihan konvergen terbentuk antara modaliti yang berbeza. Kini halangan pra-latihan antara modaliti telah dipecahkan, dan dimensi model pra-latihan telah terus menumpu. Sebagai contoh, MAE memperkenalkan kaedah pra-latihan BERT ke dalam pelbagai modaliti seperti penglihatan, imej dan suara. Oleh itu, mekanisme Topeng menunjukkan kesejagatan dalam pelbagai modaliti.
Trend ketiga ialah penyatuan parameter pra-seni bina dan matlamat pra-latihan. Pada masa ini, seni bina Transformer digunakan untuk memodelkan teks, imej dan audio, dan parameter boleh dikongsi antara berbilang tugas.
Khususnya, model pra-latihan pelbagai mod semasa terbahagi terutamanya kepada model aliran tunggal dan dwi-strim . Dalam seni bina satu aliran, kami menganggap bahawa korelasi dan penjajaran asas antara kedua-dua model adalah agak mudah. Seni bina dwi-aliran menganggap bahawa adalah perlu untuk memisahkan interaksi kelas modal dalam modaliti dan interaksi antara mod bersilang untuk mendapatkan perwakilan berbilang modal yang lebih baik dan dapat mengekod dan menggabungkan maklumat modal yang berbeza.
Persoalannya ialah sama ada terdapat cara yang lebih baik untuk menyatukan idea ini. Trend semasa ialah sparsity dan modulariti mungkin dua sifat utama antara multi-modal, multi-tugas yang lebih berkuasa. Model pakar jarang boleh dilihat sebagai sistem model pakar jarang seimbang antara aliran tunggal dan dwi-aliran, yang boleh mengendalikan pakar yang berbeza, modaliti dan tugas yang berbeza.
Satu soalan yang kami bangkitkan ialah sama ada kami boleh menggunakan model interaksi kolaboratif untuk memampatkan model Google Pathway sebanyak seratus kali pada tugasan khusus ini, tetapi mengekalkan kesederhanaan dan struktur modul ini? Kerja jenis ini sangat sesuai untuk kajian susulan.
Berbalik kepada aspek interaksi kolaboratif perbualan, saya rasa ChatGPT ialah kerja yang sangat penting pada masa ini interaksi. Ia boleh Digunakan dalam penulisan akademik, penjanaan kod, ensiklopedia Soal Jawab, pemahaman arahan, dll. Model asas pra-latihan boleh menyediakan pelbagai keupayaan seperti menjawab soalan pintar interaktif, menulis dan penjanaan kod. Peningkatan keupayaan teras ChatGPT adalah untuk menambah pembelajaran peneguhan manusia-dalam-gelung kepada GPT 3, serta pemilihan manusia dan pemeringkatan jawapan yang berbeza.
Walaupun borang pembentangan semasa dalam ChatGPT adalah bahasa semula jadi sebagai pembawa utama, keseluruhan modaliti interaksi pasti akan berkembang kepada pelbagai mod ini. Kerjasama dan interaksi manusia dalam senario pelbagai modal sebenarnya akan menjadi lebih cekap, membawa lebih banyak maklumat, dan membawa integrasi pengetahuan daripada pelbagai modaliti.
Jika keupayaan interaksi kolaboratif orang ini dalam gelung dan keupayaan penjanaan AI disepadukan, banyak perkara boleh dilakukan. Contohnya, model ChatGPT interaksi kolaboratif dan Model Difusi disepadukan untuk inovasi produk dan inovasi reka bentuk. Dalam proses interaksi kolaboratif, model seperti ChatGPT sentiasa mencari aliran arus perdana dalam reka bentuk semasa dan keutamaan pengguna tertentu Melalui cerapan pengalaman emosi senario pengguna, pertimbangan tentang trend reka bentuk dan aliran teknologi, digabungkan dengan jumlah yang besar. daripada Analisis gambar boleh mencapai penciptaan bersama melalui beberapa pusingan interaksi kolaboratif dengan pereka bentuk atau pengurus produk profesional.
Dalam beberapa senario yang sangat terperinci, ramai orang sebenarnya tidak mempunyai pengetahuan awal, seperti dalam bidang rumah pintar, tetapi orang boleh menjana idea ini melalui pelbagai pusingan interaksi kolaboratif manusia-komputer . Reka bentuk, dan kemudian gunakan Model Resapan Stabil untuk mengubah pengalaman adegan kata kunci teras kreativiti manusia ini kepada lukisan reka bentuk asal yang dipulihkan dengan kesetiaan tinggi. Interaksi kolaboratif boleh membantu orang ramai melaksanakan inovasi produk dan inovasi reka bentuk yang lebih cekap, yang mana kami di Xianyuan Technology lakukan.
Kerja pelbagai mod menjadi semakin penting, jadi pusat kami menerajui pelancaran keluaran khas TPAMI 2023 mengenai "Pembelajaran Multimodal Berskala Besar", dengan matlamat untuk mengumpulkan orang ramai daripada pelbagai disiplin seperti: penglihatan komputer, pemprosesan bahasa semula jadi, pembelajaran mesin, pembelajaran mendalam, penjagaan kesihatan pintar, bioinformatik, sains kognitif) untuk membangkitkan isu saintifik yang penting dan menemui peluang penyelidikan untuk menghadapi pembelajaran pelbagai mod dalam era pembelajaran mendalam dan data besar cabaran cemerlang di lapangan.
Atas ialah kandungan terperinci Zhou Bowen dari Universiti Tsinghua: Populariti ChatGPT mendedahkan kepentingan tinggi kerjasama generasi baharu dan kecerdasan interaktif. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!