Pada tahun 2009, Li Feifei, seorang saintis komputer yang bekerja di Universiti Princeton pada masa itu, mengetuai pembinaan set data yang mengubah sejarah kecerdasan buatan - ImageNet. Ia mengandungi berjuta-juta imej berlabel yang boleh digunakan untuk melatih model pembelajaran mesin yang kompleks untuk mengecam objek dalam imej.
Pada tahun 2015, mesin mengatasi manusia dalam keupayaan pengecaman. Li Feifei tidak lama kemudian beralih kepada matlamat baharu, mencari apa yang dipanggilnya "Bintang Utara" yang lain ("Polaris" di sini merujuk kepada masalah saintifik utama yang difokuskan oleh penyelidik untuk menyelesaikannya, yang boleh membangkitkan semangat Penyelidikan mereka dan membuat kemajuan terobosan).
Dia menemui ilham dengan melihat ke belakang 530 juta tahun ke ledakan kehidupan Kambrium, apabila banyak spesies haiwan darat mula-mula muncul. Satu teori yang berpengaruh mencadangkan bahawa letupan spesies baru didorong sebahagiannya oleh kemunculan mata, yang membolehkan makhluk melihat dunia di sekeliling mereka buat kali pertama. Li Feifei percaya bahawa penglihatan haiwan tidak berlaku secara berasingan, tetapi "tertanam secara mendalam dalam keseluruhan yang perlu bergerak, mengemudi, bertahan, memanipulasi dan berubah dalam persekitaran yang cepat berubah," katanya, "jadi saya Ia adalah lumrah untuk berpaling. kepada bidang AI yang lebih aktif. dunia maya tiga dimensi dan berinteraksi dengan persekitaran sekeliling.
Ini ialah matlamat luas bidang baharu yang dipanggil "AI yang terkandung." Ia bertindih dengan robotik kerana robot boleh dilihat sebagai persamaan fizikal bagi ejen AI yang terkandung dan pembelajaran pengukuhan di dunia nyata. Li Feifei dan yang lain percaya bahawa AI yang terkandung mungkin membawa kita satu transformasi besar, daripada keupayaan pembelajaran mesin yang mudah seperti mengecam imej, kepada mempelajari cara melaksanakan tugasan seperti manusia yang kompleks melalui pelbagai langkah, seperti membuat nasi goreng. Telur gulung.
Hari ini, kerja AI yang terkandung termasuk mana-mana ejen yang boleh mengesan dan mengubah persekitarannya sendiri. Dalam robotik, ejen AI sentiasa tinggal dalam badan robot, manakala ejen dalam simulasi sebenar mungkin mempunyai badan maya, atau mungkin melihat dunia melalui kedudukan kamera yang bergerak dan berinteraksi dengan persekitaran sekeliling . "Maksud penjelmaan bukanlah badan itu sendiri, tetapi keperluan dan fungsi keseluruhan untuk berinteraksi dengan alam sekitar dan melakukan sesuatu dalam persekitaran," jelas Li Feifei.Interaktiviti ini memberi ejen cara baharu—dan dalam banyak kes lebih baik—untuk memahami dunia. Ini bersamaan dengan fakta bahawa sebelum ini anda hanya memerhatikan kemungkinan hubungan antara dua objek, tetapi kini anda boleh mencuba dan membuat hubungan ini berlaku sendiri. Dengan pemahaman baru ini, idea dipraktikkan dan kebijaksanaan yang lebih besar akan menyusul. Dengan set dunia maya baharu dan berjalan, ejen AI yang terkandung telah mula menyedari potensi ini, membuat kemajuan ketara dalam persekitaran baharu mereka.
"Buat masa ini, kami tidak mempunyai sebarang bukti untuk kecerdasan yang tidak belajar dengan berinteraksi dengan dunia," kata penyelidik AI yang terkandung dalam Viviane Clay dari Universiti Osnebrück di Jerman. Ke arah simulasi yang sempurnaWalaupun penyelidik telah lama ingin mencipta dunia maya sebenar untuk diterokai oleh ejen AI, mereka hanya dicipta selama kira-kira lima tahun. Keupayaan ini datang daripada penambahbaikan dalam grafik dalam industri filem dan permainan video. Pada 2017, ejen AI boleh menggambarkan ruang dalaman secara realistik seolah-olah mereka berada di dalam rumah—"rumah" maya tetapi literal. Para saintis komputer di Institut Allen untuk Kepintaran Buatan membina simulator yang dipanggil AI2-Thor yang membolehkan ejen berkeliaran di sekitar dapur semula jadi, bilik mandi, ruang tamu dan bilik tidur. Ejen boleh mempelajari pandangan tiga dimensi yang berubah semasa mereka bergerak, dengan simulator menunjukkan sudut baharu apabila mereka memutuskan untuk melihat dengan lebih dekat. Dunia baharu ini juga memberi peluang kepada ejen untuk memikirkan perubahan dalam "masa" dimensi baharu. "Itu satu perubahan besar," kata Manolis Savva, penyelidik grafik komputer di Universiti Simon Fraser "Dalam tetapan AI yang terkandung, anda mempunyai aliran maklumat yang koheren secara sementara yang boleh anda kawal." kini cukup baik untuk melatih ejen untuk menyelesaikan tugasan baharu sepenuhnya. Bukan sahaja mereka boleh mengecam objek, mereka boleh berinteraksi dengannya, mengambilnya dan mengemudi di sekelilingnya. Langkah-langkah yang kelihatan kecil ini diperlukan untuk mana-mana ejen memahami persekitarannya. Pada tahun 2020, ejen maya mempunyai keupayaan untuk melampaui penglihatan dan mendengar bunyi yang dibuat oleh benda maya, memberikan perspektif baharu tentang memahami objek dan cara ia beroperasi di dunia. Ejen AI termaktub yang boleh berjalan dalam dunia maya (persekitaran ManipulaTHOR) belajar dengan cara yang berbeza dan mungkin lebih sesuai untuk Tugasan yang lebih kompleks seperti manusia .Walau bagaimanapun, simulator juga mempunyai batasannya sendiri. "Malah simulator terbaik adalah jauh kurang realistik daripada dunia sebenar," kata Daniel Yamins, seorang saintis komputer di Universiti Stanford. Yamins membangunkan bersama ThreeDWorld dengan rakan sekerja di MIT dan IBM, sebuah projek yang memfokuskan pada simulasi fizik kehidupan sebenar dalam dunia maya, seperti gelagat cecair dan bagaimana sesetengah objek tegar di satu kawasan dan tegar di kawasan yang lain .
Ini adalah tugas yang sangat mencabar yang memerlukan AI untuk belajar dengan cara baharu.
Cara mudah untuk mengukur kemajuan AI yang terkandung setakat ini ialah membandingkan prestasi ejen yang terkandung dengan mereka yang dilatih pada algoritma tugas imej statik yang lebih mudah untuk perbandingan. Perbandingan itu tidak sempurna, kata para penyelidik, tetapi keputusan awal menunjukkan bahawa AI yang terkandung belajar secara berbeza dan kadangkala lebih baik daripada pendahulunya.
Dalam kertas kerja baru-baru ini ("Interactron: Embodied Adaptive Object Detection"), penyelidik mendapati bahawa ejen AI yang terkandung adalah lebih tepat dalam mengesan objek tertentu, hampir 12% lebih baik daripada kaedah tradisional . "Ia mengambil masa lebih daripada tiga tahun untuk bidang pengesanan objek untuk mencapai tahap peningkatan ini," kata pengarang bersama kajian Roozbeh Mottaghi, seorang saintis komputer di Institut Allen untuk Kepintaran Buatan "Dan kami telah mencapai begitu banyak hanya dengan berinteraksi dengan dunia. "
Makalah lain telah menunjukkan bahawa apabila anda mengambil bentuk AI yang diwujudkan dan meminta mereka meneroka ruang maya atau berjalan-jalan untuk mengumpul berbilang paparan objek, algoritma Majulah.
Penyelidik juga mendapati bahawa algoritma yang terkandung belajar sama sekali berbeza daripada algoritma tradisional. Untuk menunjukkan ini, pertimbangkan rangkaian saraf, bahan asas di sebalik keupayaan pembelajaran setiap algoritma yang terkandung dan banyak algoritma tanpa badan. Rangkaian saraf terdiri daripada banyak lapisan nod neuron buatan yang disambungkan dan dimodelkan secara longgar mengikut rangkaian dalam otak manusia. Dalam dua kertas yang berasingan, penyelidik mendapati bahawa lebih sedikit neuron bertindak balas kepada maklumat visual dalam rangkaian saraf agen yang terkandung, bermakna setiap neuron individu lebih selektif dalam cara ia bertindak balas. Rangkaian tanpa badan adalah kurang cekap, memerlukan lebih banyak neuron untuk kekal aktif pada kebanyakan masa. Satu pasukan penyelidik (diketuai oleh profesor NYU yang akan datang, Grace Lindsay) malah membandingkan rangkaian neural yang diwujudkan dan yang tidak diwujudkan dengan aktiviti neuron dalam otak yang hidup (korteks visual tikus) dan mendapati bahawa rangkaian neural yang terkandung Internet adalah perkara yang paling hampir dengan kehidupan. badan.
Lindsay dengan cepat menyatakan bahawa ini tidak semestinya bermakna versi yang terkandung adalah lebih baik, ia hanya berbeza. Tidak seperti kertas pengesanan objek, kajian Lindsay et al. membandingkan potensi perbezaan rangkaian saraf yang sama, membolehkan ejen menyelesaikan tugas yang sama sekali berbeza, jadi mereka mungkin memerlukan rangkaian saraf yang berfungsi secara berbeza untuk mencapai matlamat mereka.
Walaupun membandingkan rangkaian neural yang terkandung dengan rangkaian neural yang tidak terkandung adalah satu cara untuk mengukur penambahbaikan, perkara yang benar-benar ingin dilakukan oleh penyelidik adalah tidak meningkatkan prestasi ejen yang terkandung pada tugasan sedia ada, matlamat sebenar mereka adalah untuk mempelajari lebih kompleks , lebih banyak tugas seperti manusia. Inilah yang paling menggembirakan penyelidik, dan mereka melihat kemajuan yang mengagumkan, terutamanya dalam tugas navigasi. Dalam tugasan ini, ejen mesti mengingati matlamat jangka panjang destinasinya sambil merangka rancangan untuk ke sana tanpa tersesat atau terlanggar objek.
Hanya dalam beberapa tahun, pasukan yang diketuai oleh Dhruv Batra, pengarah penyelidikan di Meta AI dan saintis komputer di Institut Teknologi Georgia, telah mengusahakan tugas navigasi khusus yang dipanggil "navigasi titik-matlamat." Banyak kemajuan telah dicapai. Dalam tugasan ini, ejen diletakkan dalam persekitaran yang benar-benar baharu dan mesti pergi ke koordinat tertentu (seperti "Pergi ke titik iaitu 5 meter utara dan 10 meter timur") tanpa peta.
Batra berkata bahawa mereka melatih ejen itu dalam dunia maya Meta yang dipanggil "AI Habitat" dan memberikannya GPS dan kompas, dan mendapati ia boleh memperoleh 99.9% pada set data standard. Baru-baru ini, mereka telah berjaya melanjutkan keputusan mereka kepada senario yang lebih sukar dan realistik - tanpa kompas atau GPS. Hasilnya, ejen itu mencapai ketepatan 94% dalam menganggar kedudukannya menggunakan hanya aliran piksel yang dilihatnya semasa bergerak.
Alam maya "AI Habitat" yang dicipta oleh pasukan Meta AI Dhruv Batra. Mereka berharap dapat meningkatkan kelajuan simulasi sehingga AI yang terkandung dapat mencapai pengalaman simulasi selama 20 tahun dalam masa 20 minit sahaja.
Mottaghi berkata, "Ini adalah peningkatan yang hebat, tetapi ini tidak bermakna masalah navigasi diselesaikan sepenuhnya. Kerana banyak jenis tugas navigasi lain memerlukan penggunaan arahan bahasa yang lebih kompleks, seperti "melepasi dapur" Dapatkan cermin mata di atas meja sisi katil di bilik tidur anda," dan ketepatannya masih hanya kira-kira 30% hingga 40%.
Tetapi navigasi kekal sebagai salah satu tugas paling mudah dalam AI yang terkandung, kerana ejen tidak perlu memanipulasi apa-apa semasa ia bergerak melalui persekitaran. Setakat ini, ejen AI yang terkandung jauh daripada menguasai sebarang tugas berkaitan objek. Sebahagian daripada cabaran ialah apabila ejen berinteraksi dengan objek baharu, ia boleh membuat banyak ralat dan ralat boleh bertimbun. Pada masa ini, kebanyakan penyelidik menangani masalah ini dengan memilih tugasan dengan hanya beberapa langkah, tetapi kebanyakan aktiviti seperti manusia, seperti membakar atau mencuci pinggan mangkuk, memerlukan urutan tindakan yang panjang pada berbilang objek. Untuk mencapai matlamat ini, ejen AI perlu membuat kemajuan yang lebih besar.
Dalam hal ini, Fei-Fei Li mungkin berada di barisan hadapan sekali lagi, kerana pasukannya membangunkan set data simulasi, BEHAVIOR, yang berharap dapat dilakukan untuk AI yang terkandung seperti yang dilakukan oleh projek ImageNetnya untuk pengecaman objek .
Set data ini mengandungi lebih daripada 100 aktiviti manusia untuk dilengkapkan oleh ejen, dan ujian boleh diselesaikan dalam mana-mana persekitaran maya. Set data baharu pasukan Fei-Fei Li akan membolehkan komuniti menilai dengan lebih baik kemajuan ejen AI maya dengan mencipta metrik yang membandingkan ejen yang melaksanakan tugas ini dengan video sebenar manusia yang melakukan tugas yang sama.
Setelah ejen berjaya menyelesaikan tugasan kompleks ini, Li Feifei percaya bahawa tujuan simulasi adalah untuk melatih untuk ruang kendalian terakhir-dunia nyata.
"Pada pendapat saya, simulasi adalah salah satu bidang yang paling penting dan menarik dalam penyelidikan robotik."
Robot pada asasnya merangkumi kecerdasan. Mereka mendiami sejenis badan fizikal di dunia nyata dan mewakili bentuk ejen AI yang paling ekstrem. Tetapi ramai penyelidik mendapati bahawa ejen sedemikian boleh mendapat manfaat daripada latihan di dunia maya.
Mottaghi berkata algoritma paling maju dalam robotik, seperti pembelajaran pengukuhan, selalunya memerlukan berjuta-juta lelaran untuk mempelajari sesuatu yang bermakna. Oleh itu, melatih robot sebenar untuk melaksanakan tugas yang sukar boleh mengambil masa bertahun-tahun.
Robot boleh menavigasi rupa bumi yang tidak menentu di dunia nyata. Penyelidikan baharu menunjukkan bahawa latihan dalam persekitaran maya boleh membantu robot menguasai kemahiran ini dan kemahiran lain.
Tetapi jika anda melatih mereka di dunia maya dahulu, ia akan menjadi lebih pantas. Beribu-ribu ejen boleh dilatih serentak di beribu-ribu bilik yang berbeza. Selain itu, latihan maya adalah lebih selamat untuk kedua-dua robot dan manusia.
Pada 2018, penyelidik OpenAI menunjukkan bahawa kemahiran yang dipelajari oleh ejen di dunia maya boleh dipindahkan ke dunia nyata, jadi ramai pakar robotik mula memberi lebih perhatian kepada simulator. Mereka melatih tangan robot untuk memanipulasi kiub yang hanya dilihat dalam simulasi. Penyelidikan terkini juga termasuk membolehkan dron belajar mengelak perlanggaran di udara, menempatkan kereta pandu sendiri dalam persekitaran bandar di dua benua yang berbeza, dan membolehkan anjing robot berkaki empat melengkapkan pendakian selama satu jam di Swiss Alps (dan Ia). mengambil masa yang sama seperti manusia).
Pada masa hadapan, penyelidik juga mungkin menghantar manusia ke ruang maya melalui set kepala realiti maya, sekali gus merapatkan jurang antara simulasi dan dunia sebenar. Dieter Fox, pengarah kanan penyelidikan robotik di Nvidia dan seorang profesor di Universiti Washington, menegaskan bahawa matlamat utama penyelidikan robotik adalah untuk membina robot yang berguna kepada manusia di dunia nyata. Tetapi untuk melakukan ini, mereka mesti terlebih dahulu didedahkan dan belajar bagaimana untuk berinteraksi dengan manusia.
Menggunakan teknologi realiti maya untuk meletakkan manusia ke dalam persekitaran simulasi ini dan kemudian meminta mereka membuat pembentangan dan berinteraksi dengan robot akan menjadi pendekatan yang sangat berkuasa, kata Fox.
Sama ada mereka dalam simulasi atau dunia nyata, ejen AI yang terkandung sedang belajar untuk menjadi lebih seperti manusia dan menyelesaikan tugasan yang lebih seperti tugas manusia. Bidang ini semakin maju dalam semua aspek, termasuk dunia baharu, tugas baharu dan algoritma pembelajaran baharu.
"Saya melihat gabungan pembelajaran mendalam, pembelajaran robot, penglihatan dan juga bahasa," kata Li Feifei "Sekarang saya fikir melalui 'moonshot' atau 'North Star' untuk AI yang terkandung, kita akan Belajar. teknologi asas kecerdasan benar-benar boleh membawa kejayaan besar."
Artikel Li Feifei membincangkan masalah "Bintang Utara" penglihatan komputer. Pautan: https://www.amacad.org/publication/searching-computer-vision-north-stars
Atas ialah kandungan terperinci Di manakah 'kecerdasan yang terkandung' yang difokuskan oleh Li Feifei telah sampai?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!