Stanford Li Feifei mendedahkan konsep baharu "kecerdasan ruang" buat kali pertama selepas memulakan perniagaannya sendiri.
Ini bukan sahaja hala tuju keusahawanannya, tetapi juga "Bintang Utara" yang membimbingnya "bahagian teka-teki utama untuk menyelesaikan masalah kecerdasan buatan".
Visualisasi menjadi wawasan;
Berdasarkan ceramah TED Li Feifei selama 15 minit, yang terbuka sepenuhnya kepada umum, bermula dari asal usul evolusi kehidupan ratusan juta tahun dahulu, hingga bagaimana manusia tidak berpuas hati dengan apa alam semula jadi telah memberi mereka dan membangunkan kecerdasan buatan, bagaimana untuk membina ruang dalam langkah seterusnya pintar.
9 tahun yang lalu, Li Feifei memperkenalkan ImageNet yang baru dilahirkan kepada dunia di peringkat yang sama - salah satu titik permulaan pusingan ledakan pembelajaran mendalam ini.
Dia sendiri juga menggalakkan netizen: Jika menonton kedua-dua video, anda boleh mempunyai pemahaman yang baik tentang penglihatan komputer, kecerdasan spatial dan AI dalam tempoh 10 tahun yang lalu.
Kini, tanpa mengubah maksud asalnya, kami akan menyusun kandungan ucapan Li Feifei.
Biar saya tunjukkan sesuatu kepada anda, lebih tepatnya, saya akan tunjukkan kepada anda "tiada apa-apa".
Inilah dunia 540 juta tahun dahulu. Kegelapan yang murni dan tidak berkesudahan. Ia tidak gelap kerana kekurangan cahaya. Ia gelap kerana kekurangan penglihatan.
Walaupun cahaya matahari boleh menembusi 1,000 meter di bawah permukaan lautan, dan cahaya dari lubang hidroterma juga boleh menembusi ke dasar laut yang penuh dengan kehidupan, tidak ada satu mata pun di perairan purba ini.
Tiada retina, tiada kornea, tiada kanta. Jadi semua cahaya ini, sepanjang hidup ini, kekal tidak kelihatan.
Ada satu ketika konsep "melihat" tidak wujud. Ia tidak pernah disedari sehingga ia berlaku.
Atas sebab yang kita baru mula faham, organisma pertama yang dapat merasakan cahaya muncul - trilobit. Mereka adalah makhluk pertama yang mampu merasakan realiti yang kita ambil mudah. Mereka adalah makhluk pertama yang mendapati bahawa ada sesuatu yang lain daripada diri mereka sendiri.
Buat pertama kali, dunia dipenuhi dengan banyak "diri".
Keupayaan untuk melihat dianggap telah mencetuskan letupan Cambrian, tempoh ketika spesies haiwan memasuki rekod fosil dalam jumlah yang banyak. Apa yang bermula sebagai pengalaman pasif, tindakan mudah memasukkan cahaya, tidak lama lagi menjadi lebih aktif dan sistem saraf mula berkembang.
Penglihatan menjadi wawasan. Melihat menjadi pemahaman. Pemahaman membawa kepada tindakan.
Semua ini melahirkan kecerdasan.
Hari ini, kita tidak lagi berpuas hati dengan keupayaan visual yang diberikan oleh alam semula jadi. Rasa ingin tahu mendorong kita untuk mencipta mesin yang boleh melihat sekurang-kurangnya sama seperti kita, jika tidak lebih baik.
Sembilan tahun yang lalu, pada peringkat ini, saya menyerahkan laporan kemajuan awal mengenai visi komputer.
Pada masa itu, tiga kuasa berkuasa berkumpul buat pertama kali:
Kita telah pergi agak jauh dari dulu hingga sekarang.
Pada mulanya, hanya melabelkan imej merupakan satu kejayaan besar, tetapi kelajuan dan ketepatan algoritma bertambah baik dengan cepat.
Kemajuan ini diukur dalam Cabaran ImageNet tahunan yang dihoskan oleh makmal saya. Dalam carta ini, anda boleh melihat peningkatan dalam keupayaan model setiap tahun, dan beberapa model penting.
Kami melangkah lebih jauh dan mencipta algoritma yang mampu membahagikan objek visual atau meramalkan hubungan dinamik antara mereka, kerja yang dilakukan oleh pelajar dan rakan usaha sama saya.
Ada lagi.
Ingat algoritma penglihatan komputer pertama yang saya tunjukkan dalam ucapan terakhir saya AI boleh menerangkan foto menggunakan bahasa semula jadi manusia. Itulah yang saya lakukan dengan pelajar saya yang cemerlang Andrej Karpathy.
Pada masa itu, saya dengan berani berkata: "Andrej, bolehkah kita membuat komputer melakukan sebaliknya?" telah menjadi mungkin.
Ini adalah terima kasih kepada satu siri model resapan yang memperkasakan algoritma AI generatif hari ini yang boleh menukar perkataan gesaan manusia kepada foto dan video untuk mencipta sesuatu yang baharu sepenuhnya.
Ramai di antara anda telah melihat Sora OpenAI mencapai hasil yang mengagumkan baru-baru ini. Walau bagaimanapun, beberapa bulan yang lalu, tanpa banyak GPU, pelajar dan rakan usaha sama saya membangunkan model penjanaan video AI yang dipanggil
Walt.
△Walt Diterbitkan pada Disember 2023Ada ruang untuk penambahbaikan di sini, lihat mata kucing itu, ia tidak pernah basah di bawah ombak, alangkah buruknya~
( cat-astrophe)(Meme homophonous tolak duit!)
Spatial Intelligence: Melihat sahaja tidak mencukupi
Saya telah mengatakan selama bertahun-tahun bahawa mengambil gambar tidak sama dengan melihat dan memahami. Hari ini, saya ingin menambah satu lagi perkara: melihat sahaja tidak mencukupi.
Lihat, untuk tindakan dan pembelajaran.
Apabila kita bertindak dalam ruang dan masa 3D, kita belajar, kita belajar untuk melihat dengan lebih baik dan melakukan perkara yang lebih baik. Alam semula jadi mencipta kitaran murni untuk melihat dan bertindak melalui "kecerdasan ruang."
Untuk menunjukkan apa itu kecerdasan spatial, lihat foto ini.
Kalau rasa nak buat sesuatu, angkat tangan sahaja.
Dalam sepersekian saat, otak anda memerhatikan geometri cawan ini, kedudukannya dalam ruang 3D, hubungannya dengan meja, kucing dan semua objek lain, dan anda boleh meramalkan perkara yang akan berlaku seterusnya.
Keinginan untuk bertindak adalah wujud dalam diri semua makhluk dengan kecerdasan spatial, yang menghubungkan persepsi dengan tindakan.
Jika kita mahu AI melangkaui keupayaan semasa, kita bukan sahaja mahu AI yang boleh melihat dan bercakap, kita mahu AI yang boleh bertindak.
Malah, kami membuat kemajuan yang memberangsangkan.
Pencapaian terbaharu dalam kecerdasan spatial ialahmengajar komputer untuk melihat, belajar, bertindak dan belajar melihat serta bertindak dengan lebih baik.
Dan ia bukan mudah.
Alam semulajadi menghabiskan jutaan tahun untuk mengembangkan kecerdasan spatial Mata menangkap cahaya dan menayangkan imej 2D ke retina, dan otak menukar data ini kepada maklumat 3D.
Hanya baru-baru ini, sekumpulan penyelidik daripada Google telah membangunkan algoritma untuk menukar set foto kepada ruang 3D.
Pelajar dan rakan usaha sama saya mengambil langkah lebih jauh dan mencipta algoritma yang menukar satu imej kepada bentuk 3D.
Sepasukan penyelidik di Universiti Michigan menemui cara untuk menukar ayat kepada reka letak bilik 3D.
Rakan sekerja saya di Universiti Stanford dan pelajarnya telah membangunkan algoritma yang boleh menjana ruang kemungkinan yang tidak terhingga daripada satu imej untuk diterokai oleh penonton.
Ini adalah prototaip kemungkinan masa hadapan. Dalam kemungkinan ini, manusia boleh mengubah seluruh dunia kita ke dalam bentuk digital dan mensimulasikan kekayaan dan kehalusannya.
Apakah sifat yang tersirat dalam setiap minda kita, teknologi kecerdasan spatial berjanji untuk melakukan perkara yang sama untuk kesedaran kolektif kita.
Dengan kemajuan pesat kecerdasan spatial, era baharu sedang berlaku di hadapan mata kita dalam kitaran murni ini. Kitaran ini memangkin pembelajaran robot, komponen utama mana-mana sistem perisikan yang terkandung yang perlu memahami dan berinteraksi dengan dunia 3D. Sepuluh tahun yang lalu, ImageNet makmal saya mendayakan pangkalan data berjuta-juta foto berkualiti tinggi untuk membantu melatih penglihatan komputer. Hari ini kami melakukan sesuatu yang serupa,melatih komputer dan robot cara bertindak dalam dunia 3D.
Daripada mengumpul imej statik kali ini, kami membangunkan persekitaran simulasi yang didorong oleh model spatial 3D supaya komputer dapat mempelajari kemungkinan tindakan yang tidak terhingga. Apa yang baru anda lihat ialah contoh kecil mengajar robot kami, projek yang diketuai oleh makmal saya yang dipanggil Behavior. Kami juga membuat kemajuan yang menarik dalam kecerdasan bahasa robotik. Menggunakan input berdasarkan model bahasa yang besar, pelajar dan kolaborator saya adalah salah satu pasukan pertama yang menunjukkan bahawa lengan robot boleh melakukan pelbagai tugas berdasarkan arahan lisan. Seperti membuka laci ini atau mencabut kord telefon. Atau buat sandwic menggunakan roti, salad, tomato, atau letakkan serbet untuk pengguna. Biasanya saya ingin sandwic yang sedikit lebih besar, tetapi ini adalah tempat yang baik untuk bermula. Prospek aplikasi kecerdasan spatialDi lautan primitif zaman purba, keupayaan untuk melihat dan merasakan persekitaran mencetuskan ledakan interaksi Kambrium dengan bentuk hidupan lain. Hari ini, cahaya itu mencapai pemikiran digital. Kecerdasan ruang membolehkan mesin berinteraksi bukan sahaja antara satu sama lain, tetapi juga dengan manusia, dan dengan dunia 3D sebenar atau maya. Apabila masa depan ini terbentuk, ia akan memberi impak yang mendalam kepada banyak kehidupan. Mari kita ambil penjagaan kesihatan sebagai contoh. Sepanjang dekad yang lalu, makmal saya telah menjalankan usaha awal untuk menggunakan AI kepada cabaran yang memberi kesan kepada hasil pesakit dan keletihan kakitangan penjagaan kesihatan. Bersama-sama dengan kolaborator dari Perubatan Stanford dan hospital rakan kongsi yang lain, kami sedang menjalankan penderia pintar yang boleh mengesan jika doktor memasuki bilik pesakit tanpa mencuci tangan dengan betul. Atau menjejaki instrumen pembedahan, atau memberi amaran kepada pasukan penjagaan apabila pesakit menghadapi risiko fizikal, seperti terjatuh. Kami menganggap teknologi ini sebagai satu bentuk kecerdasan ambien, sepertimata tambahan.
Mais je préfère avoir une aide plus interactive pour nos patients, cliniciens et soignants qui ont désespérément besoin d’une paire de mains supplémentaire.
Imaginez un robot autonome transportant des fournitures médicales pendant que les soignants se concentrent sur le patient, ou utilisant la réalité augmentée pour guider les chirurgiens à travers des procédures plus sûres, plus rapides et moins invasives.
Imaginez encore une fois que des patients gravement paralysés puissent contrôler des robots avec leurs pensées. C’est vrai, utiliser les ondes cérébrales pour effectuer les tâches quotidiennes que vous et moi tenons pour acquises.
Il s'agit d'une étude pilote récente menée dans mon laboratoire. Dans cette vidéo, un bras robotique, contrôlé uniquement par des signaux électriques provenant du cerveau, prépare un repas japonais sukiyaki. où les signaux sont collectés de manière non invasive via un capuchon EEG.
Il y a cinq cents millions d'années, l'émergence de la vision bouleversa le monde des ténèbres et déclencha le processus évolutif le plus profond : le développement de l'intelligence dans le monde animal.
Les progrès de l’IA au cours de la dernière décennie sont tout aussi étonnants. Mais je crois que le plein potentiel de cette explosion cambrienne numérique ne sera pas pleinement exploité tant que nous n’aurons pas doté les ordinateurs et les robots d’une intelligence spatiale, tout comme la nature l’a fait pour nous tous.
C’est une période passionnante pour apprendre à nos compagnons numériques à raisonner et à interagir avec ce magnifique espace 3D que nous appelons chez nous, tout en créant davantage de nouveaux mondes que nous pouvons explorer.
Réaliser cet avenir ne sera pas facile, cela nécessite que nous chacun réfléchissions profondément et développions une technologie qui place toujours l’humain au centre.
Mais si nous le faisons correctement, les ordinateurs et les robots alimentés par l'intelligence spatiale deviendront non seulement des outils utiles, mais aussi des partenaires de confiance, nous rendant plus productifs, renforçant notre humanité et améliorant nos vies tout en respectant la dignité de l'individu. prospérité collective.
L’avenir qui me passionne le plus est celui dans lequel l’IA devient plus sensible, plus perspicace et plus consciente de l’espace, et nous rejoint dans notre quête de création d’un monde meilleur.
(Texte intégral terminé)
Replay vidéo : https://www.ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_understand_the_real_world/transcript
Atas ialah kandungan terperinci Li Feifei mendedahkan hala tuju keusahawanan 'kecerdasan ruang': visualisasi bertukar menjadi wawasan, melihat menjadi pemahaman, dan pemahaman membawa kepada tindakan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!