Gemini 1.5 Pro dipasang ke dalam robot, dan ia boleh memberikan concierge dan bimbingan selepas melawat syarikat.-AI-php.cn

Rumah

Peranti teknologi

Gemini 1.5 Pro dipasang ke dalam robot, dan ia boleh memberikan concierge dan bimbingan selepas melawat syarikat.

王林

Jul 17, 2024 am 05:58 AM

industri

Model besar konteks panjang membantu robot memahami dunia.

Baru-baru ini, Google DeepMind tiba-tiba mula mempamerkan robotnya.

Gemini 1.5 Pro装进机器人，参观一遍公司就能礼宾、带路

Robot ini boleh mengikut arahan manusia dengan mudah, menjalankan navigasi visual dan menggunakan penaakulan akal untuk mencari laluan dalam ruang tiga dimensi.

Ia menggunakan Gemini 1.5 Pro, model besar yang dikeluarkan oleh Google baru-baru ini. Apabila menggunakan model AI tradisional, robot sering mengalami kesukaran mengingati butiran alam sekitar disebabkan oleh had panjang konteks, tetapi panjang konteks token peringkat juta Gemini 1.5 Pro menyediakan robot dengan keupayaan memori persekitaran yang berkuasa.

Dalam senario pejabat sebenar, jurutera membimbing robot melalui kawasan tertentu dan menandakan lokasi utama yang perlu dipanggil semula, seperti "meja Lewis" atau "kawasan meja sementara." Selepas melengkapkan bulatan, jika seseorang bertanya, robot boleh membawanya ke lokasi ini berdasarkan kenangan ini.

Walaupun anda tidak dapat memberitahu tempat tertentu yang anda ingin pergi, tetapi hanya menyatakan tujuan anda, robot boleh membawa anda ke lokasi yang sepadan. Ini adalah manifestasi khusus keupayaan penaakulan model besar dalam robot.

Semua ini tidak dapat dipisahkan daripada strategi navigasi yang dipanggil Mobility VLA.

Tajuk kertas: VLA Mobiliti: Navigasi Arahan Multimodal dengan VLM Konteks Panjang dan Graf Topologi
Pautan kertas: https://arxiv.org/pdf/2407
1.

DeepMind berkata kerja ini mewakili langkah seterusnya dalam interaksi manusia-komputer. Pada masa hadapan, pengguna akan dapat merakamkan lawatan alam sekitar mereka dengan telefon pintar mereka. Selepas menonton video itu, pembantu robot peribadi mereka dapat memahami dan mengemudi persekitaran.

Mobility VLA: Navigasi arahan berbilang mod menggunakan VLM konteks panjang dan peta topologi

Dengan pembangunan berterusan teknologi AI, navigasi robot telah mencapai kemajuan yang besar. Kerja awal bergantung pada pengguna yang menentukan koordinat fizikal dalam persekitaran yang telah dilukis. Navigasi Matlamat Objek (ObjNav) dan Navigasi Bahasa Visual (VLN) ialah lonjakan besar ke hadapan dalam kebolehgunaan robot kerana ia membenarkan pengguna menggunakan bahasa perbendaharaan kata terbuka untuk menentukan matlamat navigasi, seperti "Pergi ke sofa."

Untuk menjadikan robot benar-benar berguna dan ada di mana-mana dalam kehidupan seharian kita, penyelidik di Google DeepMind mencadangkan untuk menaik taraf ruang bahasa semula jadi ObjNav dan VLN kepada ruang berbilang mod, yang bermaksud robot boleh menerima bahasa semula jadi di perintah lisan dan/atau visual pada masa yang sama untuk mencapai satu lagi lonjakan ke hadapan. Contohnya, seseorang yang tidak biasa dengan bangunan boleh memegang kotak plastik dan bertanya, "Di manakah saya harus memulangkan ini dan robot akan membimbing pengguna untuk mengembalikan kotak itu ke rak berdasarkan konteks lisan dan visual. Mereka memanggil jenis tugas navigasi ini multimodal navigation navigation (MIN).

MIN ialah misi luas yang merangkumi penerokaan alam sekitar dan navigasi berpandukan arahan. Walau bagaimanapun, dalam banyak kes, seseorang boleh menerokai dengan memanfaatkan video lawatan demonstrasi. Lawatan demonstrasi mempunyai beberapa faedah: Gemini 1.5 Pro装进机器人，参观一遍公司就能礼宾、带路

Mudah untuk dikumpulkan: pengguna boleh mengawal robot dari jauh, atau merakam video dengan telefon pintar mereka sambil berjalan di sekitar persekitaran. Selain itu, terdapat algoritma penerokaan yang boleh digunakan untuk membuat lawatan.

Ia mematuhi tabiat pengguna: apabila pengguna mendapat robot rumah baharu, mereka secara semula jadi akan membawa robot itu mengelilingi rumah mereka dan mereka boleh memperkenalkan tempat menarik secara lisan semasa lawatan.
Dalam sesetengah kes, adalah wajar untuk mengehadkan aktiviti robot kepada kawasan yang telah ditetapkan untuk tujuan keselamatan dan privasi. Untuk tujuan ini, penulis memperkenalkan dan mengkaji jenis tugasan ini dalam kertas kerja ini, iaitu "Multimodal Instruction Tour Navigation (MINT)", yang menggunakan lawatan demonstrasi dan memfokuskan pada memenuhi arahan multimodal pengguna.

Baru-baru ini, model bahasa visual berskala besar (VLM) telah menunjukkan potensi besar dalam menyelesaikan masalah MINT, terima kasih kepada keupayaan mengagumkan mereka dalam pemahaman bahasa dan imej serta penaakulan akal, yang merupakan elemen Utama untuk melaksanakan PINA.Walau bagaimanapun, VLM sahaja sukar untuk menyelesaikan masalah MINT atas sebab-sebab berikut:

Disebabkan kekangan panjang konteks, banyak VLM mempunyai bilangan imej input yang sangat terhad, yang sangat mengehadkan kesetiaan pemahaman persekitaran secara besar-besaran. persekitaran.
Menyelesaikan masalah MINT memerlukan pengiraan tindakan robot. Pertanyaan yang meminta tindakan robot sedemikian selalunya tidak konsisten dengan perkara yang telah (pra)dilatih oleh VLM. Oleh itu, prestasi sifar sampel robot selalunya tidak memuaskan.

Untuk menyelesaikan masalah MINT, DeepMind mencadangkan Mobility VLA, strategi navigasi Vision-Language-Action (VLA) berlapis. Ia menggabungkan pemahaman alam sekitar dan keupayaan penaakulan akal bagi VLM konteks panjang dengan strategi navigasi peringkat rendah yang mantap berdasarkan graf topologi.

Secara khusus, VLM peringkat tinggi menggunakan video lawatan tunjuk cara dan arahan pengguna berbilang modal untuk mencari bingkai sasaran dalam video lawatan. Seterusnya, strategi peringkat rendah klasik menggunakan bingkai sasaran dan peta topologi (dibina di luar talian daripada bingkai lawatan) untuk menjana tindakan robot (titik jalan) pada setiap langkah masa. Penggunaan VLM konteks panjang menyelesaikan masalah kesetiaan pemahaman persekitaran, dan peta topologi merapatkan jurang antara pengedaran latihan VLM dan tindakan robot yang diperlukan untuk menyelesaikan MINT.

Pengarang menilai VLA mudah alih dalam persekitaran pejabat dunia sebenar (836 m2) dan seperti rumah. Mobiliti VLA mencapai 86% dan 90% pada tugas MINT yang tidak dapat dicapai sebelum ini yang melibatkan penaakulan yang kompleks (seperti "Saya ingin menyimpan sesuatu di luar pandangan umum, ke mana saya harus pergi?") dan kadar Kejayaan pengguna pelbagai mod (26% dan 60%. lebih tinggi daripada kaedah asas, masing-masing).

Pengarang juga menunjukkan peningkatan yang besar dalam kemudahan interaksi pengguna dengan robot Pengguna boleh menggunakan telefon pintar mereka untuk menjalankan lawatan video yang diceritakan dalam persekitaran rumah dan kemudian bertanya "Di mana coaster saya?"

Butiran teknikal

Mobilit VLA ialah strategi navigasi berlapis (ditunjukkan dalam Rajah 1), termasuk bahagian dalam talian dan luar talian.

Di peringkat luar talian, peta topologi G dijana berdasarkan lawatan demonstrasi (N, F). Dalam fasa dalam talian, strategi peringkat tinggi mencari indeks bingkai sasaran navigasi g melalui lawatan tunjuk cara dan arahan pengguna berbilang mod (d,I), yang merupakan integer sepadan dengan bingkai khusus lawatan. Dalam langkah seterusnya, strategi peringkat rendah menggunakan peta topologi, data pemerhatian kamera semasa (O) dan g untuk menjana tindakan titik laluan (a) pada setiap langkah masa untuk robot melaksanakan.

di mana h dan l masing-masing mewakili strategi peringkat tinggi dan rendah.

Lawatan demonstrasi dan penjanaan peta topologi luar talian

Mobility VLA menggunakan lawatan demonstrasi alam sekitar untuk menyelesaikan masalah MINT. Lawatan sedemikian boleh dijalankan dari jauh oleh pengguna manusia, atau video boleh dirakam dengan telefon pintar semasa berjalan di sekitar persekitaran.

Kemudian, Mobiliti VLA luar talian membina graf topologi G = (V, E), di mana setiap bucu v_i∈V sepadan dengan bingkai f_i dalam video lawatan tunjuk cara (F, N). Pengarang menggunakan COLMAP, saluran paip struktur-dari-gerakan di luar rak, untuk menentukan anggaran pose kamera 6-DOF untuk setiap bingkai dan menyimpannya dalam bucu. Seterusnya, jika bucu sasaran berada "di hadapan" bucu sumber (kurang daripada 90 darjah berbeza dalam sikap daripada bucu sumber) dan dalam jarak 2 meter, tepi terarah ditambahkan pada G.

Berbanding dengan saluran paip navigasi tradisional (seperti memetakan persekitaran, mengenal pasti kawasan yang boleh dilalui, dan kemudian membina PRM), pendekatan peta topologi adalah lebih mudah kerana ia menangkap ketersambungan umum persekitaran berdasarkan trajektori lawatan .

Pencarian sasaran Tahap Tinggi berdasarkan VLM pelbagai mod konteks panjang

Semasa pelaksanaan dalam talian, strategi peringkat tinggi menggunakan keupayaan penaakulan akal fikiran VLM untuk menentukan sasaran navigasi lawatan tunjuk cara , untuk memenuhi pelbagai arahan pengguna yang pelbagai mod, bahasa sehari-hari dan sering samar-samar. Untuk tujuan ini, pengkaji menyediakan P (F, N, d, I) segera yang terdiri daripada teks dan imej berjalin. Berikut ialah contoh khusus arahan pengguna berbilang mod, sepadan dengan soalan dalam Jadual 1 - "Di manakah saya harus mengembalikan ini?".

You are a robot operating in a building and your task is to respond to the user command about going to a specific location by finding the closest frame in the tour video to navigate to . These frames are from the tour of the building last year . [ Frame 1 Image f1] Frame 1. [ Frame narrative n1] ... [ Frame k Image fk ] Frame k . [ Frame narrative nk ] This image is what you see now . You may or may not see the user in this image . [ Image Instruction I] The user says : Where should I return this ? How would you respond ? Can you find the closest frame ?

Salin selepas log masuk

VLM Mengembalikan indeks bingkai sasaran integer g.

Gunakan peta topologi untuk mencapai matlamat peringkat rendah

Setelah strategi peringkat tinggi menentukan indeks bingkai sasaran g, strategi peringkat rendah (Algoritma 1) mengambil alih dan melaksanakan tugasan pada setiap langkah masa Menghasilkan tindakan titik laluan (Formula 1).

Pada setiap langkah masa, pengarang menggunakan sistem penyetempatan visual hierarki masa nyata untuk menganggarkan pose robot T dan puncak permulaan yang terdekat v_s∈G menggunakan pemerhatian kamera semasa O (baris 5). Sistem penyetempatan mencari k bingkai calon terdekat dalam G melalui deskriptor global dan kemudian mengira T melalui PnP. Seterusnya, laluan terpendek S pada graf topologi antara v_s dan bucu sasaran v_g (bucu sepadan dengan g) ditentukan oleh algoritma Dijkstra (baris 9). Akhir sekali, dasar peringkat rendah mengembalikan tindakan titik laluan, iaitu Δx, Δy, Δθ bagi bucu seterusnya v_1 dalam S berbanding dengan T (baris 10).

Hasil eksperimen

Untuk menunjukkan prestasi Mobility VLA dan lebih memahami reka bentuk utama, pengarang mereka bentuk eksperimen untuk menjawab soalan kajian berikut:

dunia sebenar, adakah Mobility VLA berprestasi baik dalam MINT?
Soalan 2: Adakah Mobility VLA akan mengatasi alternatif berikutan penggunaan VLM konteks panjang?

Soalan 3: Adakah peta topologi perlu? Bolehkah VLM menjana tindakan secara langsung?

Mobility VLA mempunyai prestasi hujung ke hujung yang mantap dalam persekitaran kehidupan sebenar

1. Kadar kejayaan hujung ke hujung yang tinggi. Jadual 2 menunjukkan bahawa Mobility VLA mencapai kadar kejayaan navigasi hujung ke hujung yang tinggi merentas kebanyakan kategori arahan pengguna, termasuk arahan "keperluan penaakulan" dan "berbilang mod" yang sebelum ini tidak boleh dilaksanakan.

2. Matlamat tahap rendah yang mantap tercapai. Jadual 2 juga menunjukkan keteguhan dunia sebenar (100% kadar kejayaan) strategi pencapaian matlamat tahap rendah Mobility VLA. Lawatan demonstrasi yang disertakan telah direkodkan beberapa bulan sebelum eksperimen, apabila banyak objek, perabot dan keadaan pencahayaan berbeza.

Konteks panjang VLM mengatasi alternatif dalam pencarian sasaran lanjutan

1. Mobiliti VLA mengatasi alternatif. Jadual 3 menunjukkan bahawa kadar kejayaan mencari sasaran tahap tinggi bagi Mobiliti VLA adalah lebih tinggi dengan ketara berbanding kaedah perbandingan. Memandangkan kadar kejayaan peringkat rendah ialah 100%, kadar kejayaan carian sasaran peringkat tinggi ini mewakili kadar kejayaan hujung ke hujung.

2 Menggunakan konteks panjang VLM untuk memproses video lawatan kadar bingkai tinggi adalah kunci kejayaan. Memasukkan lawatan tunjuk cara lengkap persekitaran yang besar ke dalam VLM bukan konteks panjang adalah mencabar kerana setiap imej memerlukan belanjawan beratus-ratus token. Satu penyelesaian untuk mengurangkan bilangan token input ialah menurunkan kadar bingkai video lawatan, dengan kos kehilangan bingkai perantaraan. Jadual 4 menunjukkan bahawa apabila kadar bingkai lawatan menurun, kadar kejayaan carian sasaran peringkat tinggi juga berkurangan. Ini tidak menghairankan, kerana video lawatan dengan kadar bingkai yang lebih rendah kadangkala kehilangan bingkai sasaran navigasi. Tambahan pula, apabila membandingkan VLM tercanggih, hanya Gemini 1.5 Pro mempunyai kadar kejayaan yang memuaskan, berkat panjang konteksnya sehingga 1 juta token.

Peta topologi ialah kunci kejayaan

🎜🎜🎜🎜🎜Jadual 5 menunjukkan prestasi hujung ke hujung Mobility VLA dalam simulasi berbanding dengan operasi titik laluan keluaran langsung VLM yang segera. Kadar kejayaan hujung ke hujung 0% menunjukkan Gemini 1.5 Pro tidak dapat mencapai navigasi sifar tangkapan robot tanpa peta topologi. Berdasarkan eksperimen, penulis mendapati Gemini hampir selalu mengeluarkan tindakan titik jalan "bergerak ke hadapan" tanpa mengira pemerhatian kamera semasa. Selain itu, API Gemini 1.5 semasa memerlukan memuat naik semua 948 imej pelancongan pada setiap panggilan inferens, menghasilkan 26 saat masa jalan yang mahal untuk setiap 1 meter robot bergerak. Sebaliknya, VLM tahap tinggi Mobility VLA akan mengambil masa 10-30 saat untuk mencari indeks sasaran, dan kemudian robot akan menggunakan peta topologi peringkat rendah untuk menavigasi ke sasaran, menghasilkan yang sangat mantap dan cekap (0.19). saat setiap langkah) sistem untuk Menyelesaikan masalah MINT.

Sila rujuk kertas asal untuk butiran lanjut.

Atas ialah kandungan terperinci Gemini 1.5 Pro dipasang ke dalam robot, dan ia boleh memberikan concierge dan bimbingan selepas melawat syarikat.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

<🎜>: Tumbuh Taman - Panduan Mutasi Lengkap

3 minggu yang lalu By DDD

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Bagaimana untuk memperbaiki KB5055612 gagal dipasang di Windows 10?

3 minggu yang lalu By DDD

Nordhold: Sistem Fusion, dijelaskan

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Cara Membuka Kunci Cangkuk Bergelut

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Tutorial Java

1666

Tutorial CakePHP

1425

Tutorial Laravel

1327

Tutorial PHP

1273

Tutorial C#

1252

Tunjukkan Lagi

Related knowledge

Robot DeepMind bermain pingpong, dan pukulan depan dan pukulan kilasnya tergelincir ke udara, mengalahkan manusia pemula sepenuhnya Aug 09, 2024 pm 04:01 PM

Tetapi mungkin dia tidak dapat mengalahkan lelaki tua di taman itu? Sukan Olimpik Paris sedang rancak berlangsung, dan pingpong telah menarik perhatian ramai. Pada masa yang sama, robot juga telah membuat penemuan baru dalam bermain pingpong. Sebentar tadi, DeepMind mencadangkan ejen robot pembelajaran pertama yang boleh mencapai tahap pemain amatur manusia dalam pingpong yang kompetitif. Alamat kertas: https://arxiv.org/pdf/2408.03906 Sejauh manakah robot DeepMind bermain pingpong? Mungkin setanding dengan pemain amatur manusia: kedua-dua pukulan depan dan pukulan kilas: pihak lawan menggunakan pelbagai gaya permainan, dan robot juga boleh bertahan: servis menerima dengan putaran yang berbeza: Walau bagaimanapun, keamatan permainan nampaknya tidak begitu sengit seperti lelaki tua di taman itu. Untuk robot, pingpong

Cakar mekanikal pertama! Yuanluobao muncul di Persidangan Robot Dunia 2024 dan mengeluarkan robot catur pertama yang boleh memasuki rumah Aug 21, 2024 pm 07:33 PM

Pada 21 Ogos, Persidangan Robot Dunia 2024 telah diadakan dengan megah di Beijing. Jenama robot rumah SenseTime "Yuanluobot SenseRobot" telah memperkenalkan seluruh keluarga produknya, dan baru-baru ini mengeluarkan robot permainan catur AI Yuanluobot - Edisi Profesional Catur (selepas ini dirujuk sebagai "Yuanluobot SenseRobot"), menjadi robot catur A pertama di dunia untuk rumah. Sebagai produk robot permainan catur ketiga Yuanluobo, robot Guoxiang baharu telah melalui sejumlah besar peningkatan teknikal khas dan inovasi dalam AI dan jentera kejuruteraan Buat pertama kalinya, ia telah menyedari keupayaan untuk mengambil buah catur tiga dimensi melalui cakar mekanikal pada robot rumah, dan melaksanakan Fungsi mesin manusia seperti bermain catur, semua orang bermain catur, semakan notasi, dsb.

Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri Sep 02, 2024 pm 01:56 PM

Permulaan sekolah akan bermula, dan bukan hanya pelajar yang akan memulakan semester baharu yang harus menjaga diri mereka sendiri, tetapi juga model AI yang besar. Beberapa ketika dahulu, Reddit dipenuhi oleh netizen yang mengadu Claude semakin malas. "Tahapnya telah banyak menurun, ia sering berhenti seketika, malah output menjadi sangat singkat. Pada minggu pertama keluaran, ia boleh menterjemah dokumen penuh 4 halaman sekaligus, tetapi kini ia tidak dapat mengeluarkan separuh halaman pun. !" https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dalam siaran bertajuk "Totally disappointed with Claude", penuh dengan

Pada Persidangan Robot Sedunia, robot domestik yang membawa 'harapan penjagaan warga tua masa depan' ini telah dikepung Aug 22, 2024 pm 10:35 PM

Pada Persidangan Robot Dunia yang diadakan di Beijing, paparan robot humanoid telah menjadi tumpuan mutlak di gerai Stardust Intelligent, pembantu robot AI S1 mempersembahkan tiga persembahan utama dulcimer, seni mempertahankan diri dan kaligrafi dalam. satu kawasan pameran, berkebolehan kedua-dua sastera dan seni mempertahankan diri, menarik sejumlah besar khalayak profesional dan media. Permainan elegan pada rentetan elastik membolehkan S1 menunjukkan operasi halus dan kawalan mutlak dengan kelajuan, kekuatan dan ketepatan. CCTV News menjalankan laporan khas mengenai pembelajaran tiruan dan kawalan pintar di sebalik "Kaligrafi Pengasas Syarikat Lai Jie menjelaskan bahawa di sebalik pergerakan sutera, bahagian perkakasan mengejar kawalan daya terbaik dan penunjuk badan yang paling menyerupai manusia (kelajuan, beban). dll.), tetapi di sisi AI, data pergerakan sebenar orang dikumpulkan, membolehkan robot menjadi lebih kuat apabila ia menghadapi situasi yang kuat dan belajar untuk berkembang dengan cepat. Dan tangkas

Anugerah ACL 2024 Diumumkan: Salah satu Kertas Terbaik mengenai Pentafsiran Oracle oleh HuaTech, Anugerah Ujian Masa GloVe Aug 15, 2024 pm 04:37 PM

Pada persidangan ACL ini, para penyumbang telah mendapat banyak keuntungan. ACL2024 selama enam hari diadakan di Bangkok, Thailand. ACL ialah persidangan antarabangsa teratas dalam bidang linguistik pengiraan dan pemprosesan bahasa semula jadi Ia dianjurkan oleh Persatuan Antarabangsa untuk Linguistik Pengiraan dan diadakan setiap tahun. ACL sentiasa menduduki tempat pertama dalam pengaruh akademik dalam bidang NLP, dan ia juga merupakan persidangan yang disyorkan CCF-A. Persidangan ACL tahun ini adalah yang ke-62 dan telah menerima lebih daripada 400 karya termaju dalam bidang NLP. Petang semalam, persidangan itu mengumumkan kertas kerja terbaik dan anugerah lain. Kali ini, terdapat 7 Anugerah Kertas Terbaik (dua tidak diterbitkan), 1 Anugerah Kertas Tema Terbaik, dan 35 Anugerah Kertas Cemerlang. Persidangan itu turut menganugerahkan 3 Anugerah Kertas Sumber (ResourceAward) dan Anugerah Impak Sosial (

Pasukan Li Feifei mencadangkan ReKep untuk memberi robot kecerdasan spatial dan mengintegrasikan GPT-4o Sep 03, 2024 pm 05:18 PM

Penyepaduan mendalam penglihatan dan pembelajaran robot. Apabila dua tangan robot bekerja bersama-sama dengan lancar untuk melipat pakaian, menuang teh dan mengemas kasut, ditambah pula dengan 1X robot humanoid NEO yang telah menjadi tajuk berita baru-baru ini, anda mungkin mempunyai perasaan: kita seolah-olah memasuki zaman robot. Malah, pergerakan sutera ini adalah hasil teknologi robotik canggih + reka bentuk bingkai yang indah + model besar berbilang modal. Kami tahu bahawa robot yang berguna sering memerlukan interaksi yang kompleks dan indah dengan alam sekitar, dan persekitaran boleh diwakili sebagai kekangan dalam domain spatial dan temporal. Sebagai contoh, jika anda ingin robot menuang teh, robot terlebih dahulu perlu menggenggam pemegang teko dan memastikannya tegak tanpa menumpahkan teh, kemudian gerakkannya dengan lancar sehingga mulut periuk sejajar dengan mulut cawan. , dan kemudian condongkan teko pada sudut tertentu. ini

Persidangan Kecerdasan Buatan Teragih DAI 2024 Call for Papers: Hari Agen, Richard Sutton, bapa pembelajaran pengukuhan, akan hadir! Yan Shuicheng, Sergey Levine dan saintis DeepMind akan memberikan ucaptama Aug 22, 2024 pm 08:02 PM

Pengenalan Persidangan Dengan perkembangan pesat sains dan teknologi, kecerdasan buatan telah menjadi kuasa penting dalam menggalakkan kemajuan sosial. Dalam era ini, kami bertuah untuk menyaksikan dan mengambil bahagian dalam inovasi dan aplikasi Kecerdasan Buatan Teragih (DAI). Kecerdasan buatan yang diedarkan adalah cabang penting dalam bidang kecerdasan buatan, yang telah menarik lebih banyak perhatian dalam beberapa tahun kebelakangan ini. Agen berdasarkan model bahasa besar (LLM) tiba-tiba muncul Dengan menggabungkan pemahaman bahasa yang kuat dan keupayaan penjanaan model besar, mereka telah menunjukkan potensi besar dalam interaksi bahasa semula jadi, penaakulan pengetahuan, perancangan tugas, dsb. AIAgent mengambil alih model bahasa besar dan telah menjadi topik hangat dalam kalangan AI semasa. Au

Hongmeng Smart Travel S9 dan persidangan pelancaran produk baharu senario penuh, beberapa produk baharu blockbuster dikeluarkan bersama-sama Aug 08, 2024 am 07:02 AM

Petang ini, Hongmeng Zhixing secara rasmi mengalu-alukan jenama baharu dan kereta baharu. Pada 6 Ogos, Huawei mengadakan persidangan pelancaran produk baharu Hongmeng Smart Xingxing S9 dan senario penuh Huawei, membawakan sedan perdana pintar panoramik Xiangjie S9, M7Pro dan Huawei novaFlip baharu, MatePad Pro 12.2 inci, MatePad Air baharu, Huawei Bisheng With banyak produk pintar semua senario baharu termasuk pencetak laser siri X1, FreeBuds6i, WATCHFIT3 dan skrin pintar S5Pro, daripada perjalanan pintar, pejabat pintar kepada pakaian pintar, Huawei terus membina ekosistem pintar senario penuh untuk membawa pengguna pengalaman pintar Internet Segala-galanya. Hongmeng Zhixing: Pemerkasaan mendalam untuk menggalakkan peningkatan industri kereta pintar Huawei berganding bahu dengan rakan industri automotif China untuk menyediakan

See all articles