


Model besar + robot, laporan ulasan terperinci ada di sini, dengan penyertaan ramai sarjana Cina
Keupayaan cemerlang model besar adalah jelas kepada semua, dan jika ia disepadukan ke dalam robot, diharapkan robot akan mempunyai otak yang lebih pintar, membawa kemungkinan baharu kepada bidang robotik, seperti pemanduan autonomi, robot rumah, industri robot, robot tambahan, Robot perubatan, robot medan dan sistem berbilang robot.
Model Bahasa Besar (LLM) yang telah dilatih sebelumnya, Model Bahasa Penglihatan Besar (VLM), Model Bahasa Audio Besar (ALM) dan Model Navigasi Visual Besar (VNM) boleh digunakan untuk menangani pelbagai masalah dalam bidang robotik dengan lebih baik. Tugasan. Mengintegrasikan model asas ke dalam robotik ialah bidang yang berkembang pesat, dan komuniti robotik baru-baru ini mula meneroka penggunaan model besar ini dalam bidang robotik yang perlu ditulis semula: persepsi, ramalan, perancangan dan kawalan.
Baru-baru ini, pasukan penyelidikan bersama yang terdiri daripada Universiti Stanford, Universiti Princeton, NVIDIA, Google DeepMind dan syarikat lain mengeluarkan laporan semakan yang meringkaskan pembangunan dan cabaran masa depan model asas dalam bidang penyelidikan robotik
Kertas alamat: https://arxiv.org/pdf/2312.07843.pdf
Kandungan yang ditulis semula ialah: Pustaka kertas: https://github.com/robotics-survey/Awesome-Robotics-Foundation -Models
Terdapat ramai ulama Cina yang kita kenali di kalangan ahli pasukan, termasuk Zhu Yuke, Song Shuran, Wu Jiajun, Lu Cewu, dll.
Model asas yang telah dilatih secara meluas menggunakan data berskala besar boleh digunakan pada pelbagai tugas hiliran selepas penalaan halus. Model asas ini telah membuat penemuan besar dalam bidang penglihatan dan pemprosesan bahasa, termasuk model berkaitan seperti BERT, GPT-3, GPT-4, CLIP, DALL-E dan PaLM-E
Sebelum kemunculan model asas, untuk robot Model pembelajaran mendalam tradisional dilatih menggunakan set data terhad yang dikumpul untuk tugasan yang berbeza. Sebaliknya, model asas telah dilatih terlebih dahulu menggunakan pelbagai data yang pelbagai dan telah menunjukkan kebolehsuaian, generalisasi dan prestasi keseluruhan dalam bidang lain seperti pemprosesan bahasa semula jadi, penglihatan komputer dan penjagaan kesihatan. Akhirnya, model asas juga dijangka menunjukkan potensinya dalam bidang robotik. Rajah 1 menunjukkan gambaran keseluruhan model asas dalam bidang robotik.
Berbanding dengan model khusus tugasan, pemindahan pengetahuan daripada model asas berpotensi untuk mengurangkan masa latihan dan sumber pengkomputeran. Terutamanya dalam bidang berkaitan robotik, model asas multimodal boleh menggabungkan dan menyelaraskan data heterogen berbilang mod yang dikumpul daripada penderia berbeza ke dalam perwakilan homogen padat, yang diperlukan untuk pemahaman dan penaakulan robot. Perwakilan yang dipelajarinya boleh digunakan dalam mana-mana bahagian tindanan teknologi automasi, termasuk yang perlu ditulis semula: persepsi, membuat keputusan dan kawalan.
Bukan itu sahaja, model asas juga boleh menyediakan keupayaan pembelajaran sifar pukulan, yang membolehkan sistem AI melaksanakan tugas tanpa sebarang contoh atau latihan yang disasarkan. Ini membolehkan robot menyamaratakan pengetahuan yang telah dipelajarinya kepada kes penggunaan baharu, meningkatkan kebolehsuaian dan fleksibiliti robot dalam persekitaran tidak berstruktur.
Mengintegrasikan model asas ke dalam sistem robot boleh meningkatkan keupayaan robot untuk melihat persekitaran dan berinteraksi dengan persekitaran Ia adalah mungkin untuk merealisasikan konteks yang perlu ditulis semula: sistem robot persepsi.
Sebagai contoh, perkara yang perlu ditulis semula ialah: dalam bidang persepsi, model bahasa visual (VLM) berskala besar boleh mempelajari perkaitan antara data visual dan teks, supaya mempunyai keupayaan pemahaman merentas mod, dengan itu membantu pengelasan imej tangkapan sifar, Tugas seperti sampel sifar pengesanan objek dan pengelasan 3D. Sebagai contoh lain, asas bahasa (iaitu, menjajarkan pemahaman kontekstual VLM dengan dunia sebenar 3D) dalam dunia 3D boleh meningkatkan keperluan ruang robot dengan mengaitkan sebutan dengan objek, lokasi atau tindakan tertentu dalam persekitaran 3D : keupayaan untuk melihat.
Dalam bidang membuat keputusan atau perancangan, penyelidikan mendapati bahawa LLM dan VLM boleh membantu robot dalam menentukan tugas yang melibatkan perancangan peringkat tinggi.
Dengan memanfaatkan isyarat bahasa yang berkaitan dengan operasi, navigasi dan interaksi, robot boleh melaksanakan tugas yang lebih kompleks. Sebagai contoh, untuk teknologi pembelajaran dasar robot seperti pembelajaran tiruan dan pembelajaran pengukuhan, model asas nampaknya mempunyai keupayaan untuk meningkatkan kecekapan data dan pemahaman konteks. Khususnya, ganjaran yang didorong oleh bahasa boleh membimbing agen pembelajaran pengukuhan dengan menyediakan ganjaran berbentuk.
Selain itu, penyelidik sudah pun menggunakan model bahasa untuk memberikan maklum balas bagi teknologi pembelajaran dasar. Beberapa kajian telah menunjukkan bahawa keupayaan menjawab soalan visual (VQA) model VLM boleh digunakan untuk kes penggunaan robotik. Sebagai contoh, penyelidik telah menggunakan VLM untuk menjawab soalan yang berkaitan dengan kandungan visual untuk membantu robot menyelesaikan tugas. Selain itu, sesetengah penyelidik menggunakan VLM untuk membantu dengan anotasi data dan menjana label penerangan untuk kandungan visual.
Walaupun model asas mempunyai keupayaan transformatif dalam pemprosesan penglihatan dan bahasa, generalisasi dan penalaan halus model asas untuk tugas robotik dunia sebenar masih agak mencabar.
Cabaran-cabaran ini termasuk:
1) Kekurangan data: Cara mendapatkan data berskala Internet untuk menyokong tugas seperti pengendalian robot, kedudukan, navigasi, dll., dan cara menggunakan data ini untuk latihan yang diselia sendiri
2) Perbezaan besar: Cara menangani kepelbagaian besar persekitaran fizikal, platform robot fizikal dan tugas robot yang berpotensi, sambil mengekalkan keluasan yang diperlukan bagi model asas
3) Masalah kuantifikasi ketidakpastian: Bagaimana untuk menyelesaikan contoh- ketidakpastian tahap (seperti kekaburan bahasa atau ilusi LLM), ketidakpastian tahap pengedaran dan masalah anjakan pengedaran, terutamanya masalah anjakan pengedaran yang disebabkan oleh penggunaan robot gelung tertutup.
4) Penilaian keselamatan: Cara menguji sistem robot dengan teliti berdasarkan model asas sebelum penggunaan, semasa proses kemas kini dan semasa proses kerja.
5) Prestasi masa nyata: Cara menangani masa inferens yang panjang bagi beberapa model asas - yang akan menghalang penggunaan model asas pada robot dan cara mempercepatkan inferens model asas - yang diperlukan untuk keputusan dalam talian- membuat.
Kertas ulasan ini meringkaskan penggunaan semasa model asas dalam bidang robotik. Para penyelidik meninjau kaedah, aplikasi dan cabaran semasa dan mencadangkan arah penyelidikan masa depan untuk menangani cabaran ini. Mereka juga menunjukkan potensi risiko menggunakan model asas untuk mencapai autonomi robot
Pengetahuan latar belakang model asas
Model asas mempunyai berbilion parameter dan dilatih terlebih dahulu menggunakan data berskala besar peringkat Internet. Melatih model yang besar dan kompleks itu sangat mahal. Kos untuk memperoleh, memproses dan mengurus data juga boleh menjadi tinggi. Proses latihannya memerlukan sejumlah besar sumber pengkomputeran, memerlukan penggunaan perkakasan khusus seperti GPU atau TPU, dan juga memerlukan perisian dan infrastruktur untuk latihan model, yang semuanya memerlukan pelaburan kewangan. Di samping itu, masa latihan model asas juga sangat panjang, yang juga membawa kepada kos yang tinggi. Oleh itu, model ini sering digunakan sebagai modul boleh pasang, iaitu menyepadukan model asas ke dalam pelbagai aplikasi tanpa kerja penyesuaian yang meluas
Jadual 1 memberikan butiran model asas yang biasa digunakan.
Bahagian ini akan memfokuskan pada LLM, Transformer visual, VLM, model bahasa berbilang modal terjelma dan model generatif visual. Selain itu, kaedah latihan berbeza yang digunakan untuk melatih model asas juga akan diperkenalkan
Mereka mula-mula memperkenalkan beberapa terminologi dan pengetahuan matematik yang berkaitan, yang melibatkan tokenisasi, model generatif, model diskriminatif, seni bina Transformer, model autoregresif, Pengekodan automatik bertopeng, pembelajaran kontrastif , dan model resapan.
Kemudian mereka memperkenalkan contoh dan latar belakang sejarah Model Bahasa Besar (LLM). Selepas itu, Transformer visual, model bahasa penglihatan multimodal (VLM), model bahasa multimodal yang terkandung, dan model generatif visual telah diserlahkan.
Penyelidikan Robot
Bahagian ini memfokuskan pada pembuatan keputusan, perancangan dan kawalan robot. Dalam bidang ini, kedua-dua model bahasa besar (LLM) dan model bahasa visual (VLM) mempunyai potensi untuk digunakan untuk meningkatkan keupayaan robot. Sebagai contoh, LLM boleh memudahkan proses spesifikasi tugas supaya robot boleh menerima dan mentafsir arahan peringkat tinggi daripada manusia.
VLM juga diharapkan dapat menyumbang kepada bidang ini. VLM cemerlang dalam menganalisis data visual. Untuk robot membuat keputusan termaklum dan melaksanakan tugas yang kompleks, pemahaman visual adalah penting. Kini, robot boleh menggunakan isyarat bahasa semula jadi untuk meningkatkan keupayaan mereka untuk melaksanakan tugas yang berkaitan dengan manipulasi, navigasi dan interaksi.
Pembelajaran dasar visual-linguistik berasaskan matlamat (sama ada melalui pembelajaran tiruan atau pembelajaran pengukuhan) dijangka akan ditambah baik oleh model asas. Model bahasa juga boleh memberikan maklum balas untuk teknik pembelajaran dasar. Gelung maklum balas ini membantu mempertingkatkan keupayaan membuat keputusan robot secara berterusan, kerana robot boleh mengoptimumkan tindakannya berdasarkan maklum balas yang diterima daripada LLM.
Bahagian ini memfokuskan kepada aplikasi LLM dan VLM dalam bidang pembuatan keputusan robot.
Bahagian ini terbahagi kepada enam bahagian. Bahagian pertama memperkenalkan pembelajaran dasar untuk membuat keputusan dan kawalan dan robot, termasuk pembelajaran tiruan berasaskan bahasa dan pembelajaran peneguhan berbantukan bahasa.
Bahagian kedua ialah pembelajaran nilai imej bahasa berasaskan matlamat.
Bahagian ketiga memperkenalkan penggunaan model bahasa yang besar untuk merancang tugasan robot, yang termasuk menerangkan tugasan melalui arahan bahasa dan menggunakan model bahasa untuk menjana kod untuk perancangan tugas.
Bahagian keempat ialah pembelajaran kontekstual (ICL) untuk membuat keputusan.
Yang seterusnya yang akan diperkenalkan ialah Robot Transformers
Bahagian keenam ialah navigasi robot dan operasi perpustakaan perbendaharaan kata terbuka.
Jadual 2 memberikan beberapa model asas khusus robot, pelaporan saiz dan seni bina model, tugas pra-latihan, masa inferens dan persediaan perkakasan.
Apa yang perlu ditulis semula ialah: persepsi
Robot yang berinteraksi dengan persekitaran sekeliling menerima maklumat deria dalam modaliti yang berbeza, seperti imej, video, audio dan bahasa. Data berdimensi tinggi ini penting untuk robot memahami, menaakul dan berinteraksi dengan persekitaran mereka. Model asas boleh mengubah input berdimensi tinggi ini kepada perwakilan berstruktur abstrak yang mudah ditafsir dan dimanipulasi. Khususnya, model asas multimodal membenarkan robot untuk mengintegrasikan input daripada deria berbeza ke dalam perwakilan bersatu yang mengandungi maklumat semantik, ruang, temporal dan kemampuan. Model multimodal ini memerlukan interaksi silang modal, selalunya memerlukan penjajaran elemen daripada modaliti yang berbeza untuk memastikan konsistensi dan kesesuaian bersama. Sebagai contoh, tugas perihalan imej memerlukan penjajaran teks dan data imej.
Bahagian ini akan menumpukan pada perkara yang robot perlu tulis semula: satu siri tugasan yang berkaitan dengan persepsi, yang boleh dipertingkatkan dengan menggunakan model asas untuk menyelaraskan modaliti. Penekanan adalah pada penglihatan dan bahasa.
Bahagian ini dibahagikan kepada lima bahagian, pertama ialah pengesanan sasaran dan klasifikasi 3D bagi perbendaharaan kata terbuka, kemudian pembahagian semantik perbendaharaan kata terbuka, kemudian ialah adegan 3D dan perwakilan sasaran bagi perbendaharaan kata terbuka, dan kemudian ialah kemampuan yang dipelajari, dan akhirnya model ramalan.
Embodied AI
Baru-baru ini, beberapa kajian telah menunjukkan bahawa LLM boleh berjaya digunakan dalam bidang Embodied AI, di mana "embodied" biasanya merujuk kepada penjelmaan maya dalam simulator dunia, dan bukannya mempunyai badan robot Fizikal.
Beberapa rangka kerja, set data dan model yang menarik telah muncul di kawasan ini. Nota khusus ialah penggunaan permainan Minecraft sebagai platform untuk melatih ejen yang terkandung. Contohnya, Voyager menggunakan GPT-4 untuk membimbing ejen meneroka persekitaran Minecraft. Ia boleh berinteraksi dengan GPT-4 melalui reka bentuk segera kontekstual tanpa perlu memperhalusi parameter model GPT-4.
Pembelajaran peneguhan ialah hala tuju penyelidikan yang penting dalam bidang pembelajaran robot Penyelidik cuba menggunakan model asas untuk mereka bentuk fungsi ganjaran untuk mengoptimumkan pembelajaran peneguhan
Untuk robot melaksanakan perancangan peringkat tinggi, penyelidik telah meneroka penggunaan asas. model untuk membantu. Di samping itu, beberapa penyelidik cuba menggunakan kaedah penaakulan berasaskan rantai pemikiran dan penjanaan tindakan untuk menjelmakan kecerdasan
Cabaran dan hala tuju masa hadapan
Bahagian ini akan memberikan cabaran yang berkaitan dengan menggunakan model asas untuk robot. Pasukan ini juga akan meneroka arah penyelidikan masa depan yang mungkin menangani cabaran ini.
Cabaran pertama adalah untuk mengatasi masalah kekurangan data semasa melatih model asas untuk robot, yang merangkumi:
1 Memperluas pembelajaran robot menggunakan data permainan tidak berstruktur dan video manusia tidak berlabel
2
3 Atasi masalah kekurangan data 3D semasa melatih model asas 3D
4. Hasilkan data sintetik melalui simulasi ketelitian tinggi
5 Menggunakan VLM untuk penambahan data ialah kaedah yang berkesan
6 Kemahiran fizikal robot dihadkan oleh pengagihan kemahiran
Cabaran kedua adalah berkaitan dengan prestasi masa nyata, di mana kuncinya ialah masa inferens model asas. .
Cabaran ketiga melibatkan batasan perwakilan multimodal.
Cabaran keempat ialah cara mengukur ketidakpastian pada tahap yang berbeza, seperti tahap contoh dan tahap pengedaran. Ia juga melibatkan masalah cara menentukur dan menangani anjakan pengedaran.
Cabaran kelima melibatkan penilaian keselamatan, termasuk ujian keselamatan sebelum penggunaan dan pemantauan masa jalan dan pengesanan situasi luar pengedaran.
Cabaran keenam melibatkan cara memilih: menggunakan model asas sedia ada atau membina model asas baharu untuk robot?
Cabaran ketujuh melibatkan kebolehubahan yang tinggi dalam persediaan robot.
Cabaran kelapan ialah cara menanda aras dan memastikan kebolehulangan dalam tetapan robot.
Untuk butiran penyelidikan lanjut, sila rujuk kertas asal.
Atas ialah kandungan terperinci Model besar + robot, laporan ulasan terperinci ada di sini, dengan penyertaan ramai sarjana Cina. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Tetapi mungkin dia tidak dapat mengalahkan lelaki tua di taman itu? Sukan Olimpik Paris sedang rancak berlangsung, dan pingpong telah menarik perhatian ramai. Pada masa yang sama, robot juga telah membuat penemuan baru dalam bermain pingpong. Sebentar tadi, DeepMind mencadangkan ejen robot pembelajaran pertama yang boleh mencapai tahap pemain amatur manusia dalam pingpong yang kompetitif. Alamat kertas: https://arxiv.org/pdf/2408.03906 Sejauh manakah robot DeepMind bermain pingpong? Mungkin setanding dengan pemain amatur manusia: kedua-dua pukulan depan dan pukulan kilas: pihak lawan menggunakan pelbagai gaya permainan, dan robot juga boleh bertahan: servis menerima dengan putaran yang berbeza: Walau bagaimanapun, keamatan permainan nampaknya tidak begitu sengit seperti lelaki tua di taman itu. Untuk robot, pingpong

Pada 21 Ogos, Persidangan Robot Dunia 2024 telah diadakan dengan megah di Beijing. Jenama robot rumah SenseTime "Yuanluobot SenseRobot" telah memperkenalkan seluruh keluarga produknya, dan baru-baru ini mengeluarkan robot permainan catur AI Yuanluobot - Edisi Profesional Catur (selepas ini dirujuk sebagai "Yuanluobot SenseRobot"), menjadi robot catur A pertama di dunia untuk rumah. Sebagai produk robot permainan catur ketiga Yuanluobo, robot Guoxiang baharu telah melalui sejumlah besar peningkatan teknikal khas dan inovasi dalam AI dan jentera kejuruteraan Buat pertama kalinya, ia telah menyedari keupayaan untuk mengambil buah catur tiga dimensi melalui cakar mekanikal pada robot rumah, dan melaksanakan Fungsi mesin manusia seperti bermain catur, semua orang bermain catur, semakan notasi, dsb.

Permulaan sekolah akan bermula, dan bukan hanya pelajar yang akan memulakan semester baharu yang harus menjaga diri mereka sendiri, tetapi juga model AI yang besar. Beberapa ketika dahulu, Reddit dipenuhi oleh netizen yang mengadu Claude semakin malas. "Tahapnya telah banyak menurun, ia sering berhenti seketika, malah output menjadi sangat singkat. Pada minggu pertama keluaran, ia boleh menterjemah dokumen penuh 4 halaman sekaligus, tetapi kini ia tidak dapat mengeluarkan separuh halaman pun. !" https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dalam siaran bertajuk "Totally disappointed with Claude", penuh dengan

Pada Persidangan Robot Dunia yang diadakan di Beijing, paparan robot humanoid telah menjadi tumpuan mutlak di gerai Stardust Intelligent, pembantu robot AI S1 mempersembahkan tiga persembahan utama dulcimer, seni mempertahankan diri dan kaligrafi dalam. satu kawasan pameran, berkebolehan kedua-dua sastera dan seni mempertahankan diri, menarik sejumlah besar khalayak profesional dan media. Permainan elegan pada rentetan elastik membolehkan S1 menunjukkan operasi halus dan kawalan mutlak dengan kelajuan, kekuatan dan ketepatan. CCTV News menjalankan laporan khas mengenai pembelajaran tiruan dan kawalan pintar di sebalik "Kaligrafi Pengasas Syarikat Lai Jie menjelaskan bahawa di sebalik pergerakan sutera, bahagian perkakasan mengejar kawalan daya terbaik dan penunjuk badan yang paling menyerupai manusia (kelajuan, beban). dll.), tetapi di sisi AI, data pergerakan sebenar orang dikumpulkan, membolehkan robot menjadi lebih kuat apabila ia menghadapi situasi yang kuat dan belajar untuk berkembang dengan cepat. Dan tangkas

Setakat ini, tiada produk dalam trek peranti boleh pakai AI telah mencapai hasil yang sangat baik. AIPin, yang dilancarkan di MWC24 pada awal tahun ini, sebaik sahaja prototaip penilaian dihantar, "mitos AI" yang digembar-gemburkan pada masa pelancarannya mula berkecai, dan ia mengalami pulangan berskala besar dalam hanya satu beberapa bulan; RabbitR1, yang juga terjual dengan baik pada mulanya, agak Lebih baik, tetapi ia juga menerima ulasan negatif serupa dengan "kes Android" apabila ia dihantar dalam kuantiti yang banyak. Kini, syarikat lain telah memasuki trek peranti boleh pakai AI. Media teknologi TheVerge menerbitkan catatan blog semalam mengatakan bahawa permulaan AI Plaud telah melancarkan produk yang dipanggil NotePin. Berbeza dengan AIFriend yang masih dalam peringkat "melukis", NotePin kini telah bermula

Pada persidangan ACL ini, para penyumbang telah mendapat banyak keuntungan. ACL2024 selama enam hari diadakan di Bangkok, Thailand. ACL ialah persidangan antarabangsa teratas dalam bidang linguistik pengiraan dan pemprosesan bahasa semula jadi Ia dianjurkan oleh Persatuan Antarabangsa untuk Linguistik Pengiraan dan diadakan setiap tahun. ACL sentiasa menduduki tempat pertama dalam pengaruh akademik dalam bidang NLP, dan ia juga merupakan persidangan yang disyorkan CCF-A. Persidangan ACL tahun ini adalah yang ke-62 dan telah menerima lebih daripada 400 karya termaju dalam bidang NLP. Petang semalam, persidangan itu mengumumkan kertas kerja terbaik dan anugerah lain. Kali ini, terdapat 7 Anugerah Kertas Terbaik (dua tidak diterbitkan), 1 Anugerah Kertas Tema Terbaik, dan 35 Anugerah Kertas Cemerlang. Persidangan itu turut menganugerahkan 3 Anugerah Kertas Sumber (ResourceAward) dan Anugerah Impak Sosial (

Petang ini, Hongmeng Zhixing secara rasmi mengalu-alukan jenama baharu dan kereta baharu. Pada 6 Ogos, Huawei mengadakan persidangan pelancaran produk baharu Hongmeng Smart Xingxing S9 dan senario penuh Huawei, membawakan sedan perdana pintar panoramik Xiangjie S9, M7Pro dan Huawei novaFlip baharu, MatePad Pro 12.2 inci, MatePad Air baharu, Huawei Bisheng With banyak produk pintar semua senario baharu termasuk pencetak laser siri X1, FreeBuds6i, WATCHFIT3 dan skrin pintar S5Pro, daripada perjalanan pintar, pejabat pintar kepada pakaian pintar, Huawei terus membina ekosistem pintar senario penuh untuk membawa pengguna pengalaman pintar Internet Segala-galanya. Hongmeng Zhixing: Pemerkasaan mendalam untuk menggalakkan peningkatan industri kereta pintar Huawei berganding bahu dengan rakan industri automotif China untuk menyediakan

Penyepaduan mendalam penglihatan dan pembelajaran robot. Apabila dua tangan robot bekerja bersama-sama dengan lancar untuk melipat pakaian, menuang teh dan mengemas kasut, ditambah pula dengan 1X robot humanoid NEO yang telah menjadi tajuk berita baru-baru ini, anda mungkin mempunyai perasaan: kita seolah-olah memasuki zaman robot. Malah, pergerakan sutera ini adalah hasil teknologi robotik canggih + reka bentuk bingkai yang indah + model besar berbilang modal. Kami tahu bahawa robot yang berguna sering memerlukan interaksi yang kompleks dan indah dengan alam sekitar, dan persekitaran boleh diwakili sebagai kekangan dalam domain spatial dan temporal. Sebagai contoh, jika anda ingin robot menuang teh, robot terlebih dahulu perlu menggenggam pemegang teko dan memastikannya tegak tanpa menumpahkan teh, kemudian gerakkannya dengan lancar sehingga mulut periuk sejajar dengan mulut cawan. , dan kemudian condongkan teko pada sudut tertentu. ini
