Rumah > Peranti teknologi > AI > teks badan

Selalu dikatakan bahawa data perisikan yang terkandung adalah terlalu mahal, Makmal Pengcheng sumber terbuka satu set data piawai berskala juta

PHPz
Lepaskan: 2024-08-23 16:01:02
asal
878 orang telah melayarinya
Selalu dikatakan bahawa data perisikan yang terkandung adalah terlalu mahal, Makmal Pengcheng sumber terbuka satu set data piawai berskala juta

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com


Penulis kertas kerja ini adalah guru dan pelajar dari Institut Multi-Agent and Embodied Intelligence of Pengcheng Laboratory and Southern University of Science Teknologi, dan Universiti Sun Yat-sen Pasukan ini termasuk Profesor Lin Liang (Pengarah Institut, Cendekiawan Muda Terbilang Kebangsaan, Felo IEEE), Profesor Zheng Feng, Profesor Liang Xiaodan, Wang Zhiqiang (Universiti Sains dan Teknologi Selatan), Zheng Hao (Universiti Sains dan Teknologi Selatan), Nie Yunshuang (CUHK), Xu Wenjun (Pengcheng) ), Ye Hua (Pengcheng), dll. Pasukan Profesor Lin Liang dari Makmal Pengcheng komited untuk membina platform asas umum seperti kolaborasi berbilang ejen dan platform latihan simulasi dan model besar berbilang modal kolaboratif awan untuk memperkasakan keperluan aplikasi utama seperti Internet industri dan tadbir urus dan perkhidmatan sosial .

Sejak tahun ini, kecerdasan yang terkandung menjadi medan hangat dalam akademik dan industri, dan produk serta hasil yang berkaitan muncul satu demi satu. Hari ini, Institut Multi-Agen dan Kecerdasan Terwujud Makmal Pengcheng (selepas ini dirujuk sebagai Pengcheng Embodied Institute), bersama-sama Universiti Sains dan Teknologi Selatan dan Universiti Sun Yat-sen, secara rasmi mengeluarkan dan sumber terbuka pencapaian akademik terkininya dalam bidang kecerdasan terkandung - ARIO (Semua Robot) Dalam Satu) set data berskala besar yang terkandung bertujuan untuk menyelesaikan masalah pemerolehan data yang sedang dihadapi dalam bidang kecerdasan terkandung. .

Selalu dikatakan bahawa data perisikan yang terkandung adalah terlalu mahal, Makmal Pengcheng sumber terbuka satu set data piawai berskala juta

Laman utama projek: https://imaei.github.io/project_pages/ario/

Selalu dikatakan bahawa data perisikan yang terkandung adalah terlalu mahal, Makmal Pengcheng sumber terbuka satu set data piawai berskala juta

    Pautan laman web Institut Penjelmaan Makmal Pengcheng: https://imaei.github.io/
Sebagai otak robot yang diwujudkan, kunci untuk menjadikan prestasi model besar yang terkandung lebih baik adalah untuk mendapatkan data besar terkandung yang berkualiti tinggi. Berbeza daripada data teks atau imej yang digunakan dalam model bahasa besar atau model visual yang besar, data yang terkandung tidak boleh diperoleh secara langsung daripada kandungan besar Internet, tetapi perlu dikumpulkan melalui operasi robot sebenar atau dihasilkan oleh platform simulasi termaju pengumpulan data yang terkandung Ia memerlukan masa dan kos yang tinggi, dan sukar untuk mencapai skala besar.

Pada masa yang sama, set data sumber terbuka semasa juga mempunyai banyak kekurangan Seperti yang ditunjukkan dalam jadual di atas, jumlah data JD ManiData, ManiWAV dan RH20T tidak besar, dan platform perkakasan robot yang digunakan untuk DROID. data secara relatifnya tunggal. Penjelmaan Open-X Walaupun ia telah mencapai jumlah data yang besar, modaliti data derianya tidak cukup kaya, dan format data antara set sub-data tidak seragam dan kualitinya juga tidak sekata banyak masa untuk menapis dan memproses data sebelum menggunakannya, dan sukar untuk Memenuhi keperluan untuk latihan yang cekap dan disasarkan bagi model pintar yang terkandung dalam senario yang kompleks.

Sebagai perbandingan, set data ARIO yang dikeluarkan kali ini mengandungi data deria dalam 5 modaliti: 2D, 3D, teks, sentuhan dan bunyi, meliputi dua kategori utama: operasi dan Navigasi kedua-dua data simulasi dan data pemandangan sebenar, dan mengandungi pelbagai perkakasan robot, yang sangat kaya. Walaupun skala data mencecah tiga juta, ia juga memastikan format data bersatu Pada masa ini Ia merupakan set data sumber terbuka yang pada masa yang sama mencapai kualiti tinggi, kepelbagaian dan berskala besar dalam bidang kecerdasan yang terkandung.

Untuk set data kecerdasan yang terkandung, kerana robot mempunyai banyak bentuk, seperti lengan tunggal, lengan dua, humanoid, berkaki empat, dll., dan kaedah persepsi dan kawalan juga berbeza, ada yang dikawal melalui sudut bersama, dan sesetengahnya didorong oleh koordinat badan atau pose akhir, jadi data yang terkandung itu sendiri jauh lebih kompleks daripada data imej dan teks yang mudah, dan banyak parameter kawalan perlu direkodkan. Dan jika tiada format bersatu, apabila berbilang jenis data robot diagregatkan bersama, banyak tenaga akan dibelanjakan untuk prapemprosesan tambahan.

Oleh itu, Institut Penjelmaan Makmal Pengcheng mula-mula mereka bentuk satu set standard format untuk data besar yang terkandung Piawaian ini boleh merekodkan pelbagai bentuk parameter kawalan robot, mempunyai struktur bentuk organisasi data yang jelas, dan boleh juga Ia serasi dengan penderia dengan kadar bingkai yang berbeza dan merekodkan cap masa yang sepadan untuk memenuhi keperluan tepat model besar pintar yang terkandung untuk pengesanan dan pemasaan kawalan. Rajah di bawah menunjukkan reka bentuk keseluruhan set data ARIO. O Rajah 1. Reka bentuk set data ARIO

Selalu dikatakan bahawa data perisikan yang terkandung adalah terlalu mahal, Makmal Pengcheng sumber terbuka satu set data piawai berskala juta

set data Ario, dengan jumlah 258 jujukan adegan, 32,1064 tugasan dan 3.03 juta sampel. Data ARIO datang daripada tiga sumber utama Satu ialah koleksi orang sebenar dengan mengatur adegan dan tugasan dalam persekitaran sebenar yang lain adalah
berdasarkan enjin simulasi seperti MuJoCo dan Habitat
untuk mereka bentuk adegan maya dan model objek, dan memacu model. model robot melalui enjin simulasi. Langkah ketiga ialah menganalisis dan memproses set data yang terkandung dalam sumber terbuka satu demi satu dan menukarnya kepada data yang mematuhi piawaian format ARIO. Berikut menunjukkan komposisi khusus set data ARIO, serta proses dan contoh daripada 3 sumber.
                                                                                                        Data robotik berkualiti tinggi sukar diperoleh, tetapi ia sangat berharga. Berdasarkan robot dua lengan tuan-hamba Cobot Magic, Makmal Pengcheng telah mereka bentuk lebih daripada 30 tugasan, termasuk 3 tahap kesukaran operasi: mudah - sederhana - sukar, dan dengan menambah objek yang mengganggu, menukar kedudukan objek dan robot secara rawak, dan mengubah susun atur Persekitaran dan kaedah lain digunakan untuk meningkatkan kepelbagaian sampel, dan akhirnya lebih daripada 3,000 keping data trajektori yang mengandungi 3 kamera RGBD telah diperolehi. Contoh koleksi untuk tugasan yang berbeza dan video koleksi ditunjukkan di bawah.

Selalu dikatakan bahawa data perisikan yang terkandung adalah terlalu mahal, Makmal Pengcheng sumber terbuka satu set data piawai berskala juta

O Rajah 3. Contoh Pengumpulan Data Robot Sebenar Ario

Video Contoh Pengumpulan Data Robotic Kimneys COBOT MAGIC Selalu dikatakan bahawa data perisikan yang terkandung adalah terlalu mahal, Makmal Pengcheng sumber terbuka satu set data piawai berskala juta video contoh pengumpulan data simulasi MUJOCO Selalu dikatakan bahawa data perisikan yang terkandung adalah terlalu mahal, Makmal Pengcheng sumber terbuka satu set data piawai berskala juta Selalu dikatakan bahawa data perisikan yang terkandung adalah terlalu mahal, Makmal Pengcheng sumber terbuka satu set data piawai berskala juta Selalu dikatakan bahawa data perisikan yang terkandung adalah terlalu mahal, Makmal Pengcheng sumber terbuka satu set data piawai berskala juta Selalu dikatakan bahawa data perisikan yang terkandung adalah terlalu mahal, Makmal Pengcheng sumber terbuka satu set data piawai berskala juta
Contoh video penjanaan data simulasi berdasarkan platform
                         Video contoh data ditukar daripada RH20T

Selalu dikatakan bahawa data perisikan yang terkandung adalah terlalu mahal, Makmal Pengcheng sumber terbuka satu set data piawai berskala juta Reka bentuk format bersatu data memudahkan untuk melakukan analisis statistik komposisi datanya. Rajah di bawah menunjukkan statistik taburan adegan ARIO (rajah a) dan kemahiran (rajah b) daripada tiga peringkat siri, tugasan dan episod. Dapat dilihat bahawa kebanyakan data yang terkandung pada masa ini menumpukan pada adegan dan kemahiran dalam kehidupan dalaman dan persekitaran rumah.


Selain senario dan kemahiran, data ARIO juga boleh menjalankan analisis statistik dari perspektif robot itu sendiri, dan mempelajari beberapa trend pembangunan semasa industri robot. Set data ARIO menyediakan data statistik tentang bentuk robot, objek bergerak, pembolehubah kawalan fizikal, jenis penderia dan lokasi pemasangan, bilangan penderia visual, perkadaran kaedah kawalan, perkadaran kaedah pengumpulan data, dan perkadaran bilangan darjah kebebasan lengan robotik, sepadan dengan Rajah a-i di bawah.

Selalu dikatakan bahawa data perisikan yang terkandung adalah terlalu mahal, Makmal Pengcheng sumber terbuka satu set data piawai berskala juta Ambil Rajah a di bawah sebagai contoh Daripadanya, kita dapati bahawa kebanyakan data semasa datang daripada robot lengan tunggal Terdapat sangat sedikit data sumber terbuka untuk robot humanoid, dan kebanyakannya datang daripada koleksi sebenar dan penjanaan simulasi Makmal Pengcheng.

                                                                                             ...

Atas ialah kandungan terperinci Selalu dikatakan bahawa data perisikan yang terkandung adalah terlalu mahal, Makmal Pengcheng sumber terbuka satu set data piawai berskala juta. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:jiqizhixin.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!