Selepas 'kecerdasan ruang' Li Feifei, Universiti Jiao Tong Shanghai, Universiti Zhiyuan, Universiti Peking, dll. mencadangkan model spatial besar SpatialBot-AI-php.cn

Rumah

Selepas 'kecerdasan ruang' Li Feifei, Universiti Jiao Tong Shanghai, Universiti Zhiyuan, Universiti Peking, dll. mencadangkan model spatial besar SpatialBot

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 07, 2024 pm 05:06 PM

industri

Selepas kecerdasan ruang Li Feifei, Universiti Jiao Tong Shanghai, Universiti Zhiyuan, Universiti Peking, dll. mencadangkan model spatial besar SpatialBot

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Penulis pertama artikel ini ialah Cai Wenxiao, seorang pelajar siswazah di Universiti Stanford sebelum ini, beliau memperoleh ijazah sarjana muda dari Universiti Tenggara markah mata gred pertama. Minat penyelidikannya termasuk model besar multimodal dan kecerdasan yang terkandung. Kerja ini telah disiapkan semasa lawatannya ke Universiti Jiao Tong Shanghai dan latihan amalinya di Institut Penyelidikan Kecerdasan Buatan Beijing Zhiyuan Penyelianya ialah Profesor Zhao Bo, penulis artikel ini.

Sebelum ini, Guru Li Feifei mencadangkan konsep Kecerdasan Ruang Sebagai tindak balas, penyelidik dari Universiti Jiao Tong Shanghai, Universiti Stanford, Universiti Zhiyuan, Universiti Peking, Universiti Oxford dan Universiti Dongda mencadangkan model spatial besar SpatialBot. Ia juga mencadangkan data latihan SpatialQA dan senarai ujian SpatialBench, cuba membenarkan model besar berbilang modal memahami kedalaman dan ruang dalam senario umum dan senario yang terkandung.

Selepas kecerdasan ruang Li Feifei, Universiti Jiao Tong Shanghai, Universiti Zhiyuan, Universiti Peking, dll. mencadangkan model spatial besar SpatialBot

paper Tajuk: Spatialbot: Pemahaman kedalaman yang tepat dengan model bahasa penglihatan Link: https://arxiv.org/abs/2406.13642
project Homepage: https: // github. com/BAAI-DCAI/SpatialBot

Dalam tugas pilih dan tempat kecerdasan yang terkandung, adalah perlu untuk menentukan sama ada cakar mekanikal telah menyentuh objek sasaran. Jika anda menemuinya, anda boleh menutup kuku anda dan merebutnya. Walau bagaimanapun, dalam adegan Set Data Demonstrasi Berkerly UR5 ini, walaupun GPT-4o atau manusia tidak dapat menentukan sama ada cakar mekanikal telah menyentuh objek sasaran daripada imej RGB tunggal Sebagai contoh, dengan bantuan maklumat kedalaman, peta kedalaman boleh secara langsung ditunjukkan kepada GPT-4o Jika ya, ia tidak boleh dinilai kerana ia tidak dapat memahami peta kedalaman.

SpatialBot boleh mendapatkan nilai kedalaman cakar mekanikal dan objek sasaran dengan tepat melalui pemahaman RGB-Depth, seterusnya menjana pemahaman tentang konsep spatial.

Spatialbot demo adegan yang terkandung: Selepas kecerdasan ruang Li Feifei, Universiti Jiao Tong Shanghai, Universiti Zhiyuan, Universiti Peking, dll. mencadangkan model spatial besar SpatialBot

1. Sebagai laluan yang diperlukan ke arah kecerdasan yang terkandung, bagaimana untuk menjadikan model besar memahami ruang?

Awan titik agak mahal, dan kamera binokular memerlukan penentukuran yang kerap semasa digunakan. Sebaliknya, kamera kedalaman adalah berpatutan dan digunakan secara meluas. Dalam senario umum, walaupun tanpa peralatan perkakasan sedemikian, model anggaran kedalaman latihan berskala besar tanpa pengawasan sudah boleh memberikan maklumat kedalaman yang agak tepat. Oleh itu, penulis mencadangkan untuk menggunakan RGBD sebagai input kepada model ruang yang besar.

Apakah masalah dengan laluan teknikal semasa?

Model sedia ada tidak dapat memahami secara langsung input peta kedalaman. Contohnya, pengekod imej CLIP/SigLIP dilatih pada imej RGB tanpa pernah melihat peta kedalaman.

Kebanyakan set data model besar sedia ada boleh dianalisis dan dijawab hanya menggunakan RGB. Oleh itu, jika data sedia ada hanya ditukar kepada input RGBD, model tidak akan mengindeks pengetahuan secara aktif ke dalam peta kedalaman. Tugasan yang direka khas dan QA diperlukan untuk membimbing model memahami peta kedalaman dan menggunakan maklumat kedalaman.

S Tiga peringkat SpatialQA, secara beransur-ansur membimbing model untuk memahami peta kedalaman, penggunaan maklumat kedalaman

Bagaimana untuk membimbing model untuk memahami dan menggunakan maklumat mendalam, dan memahami ruang?

Pengarang mencadangkan set data SpatialQA dengan tiga peringkat.

Di peringkat rendah, bimbing model untuk memahami peta kedalaman dan pandu maklumat terus dari peta kedalaman

Di peringkat tengah, biarkan model sejajar dengan RGB.
Reka bentuk kedalaman berbilang dalam tahap tinggi Untuk tugasan yang berkaitan, 50k data dianotasi, membolehkan model menggunakan maklumat kedalaman untuk menyelesaikan tugas berdasarkan pemahaman peta kedalaman. Tugas merangkumi: hubungan kedudukan spatial, saiz objek, sama ada objek bersentuhan, pemahaman adegan robot, dsb.

Contoh Dialog di Apa yang terkandung dalam spatialbot?

Selepas kecerdasan ruang Li Feifei, Universiti Jiao Tong Shanghai, Universiti Zhiyuan, Universiti Peking, dll. mencadangkan model spatial besar SpatialBot

^{1 Dengan menggunakan idea dalam ejen, SpatialBot boleh mendapatkan maklumat mendalam yang tepat melalui API apabila diperlukan. Ia boleh mencapai ketepatan 99%+ pada tugasan seperti pemerolehan maklumat mendalam dan perbandingan jarak.}2 Untuk tugas pemahaman ruang, penulis mengumumkan senarai SpatialBench. Uji keupayaan pemahaman mendalam model melalui QA yang direka bentuk dengan teliti dan beranotasi. SpatialBot menunjukkan keupayaan hampir dengan GPT-4o dalam senarai.

Bagaimana model memahami peta kedalaman?

1. Masukkan peta kedalaman model: Untuk mengambil kira tugas dalaman dan luaran, kaedah pengekodan peta kedalaman bersatu diperlukan. Tugas merebut dan navigasi dalaman mungkin memerlukan ketepatan tahap milimeter Pemandangan luar tidak perlu begitu tepat, tetapi mungkin memerlukan julat nilai kedalaman lebih daripada 100 meter. Pengekodan Ordinal digunakan untuk pengekodan dalam tugas penglihatan tradisional, tetapi nilai ordinal tidak boleh ditambah atau ditolak. Untuk mengekalkan semua maklumat kedalaman sebanyak mungkin, SpatialBot secara langsung menggunakan kedalaman metrik dalam milimeter, antara 1mm hingga 131m, menggunakan uint24 atau tiga saluran uint8 untuk mengekalkan nilai ini.

2. Untuk mendapatkan maklumat mendalam dengan tepat, SpatialBot akan memanggil DepthAPI dalam bentuk mata untuk mendapatkan nilai kedalaman yang tepat apabila difikirkan perlu. Jika anda ingin mendapatkan kedalaman objek, SpatialBot akan terlebih dahulu memikirkan tentang kotak sempadan objek, dan kemudian memanggil API menggunakan titik tengah kotak sempadan.

3 SpatialBot menggunakan titik tengah objek, purata kedalaman, maksimum dan empat nilai minimum untuk menggambarkan kedalaman.

dalam dalam, dalam,
dalam.

1. SpatialBot adalah berdasarkan berbilang LLM asas dari 3B hingga 8B. Dengan mempelajari pengetahuan spatial dalam SpatialQA, SpatialBot juga menunjukkan peningkatan prestasi yang ketara pada set data MLLM yang biasa digunakan (MME, MMBench, dsb.).

2 SpatialBot juga menunjukkan hasil yang menakjubkan pada tugas tertentu seperti Open X-Embodiment dan data merangkak robot yang dikumpul oleh pengarang. Selepas kecerdasan ruang Li Feifei, Universiti Jiao Tong Shanghai, Universiti Zhiyuan, Universiti Peking, dll. mencadangkan model spatial besar SpatialBot

B Spatialbot 일반 시나리오의 데이터 표시 방법

데이터 표시 방법은 무엇입니까?
깊이, 거리, 거리, 위, 아래, 왼쪽, 앞, 뒤의 위치 관계, 크기 관계 등 공간적 이해에 관해 세심하게 고안된 질문이며, 두 물체가 서로 같은지 여부 등 구현에 있어서 중요한 문제를 포함합니다. 연락중.
테스트 세트 SpatialBench에서는 질문, 옵션 및 답변이 먼저 수동으로 고려됩니다. 테스트 세트 크기를 확장하기 위해 동일한 프로세스로 주석을 달기 위해 GPT도 사용됩니다.
훈련 세트 SpatialQA에는 세 가지 측면이 포함됩니다.

깊이 맵을 직접 이해하고, 모델이 깊이 맵을 보고, 깊이 분포를 분석하고, 포함될 수 있는 객체를 추측하도록 합니다.

공간 관계 이해 및 추론

로봇 장면 이해: Open X-Embodiment의 장면, 포함된 개체 및 가능한 작업과 이 기사에서 수집된 로봇 데이터를 설명하고 개체 및 경계 상자에 수동으로 레이블을 지정합니다. 로봇의. ㅋㅋ 열기 GPT를 사용하여 데이터의 이 부분에 주석을 추가할 때 GPT는 먼저 깊이 맵을 보고 깊이 맵에 포함될 수 있는 장면과 객체에 대한 이유를 설명합니다. 그런 다음 RGB 맵을 보고 올바른 설명과 추론을 필터링합니다. .

Atas ialah kandungan terperinci Selepas 'kecerdasan ruang' Li Feifei, Universiti Jiao Tong Shanghai, Universiti Zhiyuan, Universiti Peking, dll. mencadangkan model spatial besar SpatialBot. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Repo: Cara menghidupkan semula rakan sepasukan

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Cara mendapatkan biji gergasi

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Berapa lama masa yang diperlukan untuk mengalahkan fiksyen berpecah?

3 minggu yang lalu By DDD

R.E.P.O. Simpan Fail Lokasi: Di manakah & bagaimana untuk melindunginya?

3 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7315

Tutorial Java

1625

Tutorial CakePHP

1348

Tutorial Laravel

1261

Tutorial PHP

1208

Tunjukkan Lagi

Related knowledge

Robot DeepMind bermain pingpong, dan pukulan depan dan pukulan kilasnya tergelincir ke udara, mengalahkan manusia pemula sepenuhnya Aug 09, 2024 pm 04:01 PM

Robot DeepMind bermain pingpong, dan pukulan depan dan pukulan kilasnya tergelincir ke udara, mengalahkan manusia pemula sepenuhnya

Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri Sep 02, 2024 pm 01:56 PM

Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri

Cakar mekanikal pertama! Yuanluobao muncul di Persidangan Robot Dunia 2024 dan mengeluarkan robot catur pertama yang boleh memasuki rumah Aug 21, 2024 pm 07:33 PM

Cakar mekanikal pertama! Yuanluobao muncul di Persidangan Robot Dunia 2024 dan mengeluarkan robot catur pertama yang boleh memasuki rumah

Pada Persidangan Robot Sedunia, robot domestik yang membawa 'harapan penjagaan warga tua masa depan' ini telah dikepung Aug 22, 2024 pm 10:35 PM

Pada Persidangan Robot Sedunia, robot domestik yang membawa 'harapan penjagaan warga tua masa depan' ini telah dikepung

Pasukan Li Feifei mencadangkan ReKep untuk memberi robot kecerdasan spatial dan mengintegrasikan GPT-4o Sep 03, 2024 pm 05:18 PM

Pasukan Li Feifei mencadangkan ReKep untuk memberi robot kecerdasan spatial dan mengintegrasikan GPT-4o

Anugerah ACL 2024 Diumumkan: Salah satu Kertas Terbaik mengenai Pentafsiran Oracle oleh HuaTech, Anugerah Ujian Masa GloVe Aug 15, 2024 pm 04:37 PM

Anugerah ACL 2024 Diumumkan: Salah satu Kertas Terbaik mengenai Pentafsiran Oracle oleh HuaTech, Anugerah Ujian Masa GloVe

Hongmeng Smart Travel S9 dan persidangan pelancaran produk baharu senario penuh, beberapa produk baharu blockbuster dikeluarkan bersama-sama Aug 08, 2024 am 07:02 AM

Hongmeng Smart Travel S9 dan persidangan pelancaran produk baharu senario penuh, beberapa produk baharu blockbuster dikeluarkan bersama-sama

Model UI besar pertama di China dikeluarkan! Model besar Motiff mencipta pembantu terbaik untuk pereka bentuk dan mengoptimumkan aliran kerja reka bentuk UI Aug 19, 2024 pm 04:48 PM

Model UI besar pertama di China dikeluarkan! Model besar Motiff mencipta pembantu terbaik untuk pereka bentuk dan mengoptimumkan aliran kerja reka bentuk UI

See all articles