Biarkan model bahasa visual melakukan penaakulan spatial dan Google baharu semula-AI-php.cn

Jadual Kandungan

Tinjauan Keseluruhan Kaedah

Eksperimen dan keputusan

Penaakulan spatial memberi inspirasi kepada aplikasi baharu

Rumah

Peranti teknologi

Biarkan model bahasa visual melakukan penaakulan spatial dan Google baharu semula

PHPz

Feb 19, 2024 am 09:27 AM

Model Penglihatan susunan

Walaupun model bahasa visual (VLM) telah mencapai kemajuan yang ketara dalam banyak tugas, termasuk penerangan imej, jawapan soalan visual, perancangan yang terkandung dan pengecaman tindakan, cabaran masih wujud dalam penaakulan spatial. Banyak model masih menghadapi kesukaran memahami lokasi atau perhubungan ruang sasaran dalam ruang tiga dimensi. Ini menunjukkan bahawa dalam proses membangunkan lagi model bahasa visual, adalah perlu untuk menumpukan pada penyelesaian masalah penaakulan spatial untuk meningkatkan ketepatan dan kecekapan model dalam memproses tugas visual yang kompleks.

Para penyelidik sering meneroka isu ini melalui pengalaman fizikal manusia dan perkembangan evolusi. Manusia mempunyai kemahiran penaakulan spatial semula jadi yang membolehkan mereka dengan mudah menentukan hubungan ruang, seperti kedudukan relatif objek, dan menganggar jarak dan saiz, tanpa memerlukan proses pemikiran yang kompleks atau pengiraan mental.

Kecekapan dalam tugas penaakulan spatial langsung ini berbeza dengan batasan keupayaan model bahasa visual semasa dan menimbulkan persoalan kajian yang menarik: sama ada model bahasa visual boleh dikurniakan keupayaan penaakulan spatial seperti manusia?

Baru-baru ini, Google mencadangkan model bahasa visual dengan keupayaan penaakulan spatial: SpatialVLM.

Biarkan model bahasa visual melakukan penaakulan spatial dan Google baharu semula

Tajuk kertas: SpatialVLM: Menganugerahkan Model Bahasa Penglihatan dengan Keupayaan Penaakulan Ruang

Sebaliknya, penyelidikan ini memfokuskan pada mengekstrak maklumat spatial secara langsung menggunakan data dunia sebenar untuk menunjukkan kepelbagaian dan kerumitan dunia 3D sebenar. Kaedah ini diilhamkan oleh teknologi pemodelan visual terkini dan secara automatik boleh menjana anotasi spatial 3D daripada imej 2D.

Fungsi utama sistem SpatialVLM ialah memproses data dunia sebenar beranotasi padat berskala besar menggunakan teknologi seperti pengesanan objek, anggaran kedalaman, pembahagian semantik dan model penerangan pusat objek untuk meningkatkan keupayaan penaakulan ruang model bahasa visual . Sistem SpatialVLM mencapai matlamat penjanaan data dan latihan model bahasa visual dengan menukar data yang dijana oleh model visual kepada format data hibrid yang boleh digunakan untuk penerangan, VQA dan penaakulan spatial. Usaha penyelidik telah membolehkan sistem ini memahami dan memproses maklumat visual dengan lebih baik, dengan itu meningkatkan prestasinya dalam tugas penaakulan spatial yang kompleks. Pendekatan ini membantu melatih model bahasa visual untuk lebih memahami dan memproses perhubungan antara imej dan teks, dengan itu meningkatkan ketepatan dan kecekapannya dalam pelbagai tugas visual.

Penyelidikan menunjukkan bahawa model bahasa visual yang dicadangkan dalam artikel ini mempamerkan keupayaan yang memuaskan dalam pelbagai bidang. Pertama, ia menunjukkan peningkatan yang ketara dalam mengendalikan masalah spatial kualitatif. Kedua, model ini mampu menghasilkan anggaran kuantitatif dengan pasti walaupun dengan kehadiran bunyi dalam data latihan. Keupayaan ini bukan sahaja melengkapkannya dengan pengetahuan akal tentang saiz sasaran, tetapi juga menjadikannya berguna dalam mengendalikan tugas penyusunan semula dan anotasi ganjaran perbendaharaan kata terbuka. Akhir sekali, digabungkan dengan model bahasa berskala besar yang berkuasa, model bahasa visual spatial boleh melaksanakan rantaian penaakulan spatial dan menyelesaikan tugasan penaakulan spatial yang kompleks berdasarkan antara muka bahasa semula jadi.

Tinjauan Keseluruhan Kaedah

Untuk melengkapkan model bahasa visual dengan keupayaan penaakulan spatial kualitatif dan kuantitatif, para penyelidik mencadangkan untuk menjana set data VQA spatial berskala besar untuk melatih model bahasa visual. Khususnya, ia adalah untuk mereka bentuk rangka kerja penjanaan data yang komprehensif yang pertama kali menggunakan model penglihatan komputer di luar rak, termasuk pengesanan kosa kata terbuka, anggaran kedalaman metrik, segmentasi semantik dan model penerangan berpusatkan sasaran, untuk mengekstrak maklumat latar belakang berpusatkan sasaran, A pendekatan berasaskan templat kemudiannya diguna pakai untuk menjana data VQA spatial berskala besar dengan kualiti yang munasabah. Dalam makalah ini, penyelidik menggunakan set data yang dijana untuk melatih SpatialVLM untuk mempelajari keupayaan penaakulan spatial langsung, dan kemudian menggabungkannya dengan penaakulan akal budi peringkat tinggi yang tertanam dalam LLM untuk membuka kunci penaakulan spatial pemikiran rantai. .

Biarkan model bahasa visual melakukan penaakulan spatial dan Google baharu semula

1. Penapisan semantik: Dalam proses sintesis data artikel ini, langkah pertama ialah menggunakan model klasifikasi perbendaharaan kata terbuka berasaskan CLIP untuk mengklasifikasikan semua imej dan mengecualikan imej yang tidak sesuai.

2. Pengekstrakan imej 2D latar belakang berpusatkan sasaran: Langkah ini memperoleh entiti berpusat sasaran yang terdiri daripada gugusan piksel dan perihalan perbendaharaan kata terbuka.

3. Maklumat latar belakang 2D kepada maklumat latar belakang 3D: Selepas anggaran kedalaman, piksel 2D mata tunggal dinaik taraf kepada awan titik 3D skala metrik. Makalah ini adalah yang pertama untuk meningkatkan imej berskala Internet kepada awan titik 3D berpusat objek dan menggunakannya untuk mensintesis data VQA dengan penyeliaan inferens spatial 3D.

Biarkan model bahasa visual melakukan penaakulan spatial dan Google baharu semula 4. Nyahkekaburan: Kadangkala mungkin terdapat berbilang objek kategori yang serupa dalam imej, mengakibatkan kekaburan dalam label penerangannya. Oleh itu, sebelum bertanya soalan tentang matlamat ini, anda perlu memastikan bahawa ungkapan rujukan tidak mengandungi kekaburan.

Set data VQA penaakulan spatial berskala besar

Penyelidik menyepadukan keupayaan penaakulan spatial "intuitif" ke dalam VLM dengan menggunakan data sintetik untuk pra-latihan. Oleh itu, sintesis melibatkan pasangan soal jawab penaakulan ruang tidak lebih daripada dua objek (ditandakan A dan B) dalam imej. Dua jenis soalan berikut terutamanya dipertimbangkan di sini:

1. Soalan kualitatif: bertanya tentang pertimbangan hubungan ruang tertentu. Contohnya, "Diberi dua objek A dan B, yang manakah lebih jauh ke kiri

2. Soalan kuantitatif: Minta jawapan yang lebih terperinci, termasuk nombor dan unit. Sebagai contoh, "Berapa jauh ke kiri objek A berbanding objek B?", "Berapa jauh objek A dari B?" Soalan mengandungi kira-kira 20 templat soalan dan 10 templat jawapan. Rajah 3 menunjukkan contoh pasangan soalan-jawapan sintetik yang diperolehi dalam artikel ini. Para penyelidik mencipta set data besar-besaran 10 juta imej dan 2 bilion pasangan soalan-jawapan penaakulan spatial langsung (50% kualitatif, 50% kuantitatif).

Belajar penaakulan spatial

Penaakulan spatial langsung: Model bahasa visual menerima imej I dan pertanyaan Q sebagai jawapan, dan tugasan output yang dibentangkan dalam format teks, tanpa perlu menggunakan alat luaran atau berinteraksi dengan model besar lain. Artikel ini menggunakan proses seni bina dan latihan yang sama seperti PaLM-E, kecuali tulang belakang PaLM digantikan oleh PaLM 2-S. Latihan model kemudiannya dilakukan menggunakan campuran set data PaLM-E asal dan set data pengarang, dengan 5% daripada token digunakan untuk tugas inferens spatial.

Pemikiran Berantai Penaakulan Spatial: SpatialVLM menyediakan antara muka bahasa semula jadi yang boleh digunakan untuk bertanya soalan dengan konsep asas, dan apabila digabungkan dengan LLM yang berkuasa, boleh melakukan penaakulan spatial yang kompleks.

Sama seperti kaedah dalam Model Socratic dan penyelaras LLM, artikel ini menggunakan LLM (teks-davinci-003) untuk menyelaraskan komunikasi dengan SpatialVLM untuk menyelesaikan masalah kompleks dalam gesaan pemikiran berantai, seperti yang ditunjukkan dalam Rajah 4. Biarkan model bahasa visual melakukan penaakulan spatial dan Google baharu semula

Biarkan model bahasa visual melakukan penaakulan spatial dan Google baharu semula

Eksperimen dan keputusan

Para penyelidik membuktikan dan menjawab soalan-soalan berikut melalui eksperimen:

Soalan 1: Adakah penjanaan data proses VQA yang direka bentuk ini meningkatkan prestasi data umum spatial dan proses latihan ini VLM? Dan bagaimana prestasinya?

Soalan 2: Apakah kesan data VQA spatial sintetik yang penuh dengan data bising dan strategi latihan yang berbeza terhadap prestasi pembelajaran?

Soalan 3: Bolehkah VLM dilengkapi dengan keupayaan penaakulan spatial "langsung" membuka kunci keupayaan baharu seperti penaakulan pemikiran berantai dan perancangan yang terkandung?

Para penyelidik melatih model dengan menggunakan campuran set latihan PaLM-E dan set data VQA spatial yang direka dalam artikel ini. Untuk mengesahkan sama ada pengehadan VLM dalam penaakulan spatial ialah masalah data, mereka memilih model bahasa visual terkini yang terkini sebagai garis dasar. Tugas penerangan semantik menduduki bahagian yang besar dalam proses latihan model ini, dan bukannya menggunakan set data VQA ruang artikel ini untuk latihan.

Prestasi VQA ruang

VQA spatial kualitatif. Untuk soalan ini, kedua-dua jawapan beranotasi manusia dan output VLM adalah dalam bahasa semula jadi bentuk bebas. Oleh itu, untuk menilai prestasi VLM, kami menggunakan penilai manusia untuk menentukan sama ada jawapan adalah betul, dan kadar kejayaan bagi setiap VLM ditunjukkan dalam Jadual 1.

Biarkan model bahasa visual melakukan penaakulan spatial dan Google baharu semula

VQA spatial kuantitatif. Seperti yang ditunjukkan dalam Jadual 2, model kami berprestasi lebih baik daripada garis dasar pada kedua-dua metrik dan jauh di hadapan.

Biarkan model bahasa visual melakukan penaakulan spatial dan Google baharu semula

Impak data VQA spatial pada VQA umum

Soalan kedua ialah sama ada prestasi VLM pada tugas-tugas lain VQA akan terjejas oleh VQA bersama-sama data. Dengan membandingkan model kami dengan asas PaLM 2-E yang dilatih pada penanda aras VQA umum tanpa menggunakan data VQA spatial, seperti yang diringkaskan dalam Jadual 3, model kami mencapai prestasi yang setanding dengan PaLM 2-E pada penanda aras OKVQA, yang merangkumi spatial terhad masalah inferens, adalah lebih baik sedikit pada penanda aras ujian-dev VQA-v2, yang termasuk masalah inferens spatial.

Biarkan model bahasa visual melakukan penaakulan spatial dan Google baharu semula

Kesan pengekod ViT pada penaakulan spatial

Adakah ViT Beku (dilatih mengenai sasaran maklumat yang berbeza) mengekodkan spatial yang cukup untuk penaakulan maklumat yang berbeza? Untuk meneroka perkara ini, eksperimen penyelidik bermula pada langkah latihan 110,000 dan dibahagikan kepada dua larian latihan, satu ViT Beku dan satu lagi ViT Tidak Beku. Dengan melatih kedua-dua model untuk 70,000 langkah, keputusan penilaian ditunjukkan dalam Jadual 4.

Biarkan model bahasa visual melakukan penaakulan spatial dan Google baharu semula

Impak jawapan spatial kuantitatif yang bising

Para penyelidik menggunakan set data operasi robot untuk melatih model bahasa visual dan mendapati bahawa model jarak yang baik dapat dilakukan. domain operasi (Rajah 5), seterusnya membuktikan ketepatan data.

Biarkan model bahasa visual melakukan penaakulan spatial dan Google baharu semula

Jadual 5 membandingkan kesan sisihan piawai hingar Gaussian yang berbeza pada prestasi VLM keseluruhan dalam VQA spatial kuantitatif.

Biarkan model bahasa visual melakukan penaakulan spatial dan Google baharu semula

Penaakulan spatial memberi inspirasi kepada aplikasi baharu

1. Model bahasa visual sebagai anotasi ganjaran yang padat

🎜

Model bahasa visual mempunyai aplikasi penting dalam bidang robotik. Penyelidikan terkini telah menunjukkan bahawa model bahasa visual dan model bahasa besar boleh berfungsi sebagai anotasi ganjaran perbendaharaan kata terbuka umum dan pengesan kejayaan untuk tugas robotik, yang boleh digunakan untuk membangunkan strategi kawalan yang berkesan. Walau bagaimanapun, keupayaan pelabelan ganjaran VLM selalunya dihadkan oleh kesedaran spatial yang tidak mencukupi. SpatialVLM sesuai secara unik sebagai anotasi ganjaran padat kerana keupayaannya untuk menganggarkan jarak atau dimensi secara kuantitatif daripada imej. Pengarang menjalankan eksperimen robotik dunia sebenar, menentukan tugas dalam bahasa semula jadi dan meminta SpatialVLM untuk memberi anotasi ganjaran untuk setiap bingkai dalam trajektori.

Setiap titik dalam Rajah 6 mewakili lokasi sasaran, dan warnanya mewakili ganjaran beranotasi. Apabila robot maju ke arah matlamat tertentu, ganjaran dilihat meningkat secara monoton, menunjukkan keupayaan SpatialVLM sebagai anotasi ganjaran yang padat.

Biarkan model bahasa visual melakukan penaakulan spatial dan Google baharu semula

2 pemikiran berantai penaakulan spatial

Penyelidik juga mengkaji sama ada kebolehan melaksanakan tugasan asas spatial VLM yang boleh digunakan untuk melaksanakan tugasan asas VLM. Meningkatkan kemahiran menjawab. Penulis menunjukkan beberapa contoh dalam Rajah 1 dan 4. Apabila model bahasa besar (GPT-4) dilengkapi dengan SpatialVLM sebagai submodul penaakulan spatial, ia boleh melaksanakan tugas penaakulan spatial yang kompleks, seperti menjawab sama ada 3 objek dalam persekitaran boleh membentuk "segitiga sama kaki".

Sila rujuk kertas asal untuk butiran lanjut teknikal dan keputusan percubaan.

🎜

Atas ialah kandungan terperinci Biarkan model bahasa visual melakukan penaakulan spatial dan Google baharu semula. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang lalu By DDD

Akan R.E.P.O. Ada Crossplay?

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7561

Tutorial CakePHP

1384

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Apakah sepuluh platform perdagangan mata wang maya? Feb 20, 2025 pm 02:15 PM

Dengan populariti kriptografi, platform perdagangan mata wang maya telah muncul. Sepuluh platform perdagangan mata wang maya teratas di dunia disenaraikan seperti berikut mengikut jumlah transaksi dan bahagian pasaran: Binance, Coinbase, FTX, Kucoin, Crypto.com, Kraken, Huobi, Gate.io, Bitfinex, Gemini. Platform ini menawarkan pelbagai perkhidmatan, dari pelbagai pilihan cryptocurrency untuk perdagangan derivatif, sesuai untuk peniaga yang berbeza -beza.

Cara menyesuaikan pertukaran terbuka bijan ke dalam bahasa Cina Mar 04, 2025 pm 11:51 PM

Bagaimana cara menyesuaikan pertukaran terbuka bijan ke bahasa Cina? Tutorial ini merangkumi langkah -langkah terperinci mengenai komputer dan telefon bimbit Android, dari penyediaan awal hingga proses operasi, dan kemudian menyelesaikan masalah biasa, membantu anda dengan mudah menukar antara muka pertukaran terbuka ke Cina dan cepat memulakan dengan platform perdagangan.

Adakah saya perlu menggunakan Flexbox di tengah gambar bootstrap? Apr 07, 2025 am 09:06 AM

Terdapat banyak cara untuk memusatkan gambar bootstrap, dan anda tidak perlu menggunakan Flexbox. Jika anda hanya perlu berpusat secara mendatar, kelas pusat teks sudah cukup; Jika anda perlu memusatkan elemen secara menegak atau berganda, Flexbox atau Grid lebih sesuai. Flexbox kurang serasi dan boleh meningkatkan kerumitan, manakala grid lebih berkuasa dan mempunyai kos pengajian yang lebih tinggi. Apabila memilih kaedah, anda harus menimbang kebaikan dan keburukan dan memilih kaedah yang paling sesuai mengikut keperluan dan keutamaan anda.

10 platform perdagangan cryptocurrency teratas, sepuluh aplikasi platform perdagangan mata wang yang disyorkan Mar 17, 2025 pm 06:03 PM

Sepuluh platform perdagangan cryptocurrency teratas termasuk: 1. Okx, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6. Coinbase, 7. Kucoin, 8 crypto.com, 9. Keselamatan, kecairan, yuran pengendalian, pemilihan mata wang, antara muka pengguna dan sokongan pelanggan harus dipertimbangkan ketika memilih platform.

Cara Mengira C-SubScript 3 Subscript 5 C-SubScript 3 Subscript 5 Algoritma Tutorial Apr 03, 2025 pm 10:33 PM

Pengiraan C35 pada dasarnya adalah matematik gabungan, yang mewakili bilangan kombinasi yang dipilih dari 3 dari 5 elemen. Formula pengiraan ialah C53 = 5! / (3! * 2!), Yang boleh dikira secara langsung oleh gelung untuk meningkatkan kecekapan dan mengelakkan limpahan. Di samping itu, memahami sifat kombinasi dan menguasai kaedah pengiraan yang cekap adalah penting untuk menyelesaikan banyak masalah dalam bidang statistik kebarangkalian, kriptografi, reka bentuk algoritma, dll.

10 platform perdagangan mata wang maya teratas 2025 Aplikasi Perdagangan Cryptocurrency Kedudukan Sepuluh Teratas Mar 17, 2025 pm 05:54 PM

Sepuluh Platform Perdagangan Mata Wang Maya 2025: 1. Okx, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6 Coinbase, 7. Kucoin, 8. Crypto.com, 9. Keselamatan, kecairan, yuran pengendalian, pemilihan mata wang, antara muka pengguna dan sokongan pelanggan harus dipertimbangkan ketika memilih platform.

Apakah platform mata wang digital yang selamat dan boleh dipercayai? Mar 17, 2025 pm 05:42 PM

Platform mata wang digital yang selamat dan boleh dipercayai: 1. Okx, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6 Coinbase, 7. Kucoin, 8 crypto.com, 9. Bitfinex, 10. Keselamatan, kecairan, yuran pengendalian, pemilihan mata wang, antara muka pengguna dan sokongan pelanggan harus dipertimbangkan ketika memilih platform.

Aplikasi Perisian Mata Wang Maya Selamat yang Disyorkan Top 10 Aplikasi Perdagangan Mata Wang Digital Ranking 2025 Mar 17, 2025 pm 05:48 PM

Disyorkan Aplikasi Perisian Mata Wang Maya Selamat: 1. Okx, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6. Coinbase, 7. Kucoin, 8 crypto.com, 9. Bitfinex, 10. Keselamatan, kecairan, yuran pengendalian, pemilihan mata wang, antara muka pengguna dan sokongan pelanggan harus dipertimbangkan ketika memilih platform.

See all articles