NeRF (Neural Radiance Fields), juga dikenali sebagai medan sinaran saraf, dengan cepat menjadi salah satu bidang penyelidikan yang paling popular sejak ia dicadangkan, dan hasilnya menakjubkan. Walau bagaimanapun, output langsung NeRF hanyalah medan ketumpatan berwarna, yang memberikan sedikit maklumat kepada penyelidik Kekurangan konteks adalah salah satu masalah yang perlu dihadapi adegan.
Tetapi bahasa semula jadi berbeza dengan pemandangan 3D dengan sangat intuitif. Kita boleh menggunakan pemandangan dapur dalam Rajah 1 untuk menjelaskan bahawa objek boleh ditemui di dapur dengan bertanya di mana kutleri berada, atau bertanya di mana alat yang digunakan untuk mengacau. Walau bagaimanapun, untuk menyelesaikan tugasan ini bukan sahaja memerlukan keupayaan pertanyaan model, tetapi juga keupayaan untuk menggabungkan semantik pada pelbagai skala.
Dalam artikel ini, penyelidik dari UC Berkeley mencadangkan kaedah baru dan menamakannya LERF (Language Embedded Radiance Fields), yang menggabungkan CLIP (Contrastive Language-Image Pra-training) dibenamkan ke dalam NeRF, menjadikan jenis pertanyaan bahasa terbuka 3D ini mungkin. LERF menggunakan CLIP secara langsung, tanpa memerlukan penalaan halus melalui set data seperti COCO atau bergantung pada cadangan kawasan bertopeng. LERF mengekalkan integriti pembenaman CLIP pada pelbagai skala dan juga mampu mengendalikan pelbagai pertanyaan linguistik, termasuk atribut visual (cth., kuning), konsep abstrak (cth., arus elektrik), teks, dsb., seperti yang ditunjukkan dalam Rajah 1 .
Alamat kertas: https://arxiv.org/pdf/2303.09553v1.pdf
Laman utama projek: https://www.lerf.io/
LERF boleh berinteraksi dengan bahasa dalam masa nyata Gesa untuk mengekstrak gambar rajah berkaitan 3D. Contohnya, di atas meja dengan kambing biri-biri dan cawan air, masukkan kambing biri-biri atau cawan air segera dan LERF boleh memberikan gambar 3D yang berkaitan:
Untuk sejambak kompleks, LERF juga boleh menentukan:
Objek yang berbeza di dapur:
Kajian ini membina kaedah baharu LERF dengan mengoptimumkan bidang bahasa secara bersama dengan NeRF. LERF mengambil kedudukan dan skala fizikal sebagai input dan mengeluarkan vektor CLIP tunggal. Semasa latihan, medan diselia menggunakan piramid ciri berskala yang mengandungi pembenaman CLIP yang dijana daripada pangkas imej paparan latihan. Ini membolehkan pengekod CLIP menangkap konteks imej pada skala yang berbeza, dengan itu mengaitkan lokasi 3D yang sama dengan pembenaman bahasa pada skala yang berbeza. LERF boleh menanyakan medan bahasa pada sebarang skala semasa ujian untuk mendapatkan peta korelasi 3D.
Memandangkan pembenaman CLIP diekstrak daripada berbilang paparan pada berbilang skala, pemetaan korelasi pertanyaan teks yang diperolehi oleh pembenaman 3D CLIP LERF ialah Benam yang diperoleh melalui KLIP 2D lebih setempat dan konsisten 3D, dan boleh ditanya terus dalam medan 3D tanpa memberikan berbilang paparan.
LERF memerlukan pembelajaran medan pembenaman bahasa pada volum berpusat pada titik sampel. Secara khusus, output medan ini ialah pembenaman CLIP purata semua paparan latihan yang mengandungi pangkas imej bagi volum yang ditentukan. Dengan membina semula pertanyaan daripada titik ke jilid, LERF boleh mengawasi medan padat daripada pemangkasan kasar imej input dengan berkesan, yang boleh dipaparkan dalam cara sejajar piksel dengan mengkondisikan pada skala volumetrik tertentu.
LERF sendiri menghasilkan hasil yang koheren, tetapi peta korelasi yang terhasil kadangkala tidak lengkap dan mengandungi beberapa pencilan, seperti yang ditunjukkan dalam Rajah 5 di bawah.
Untuk mengawal selia bidang bahasa yang dioptimumkan, kajian ini memperkenalkan DINO yang diselia sendiri dengan berkongsi kesesakan.
Dari segi seni bina, mengoptimumkan pembenaman bahasa dalam 3D tidak seharusnya menjejaskan taburan ketumpatan dalam perwakilan adegan asas, jadi kajian ini menangkap bias induktif dalam LERF dengan melatih dua rangkaian bebas Tetapan ( bias induktif): satu untuk vektor ciri (DINO, CLIP) dan satu untuk output NeRF standard (warna, ketumpatan).
Untuk menunjukkan keupayaan LERF memproses data dunia sebenar, kajian mengumpul 13 adegan, termasuk kedai runcit, dapur, kedai buku, patung, dll. Rajah 3 memilih 5 senario yang mewakili untuk menunjukkan keupayaan LERF untuk memproses bahasa semula jadi.
Rajah 3
Rajah 7 ialah Perbandingan visual 3D LERF dan LSeg Dalam telur dalam mangkuk penentukuran, LSeg adalah lebih rendah daripada LERF:
Rajah 8 menunjukkan bahawa di bawah segmentasi terhad data LSeg yang dilatih pada set tidak mempunyai keupayaan untuk mewakili bahasa semula jadi dengan berkesan. Sebaliknya, ia hanya berfungsi dengan baik pada objek biasa dalam pengedaran set latihan, seperti yang ditunjukkan dalam Rajah 7.
Namun, kaedah LERF masih belum sempurna Berikut adalah kes-kes kegagalan Sebagai contoh, apabila menentukur sayur-sayuran zucchini, sayur-sayuran lain akan muncul:
Atas ialah kandungan terperinci Bahasa semula jadi disepadukan ke dalam NeRF, dan LERF, yang menghasilkan imej 3D dengan hanya beberapa perkataan, ada di sini.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!