Jadual Kandungan
Kaedah
Eksperimen
Rumah Peranti teknologi AI Bahasa semula jadi disepadukan ke dalam NeRF, dan LERF, yang menghasilkan imej 3D dengan hanya beberapa perkataan, ada di sini.

Bahasa semula jadi disepadukan ke dalam NeRF, dan LERF, yang menghasilkan imej 3D dengan hanya beberapa perkataan, ada di sini.

Apr 13, 2023 pm 07:31 PM
bahasa semula jadi

NeRF (Neural Radiance Fields), juga dikenali sebagai medan sinaran saraf, dengan cepat menjadi salah satu bidang penyelidikan yang paling popular sejak ia dicadangkan, dan hasilnya menakjubkan. Walau bagaimanapun, output langsung NeRF hanyalah medan ketumpatan berwarna, yang memberikan sedikit maklumat kepada penyelidik Kekurangan konteks adalah salah satu masalah yang perlu dihadapi adegan.

Tetapi bahasa semula jadi berbeza dengan pemandangan 3D dengan sangat intuitif. Kita boleh menggunakan pemandangan dapur dalam Rajah 1 untuk menjelaskan bahawa objek boleh ditemui di dapur dengan bertanya di mana kutleri berada, atau bertanya di mana alat yang digunakan untuk mengacau. Walau bagaimanapun, untuk menyelesaikan tugasan ini bukan sahaja memerlukan keupayaan pertanyaan model, tetapi juga keupayaan untuk menggabungkan semantik pada pelbagai skala.

Dalam artikel ini, penyelidik dari UC Berkeley mencadangkan kaedah baru dan menamakannya LERF (Language Embedded Radiance Fields), yang menggabungkan CLIP (Contrastive Language-Image Pra-training) dibenamkan ke dalam NeRF, menjadikan jenis pertanyaan bahasa terbuka 3D ini mungkin. LERF menggunakan CLIP secara langsung, tanpa memerlukan penalaan halus melalui set data seperti COCO atau bergantung pada cadangan kawasan bertopeng. LERF mengekalkan integriti pembenaman CLIP pada pelbagai skala dan juga mampu mengendalikan pelbagai pertanyaan linguistik, termasuk atribut visual (cth., kuning), konsep abstrak (cth., arus elektrik), teks, dsb., seperti yang ditunjukkan dalam Rajah 1 .

Bahasa semula jadi disepadukan ke dalam NeRF, dan LERF, yang menghasilkan imej 3D dengan hanya beberapa perkataan, ada di sini.

Alamat kertas: https://arxiv.org/pdf/2303.09553v1.pdf

Laman utama projek: https://www.lerf.io/

LERF boleh berinteraksi dengan bahasa dalam masa nyata Gesa untuk mengekstrak gambar rajah berkaitan 3D. Contohnya, di atas meja dengan kambing biri-biri dan cawan air, masukkan kambing biri-biri atau cawan air segera dan LERF boleh memberikan gambar 3D yang berkaitan:

Bahasa semula jadi disepadukan ke dalam NeRF, dan LERF, yang menghasilkan imej 3D dengan hanya beberapa perkataan, ada di sini.

Untuk sejambak kompleks, LERF juga boleh menentukan:

Bahasa semula jadi disepadukan ke dalam NeRF, dan LERF, yang menghasilkan imej 3D dengan hanya beberapa perkataan, ada di sini.

Objek yang berbeza di dapur:

Bahasa semula jadi disepadukan ke dalam NeRF, dan LERF, yang menghasilkan imej 3D dengan hanya beberapa perkataan, ada di sini.

Kaedah

Kajian ini membina kaedah baharu LERF dengan mengoptimumkan bidang bahasa secara bersama dengan NeRF. LERF mengambil kedudukan dan skala fizikal sebagai input dan mengeluarkan vektor CLIP tunggal. Semasa latihan, medan diselia menggunakan piramid ciri berskala yang mengandungi pembenaman CLIP yang dijana daripada pangkas imej paparan latihan. Ini membolehkan pengekod CLIP menangkap konteks imej pada skala yang berbeza, dengan itu mengaitkan lokasi 3D yang sama dengan pembenaman bahasa pada skala yang berbeza. LERF boleh menanyakan medan bahasa pada sebarang skala semasa ujian untuk mendapatkan peta korelasi 3D.

Bahasa semula jadi disepadukan ke dalam NeRF, dan LERF, yang menghasilkan imej 3D dengan hanya beberapa perkataan, ada di sini.

Memandangkan pembenaman CLIP diekstrak daripada berbilang paparan pada berbilang skala, pemetaan korelasi pertanyaan teks yang diperolehi oleh pembenaman 3D CLIP LERF ialah Benam yang diperoleh melalui KLIP 2D lebih setempat dan konsisten 3D, dan boleh ditanya terus dalam medan 3D tanpa memberikan berbilang paparan.

Bahasa semula jadi disepadukan ke dalam NeRF, dan LERF, yang menghasilkan imej 3D dengan hanya beberapa perkataan, ada di sini.

LERF memerlukan pembelajaran medan pembenaman bahasa pada volum berpusat pada titik sampel. Secara khusus, output medan ini ialah pembenaman CLIP purata semua paparan latihan yang mengandungi pangkas imej bagi volum yang ditentukan. Dengan membina semula pertanyaan daripada titik ke jilid, LERF boleh mengawasi medan padat daripada pemangkasan kasar imej input dengan berkesan, yang boleh dipaparkan dalam cara sejajar piksel dengan mengkondisikan pada skala volumetrik tertentu.

Bahasa semula jadi disepadukan ke dalam NeRF, dan LERF, yang menghasilkan imej 3D dengan hanya beberapa perkataan, ada di sini.

LERF sendiri menghasilkan hasil yang koheren, tetapi peta korelasi yang terhasil kadangkala tidak lengkap dan mengandungi beberapa pencilan, seperti yang ditunjukkan dalam Rajah 5 di bawah.

Bahasa semula jadi disepadukan ke dalam NeRF, dan LERF, yang menghasilkan imej 3D dengan hanya beberapa perkataan, ada di sini.

Untuk mengawal selia bidang bahasa yang dioptimumkan, kajian ini memperkenalkan DINO yang diselia sendiri dengan berkongsi kesesakan.

Dari segi seni bina, mengoptimumkan pembenaman bahasa dalam 3D tidak seharusnya menjejaskan taburan ketumpatan dalam perwakilan adegan asas, jadi kajian ini menangkap bias induktif dalam LERF dengan melatih dua rangkaian bebas Tetapan ( bias induktif): satu untuk vektor ciri (DINO, CLIP) dan satu untuk output NeRF standard (warna, ketumpatan).

Eksperimen

Untuk menunjukkan keupayaan LERF memproses data dunia sebenar, kajian mengumpul 13 adegan, termasuk kedai runcit, dapur, kedai buku, patung, dll. Rajah 3 memilih 5 senario yang mewakili untuk menunjukkan keupayaan LERF untuk memproses bahasa semula jadi.

Bahasa semula jadi disepadukan ke dalam NeRF, dan LERF, yang menghasilkan imej 3D dengan hanya beberapa perkataan, ada di sini.

Rajah 3

Rajah 7 ialah Perbandingan visual 3D LERF dan LSeg Dalam telur dalam mangkuk penentukuran, LSeg adalah lebih rendah daripada LERF:

Bahasa semula jadi disepadukan ke dalam NeRF, dan LERF, yang menghasilkan imej 3D dengan hanya beberapa perkataan, ada di sini.

Rajah 8 menunjukkan bahawa di bawah segmentasi terhad data LSeg yang dilatih pada set tidak mempunyai keupayaan untuk mewakili bahasa semula jadi dengan berkesan. Sebaliknya, ia hanya berfungsi dengan baik pada objek biasa dalam pengedaran set latihan, seperti yang ditunjukkan dalam Rajah 7.

Bahasa semula jadi disepadukan ke dalam NeRF, dan LERF, yang menghasilkan imej 3D dengan hanya beberapa perkataan, ada di sini.

Namun, kaedah LERF masih belum sempurna Berikut adalah kes-kes kegagalan Sebagai contoh, apabila menentukur sayur-sayuran zucchini, sayur-sayuran lain akan muncul:

Bahasa semula jadi disepadukan ke dalam NeRF, dan LERF, yang menghasilkan imej 3D dengan hanya beberapa perkataan, ada di sini.

Atas ialah kandungan terperinci Bahasa semula jadi disepadukan ke dalam NeRF, dan LERF, yang menghasilkan imej 3D dengan hanya beberapa perkataan, ada di sini.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Arahan sembang dan cara menggunakannya
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Pengenalan kepada lima kaedah pensampelan dalam tugas penjanaan bahasa semula jadi dan pelaksanaan kod Pytorch Pengenalan kepada lima kaedah pensampelan dalam tugas penjanaan bahasa semula jadi dan pelaksanaan kod Pytorch Feb 20, 2024 am 08:50 AM

Dalam tugas penjanaan bahasa semula jadi, kaedah pensampelan ialah teknik untuk mendapatkan output teks daripada model generatif. Artikel ini akan membincangkan 5 kaedah biasa dan melaksanakannya menggunakan PyTorch. 1. GreedyDecoding Dalam penyahkodan tamak, model generatif meramalkan perkataan urutan keluaran berdasarkan urutan input masa langkah demi masa. Pada setiap langkah masa, model mengira taburan kebarangkalian bersyarat bagi setiap perkataan, dan kemudian memilih perkataan dengan kebarangkalian bersyarat tertinggi sebagai output langkah masa semasa. Perkataan ini menjadi input kepada langkah masa seterusnya, dan proses penjanaan diteruskan sehingga beberapa syarat penamatan dipenuhi, seperti urutan panjang tertentu atau penanda akhir khas. Ciri GreedyDecoding ialah setiap kali kebarangkalian bersyarat semasa adalah yang terbaik

Bagaimana untuk melakukan penjanaan bahasa semula jadi asas menggunakan PHP Bagaimana untuk melakukan penjanaan bahasa semula jadi asas menggunakan PHP Jun 22, 2023 am 11:05 AM

Penjanaan bahasa semula jadi ialah teknologi kecerdasan buatan yang menukar data kepada teks bahasa semula jadi. Dalam era data besar hari ini, semakin banyak perniagaan perlu menggambarkan atau mempersembahkan data kepada pengguna, dan penjanaan bahasa semula jadi ialah kaedah yang sangat berkesan. PHP ialah bahasa skrip sebelah pelayan yang sangat popular yang boleh digunakan untuk membangunkan aplikasi web. Artikel ini akan memperkenalkan secara ringkas cara menggunakan PHP untuk penjanaan bahasa semula jadi asas. Memperkenalkan perpustakaan penjanaan bahasa semula jadi Pustaka fungsi yang disertakan dengan PHP tidak termasuk fungsi yang diperlukan untuk penjanaan bahasa semula jadi, jadi

Kejuruteraan Trafik menggandakan ketepatan penjanaan kod: daripada 19% kepada 44% Kejuruteraan Trafik menggandakan ketepatan penjanaan kod: daripada 19% kepada 44% Feb 05, 2024 am 09:15 AM

Pengarang kertas baharu mencadangkan cara untuk "meningkatkan" penjanaan kod. Penjanaan kod ialah keupayaan yang semakin penting dalam kecerdasan buatan. Ia secara automatik menjana kod komputer berdasarkan penerangan bahasa semula jadi dengan melatih model pembelajaran mesin. Teknologi ini mempunyai prospek aplikasi yang luas dan boleh mengubah spesifikasi perisian kepada kod yang boleh digunakan, mengautomasikan pembangunan bahagian belakang dan membantu pengaturcara manusia untuk meningkatkan kecekapan kerja. Walau bagaimanapun, menjana kod berkualiti tinggi masih mencabar untuk sistem AI, berbanding dengan tugas bahasa seperti terjemahan atau ringkasan. Kod mesti mematuhi sintaks bahasa pengaturcaraan sasaran dengan tepat, mengendalikan kes tepi dan input yang tidak dijangka dengan anggun, dan mengendalikan banyak butiran kecil perihalan masalah dengan tepat. Malah pepijat kecil yang mungkin kelihatan tidak berbahaya di kawasan lain boleh mengganggu sepenuhnya kefungsian program, menyebabkan

Membina penjana teks menggunakan rantai Markov Membina penjana teks menggunakan rantai Markov Apr 09, 2023 pm 10:11 PM

Dalam artikel ini, kami akan memperkenalkan projek pembelajaran mesin popular yang dipanggil penjana teks Anda akan belajar cara membina penjana teks dan belajar cara melaksanakan rantaian Markov untuk mencapai model ramalan yang lebih pantas. Pengenalan kepada Penjana Teks Penjanaan teks popular di seluruh industri, terutamanya dalam mudah alih, apl dan sains data. Malah akhbar menggunakan penjanaan teks untuk membantu proses penulisan. Dalam kehidupan seharian, kami akan berhubung dengan beberapa teknologi penjanaan teks, cadangan carian, Smart Compose, dan robot sembang adalah semua contoh aplikasi Artikel ini akan menggunakan rantai Markov untuk membina penjana teks. Ini akan menjadi model berasaskan aksara yang mengambil aksara sebelumnya bagi rantai dan menjana huruf seterusnya dalam jujukan. Dengan melatih program kami tentang contoh perkataan,

Kursor disepadukan dengan GPT-4 menjadikan penulisan kod semudah berbual Satu era baharu pengekodan dalam bahasa semula jadi telah tiba. Kursor disepadukan dengan GPT-4 menjadikan penulisan kod semudah berbual Satu era baharu pengekodan dalam bahasa semula jadi telah tiba. Apr 04, 2023 pm 12:15 PM

Github Copilot X yang menyepadukan GPT-4 masih dalam ujian dalaman berskala kecil, manakala Kursor yang menyepadukan GPT-4 telah dikeluarkan secara terbuka. Kursor ialah IDE yang menyepadukan GPT-4 dan boleh menulis kod dalam bahasa semula jadi, menjadikan penulisan kod semudah berbual. Masih terdapat perbezaan besar antara GPT-4 dan GPT-3.5 dalam keupayaan mereka untuk memproses dan menulis kod. Laporan ujian dari laman web rasmi. Dua yang pertama ialah GPT-4, satu menggunakan input teks dan satu lagi menggunakan input imej; Github Copilot X menyepadukan GPT-4 masih dalam ujian berskala kecil, dan

Dengan liputan penuh nilai dan perlindungan privasi, Pentadbiran Ruang Siber China merancang untuk 'mewujudkan peraturan' untuk AI generatif Dengan liputan penuh nilai dan perlindungan privasi, Pentadbiran Ruang Siber China merancang untuk 'mewujudkan peraturan' untuk AI generatif Apr 13, 2023 pm 03:34 PM

Pada 11 April, Pentadbiran Ruang Siber China (selepas ini dirujuk sebagai Pentadbiran Ruang Siber China) merangka dan mengeluarkan "Langkah-Langkah Pengurusan Perkhidmatan Kecerdasan Buatan Generatif (Draf untuk Komen)" dan melancarkan permintaan pendapat selama sebulan daripada orang ramai. Langkah pengurusan ini (draf untuk ulasan) mempunyai sejumlah 21 artikel Dari segi skop aplikasi, ia termasuk kedua-dua entiti yang menyediakan perkhidmatan kecerdasan buatan generatif, serta organisasi dan individu yang menggunakan perkhidmatan ini kandungan kecerdasan buatan generatif orientasi nilai, prinsip latihan untuk penyedia perkhidmatan, perlindungan hak privasi/harta intelek dan hak lain, dsb. Kemunculan model dan produk bahasa semula jadi generatif berskala besar seperti GPT bukan sahaja membolehkan orang ramai mengalami kemajuan pesat kecerdasan buatan, tetapi juga mendedahkan risiko keselamatan, termasuk penjanaan maklumat berat sebelah dan diskriminasi.

Adakah perlu 'participle'? Andrej Karpathy: Sudah tiba masanya untuk membuang bagasi bersejarah ini Adakah perlu 'participle'? Andrej Karpathy: Sudah tiba masanya untuk membuang bagasi bersejarah ini May 20, 2023 pm 12:52 PM

Kemunculan AI perbualan seperti ChatGPT telah menjadikan orang terbiasa dengan perkara seperti ini: masukkan sekeping teks, kod atau gambar, dan robot perbualan akan memberi anda jawapan yang anda inginkan. Tetapi di sebalik kaedah interaksi mudah ini, model AI perlu melakukan pemprosesan dan pengiraan data yang sangat kompleks, dan tokenisasi adalah perkara biasa. Dalam bidang pemprosesan bahasa semula jadi, tokenisasi merujuk kepada membahagikan input teks kepada unit yang lebih kecil, dipanggil "token". Token ini boleh berupa perkataan, subkata atau aksara, bergantung pada strategi pembahagian perkataan dan keperluan tugas tertentu. Sebagai contoh, jika kita melakukan tokenisasi pada ayat "Saya suka makan epal", kita akan mendapat urutan token: [&qu

Banyak negara merancang untuk mengharamkan ChatGPT Adakah sangkar untuk 'binatang' itu datang? Banyak negara merancang untuk mengharamkan ChatGPT Adakah sangkar untuk 'binatang' itu datang? Apr 10, 2023 pm 02:40 PM

"Kecerdasan buatan mahu melarikan diri dari penjara", "AI menjana kesedaran diri", "AI akhirnya akan membunuh manusia", "evolusi kehidupan berasaskan silikon"... pernah hanya muncul dalam fantasi teknologi seperti cyberpunk Plot akan datang benar tahun ini, dan model bahasa semula jadi generatif sedang dipersoalkan seperti tidak pernah berlaku sebelum ini. Yang paling menarik perhatian ialah ChatGPT Dari akhir Mac hingga awal April, robot perbualan teks yang dibangunkan oleh OpenAI ini tiba-tiba berubah daripada wakil "produktiviti lanjutan" kepada ancaman kepada manusia. Pertama, ia dinamakan oleh beribu-ribu elit dalam kalangan teknologi dan dimasukkan dalam surat terbuka untuk "menggantung latihan sistem AI yang lebih berkuasa daripada GPT-4" kemudian, organisasi etika teknologi Amerika meminta Suruhanjaya Perdagangan Persekutuan A.S. untuk menyiasat OpenAI dan melarang keluaran versi komersial

See all articles