


Kelajuan ditingkatkan sebanyak 24 kali, dan pemaparan songsang bagi adegan dalaman yang besar boleh diselesaikan dalam masa 30 minit. Hasil penyelidikan Rushi telah dipilih untuk CVPR 2023
Hasil penyelidikan mengenai teknologi pemaparan songsang telah dipilih ke dalam CVPR persidangan penglihatan komputer teratas selama dua tahun berturut-turut, dan telah menjangkau daripada memproses satu imej hingga meliputi keseluruhan asas teknologi algoritma visual Rushi dalam bidang tiga -pembinaan semula dimensi telah ditunjukkan dengan jelas .
Pembinaan semula tiga dimensi merupakan salah satu topik hangat dalam penglihatan komputer (CV) dan grafik komputer (CG) Ia menggunakan teknologi CV untuk memproses imej dua dimensi objek sebenar dan pemandangan yang ditangkap oleh penderia seperti kamera untuk mendapatkan Model tiga dimensi mereka. Memandangkan teknologi berkaitan terus matang, pembinaan semula 3D semakin digunakan dalam pelbagai bidang seperti rumah pintar, pelancongan AR, pemanduan autonomi dan peta ketepatan tinggi, robot, perancangan bandar, pembinaan semula peninggalan budaya dan hiburan filem.
Pembinaan semula muka 3D biasa berdasarkan imej 2D. Sumber imej: 10.1049/iet-cvi.2013.0220
Pembinaan semula 3D tradisional boleh dibahagikan secara kasar kepada kaedah fotometrik dan geometri yang pertama menganalisis perubahan kecerahan piksel, dan yang terakhir bergantung pada paralaks untuk melengkapkan pembinaan semula . Dalam beberapa tahun kebelakangan ini, pembelajaran mesin, terutamanya teknologi pembelajaran mendalam, telah mula digunakan, mencapai hasil yang baik dalam pengesanan ciri, anggaran kedalaman, dsb. Walaupun beberapa kaedah semasa menggunakan model geometri spatial dan peta tekstur, rupa pemandangan kelihatan hampir sama dengan dunia sebenar.
Walau bagaimanapun, perlu diambil perhatian bahawa kaedah ini masih mempunyai beberapa batasan, ia hanya boleh memulihkan ciri penampilan pemandangan dan tidak boleh mendigitalkan atribut yang lebih mendalam seperti pencahayaan, pemantulan dan kekasaran dalam adegan maklumat mendalam Penyuntingan adalah di luar persoalan. Ini juga mengakibatkan ketidakupayaan untuk menukarnya kepada aset pemaparan PBR yang boleh digunakan oleh enjin pemaparan, dan oleh itu tidak dapat menghasilkan kesan pemaparan yang realistik. Bagaimana untuk menyelesaikan masalah ini? Teknologi rendering songsang telah secara beransur-ansur memasuki bidang penglihatan orang ramai.
Tugas rendering songsang pertama kali dicadangkan oleh generasi lama saintis komputer Barrow dan Tenenbaum pada tahun 1978. Berdasarkan pembinaan semula tiga dimensi, sifat-sifat intrinsik adegan seperti pencahayaan, pemantulan, kekasaran dan kemetalan adalah dipulihkan lagi untuk mencapai pemaparan yang lebih realistik. Walau bagaimanapun, penguraian atribut ini daripada imej adalah sangat tidak stabil, dan konfigurasi atribut yang berbeza sering membawa kepada penampilan yang serupa. Dengan kemajuan pemaparan boleh dibezakan dan perwakilan saraf tersirat, beberapa kaedah telah mencapai hasil yang baik dalam adegan berpusat objek kecil dengan keutamaan tersurat atau tersirat.
Walau bagaimanapun, pemaparan songsang adegan dalaman berskala besar tidak dapat diselesaikan dengan baik. Bukan sahaja sukar untuk memulihkan bahan yang munasabah secara fizikal dalam adegan sebenar, tetapi juga sukar untuk memastikan konsistensi pelbagai perspektif dalam. tempat kejadian. Terdapat syarikat teknologi sedemikian di China yang terlibat secara mendalam dalam penyelidikan bebas dan pembangunan algoritma teras dan menumpukan pada aplikasi perindustrian berskala besar dalam bidang pembinaan semula 3D - Realsee Ia adalah terobosan dalam topik yang sukar untuk rendering songsang adegan dalaman berskala besar Satu rangka kerja pemaparan songsang berbilang paparan yang cekap dicadangkan. Kertas kerja itu telah diterima untuk persidangan CVPR 2023.
- Alamat projek: http://yodlee.top/TexIR/
- Alamat kertas: https ://arxiv.org/pdf/2211.10206.pdf
Secara khusus, kaedah baharu Rushi boleh membuat spekulasi terbalik untuk mendapatkan pemandangan seperti pencahayaan, pemantulan, kekasaran, dll. berdasarkan data spatial yang tepat atribut memulihkan pencahayaan dan prestasi bahan dekat dengan pemandangan sebenar berdasarkan pembinaan semula 3D, mencapai penambahbaikan menyeluruh dalam kesan pembinaan semula, kecekapan kos, skop aplikasi dan dimensi lain.
Artikel ini akan memberikan penjelasan terperinci tentang teknologi pemaparan songsang berbilang paparan Rushi untuk adegan dalaman berskala besar dan memberikan analisis mendalam tentang kelebihannya .
Untuk adegan dalaman berskala besar
Teknologi pemaparan songsang baharu Rushi mencapai "tepat, terperinci dan pantas"
Rajah 2 di bawah menunjukkan pandangan keseluruhan kaedah pemaparan songsang baharu Rushi proses. Memandangkan set imej HDR yang ditentukur bagi pemandangan dalaman berskala besar, kaedah ini bertujuan untuk memulihkan pencahayaan konsisten global dan SVBRDF (fungsi pengedaran pantulan dua hala) dengan tepat, membolehkan penyepaduan mudah ke dalam saluran paip imej dan aplikasi hiliran.
Untuk mencapai matlamat ini, Rushi mula-mula mencadangkan perwakilan pencahayaan padat yang dipanggil TBL (Pencahayaan Berasaskan Tekstur), yang terdiri daripada jerat 3D dan tekstur HDR dan dibina dengan cekap pencahayaan global termasuk pencahayaan tidak langsung lantunan langsung dan tak terhingga dalam mana-mana kedudukan keseluruhan pemandangan dalaman yang besar. Berdasarkan TBL, Rushi seterusnya mencadangkan perwakilan pencahayaan bercampur dengan sinaran prakiraan , yang meningkatkan kecekapan dan mengurangkan hingar pemaparan dalam pengoptimuman bahan. Akhirnya, Rushi memperkenalkan strategi pengoptimuman bahan tiga peringkat berdasarkan pembahagian , yang boleh mengendalikan kekaburan fizikal bahan dalam adegan dalaman berskala besar yang kompleks.
Pencahayaan berasaskan tekstur (TBL)
Dalam mewakili pencahayaan adegan dalaman berskala besar, kelebihan TBL dicerminkan dalam kekompakan perwakilan saraf dan IBL pencahayaan global dan kebolehtafsiran cahaya parametrik dan ketekalan spatial. TBL ialah perwakilan global bagi keseluruhan pemandangan, mentakrifkan sinaran keluar semua titik permukaan. Sinaran yang dipancarkan bagi titik permukaan biasanya sama dengan nilai tekstur HDR, iaitu sinaran HDR yang diperhatikan bagi piksel yang sepadan dalam imej HDR input.
Rushi menggunakan teknologi pembinaan semula 3D berkualiti tinggi yang dibangunkan sendiri untuk membina semula model jejaring bagi keseluruhan pemandangan besar. Akhir sekali, tekstur HDR dibina semula berdasarkan input imej HDR, dan pencahayaan global disoal dari sebarang kedudukan dan sebarang arah melalui tekstur HDR. Rajah 3 di bawah (kiri) menunjukkan visualisasi TBL.
Perwakilan pencahayaan campuran
Dalam amalan, terdapat kelemahan dalam penggunaan terus TBL untuk mengoptimumkan jumlah Monte Carlo yang tinggi sampel akan menyebabkan kos pengiraan dan ingatan yang tinggi. Oleh kerana kebanyakan bunyi wujud dalam komponen resap, sinaran titik permukaan untuk komponen resap dikira terlebih dahulu. Oleh itu, sinaran boleh disoal dengan cekap, menggantikan pengiraan dalam talian yang mahal, seperti yang ditunjukkan dalam Rajah 3 (kanan). Persamaan pemaparan berasaskan TBL ditulis semula daripada Persamaan (1) kepada Persamaan (2).
Rushi mencadangkan dua perwakilan untuk memodelkan sinaran prakiraan. Satu ialah Medan Penyinaran Neural (NIrF) , iaitu perceptron berbilang lapisan cetek (MLP) yang mengambil titik permukaan sebagai sinaran input dan output p. Satu lagi ialah Tekstur Radiasi (IrT) , yang serupa dengan peta cahaya yang biasa digunakan dalam grafik komputer.
Seperti yang anda boleh lihat, perwakilan lampu hibrid ini mengandungi sinaran prakiraan untuk komponen resap dan sumber TBL untuk komponen spekular, yang mengurangkan bunyi hingar dan melaksanakan bahan Pengoptimuman yang cekap . Komponen meresap dalam persamaan (2) dimodelkan seperti ditunjukkan dalam persamaan (3).
Anggaran bahan tiga peringkat berdasarkan segmentasi
Untuk bahan saraf, sukar untuk menggunakan bahan yang sangat kompleks untuk skala besar adegan dan tidak sesuai untuk enjin grafik tradisional. Daripada memilih tekstur bahan eksplisit yang mengoptimumkan geometri secara langsung, versi ringkas model Disney BRDF telah digunakan dengan SV albedo dan kekasaran SV sebagai parameter. Walau bagaimanapun, disebabkan oleh pemerhatian yang jarang, mengoptimumkan secara langsung tekstur bahan eksplisit menghasilkan kekasaran yang tidak konsisten dan tidak tertumpu.
Dalam hal ini, Rushi menggunakan semantik dan segmentasi bilik sebelum ini untuk menyelesaikan masalah ini, di mana imej semantik diramalkan oleh model berasaskan pembelajaran dan pembahagian bilik dikira melalui grid penghunian . Dalam proses pelaksanaan, Rushi mengamalkan strategi tiga peringkat.
Peringkat pertama mengoptimumkan albedo jarang berdasarkan andaian Lambertian, dan bukannya memulakan albedo kepada pemalar seperti dalam adegan kecil berpusatkan objek. Walaupun albedo meresap boleh dikira terus dengan formula (3), ia akan menjadikan albedo terlalu terang di kawasan sorotan, mengakibatkan kekasaran yang berlebihan pada peringkat seterusnya. Oleh itu, seperti yang ditunjukkan dalam Persamaan (4) di bawah, kami menggunakan kekangan pelicinan semantik untuk merangsang albedo yang serupa pada segmentasi semantik yang sama. Albedo yang jarang dioptimumkan oleh Persamaan (5).
Persampelan berasaskan sorotan maya (VHL) peringkat kedua dan perambatan berasaskan semantik . Dalam imej berbilang paparan, hanya isyarat spekular yang jarang boleh diperhatikan yang membawa kepada kekasaran yang tidak konsisten secara global, terutamanya dalam adegan berskala besar. Walau bagaimanapun, melalui segmentasi semantik sebelum ini, kekasaran yang munasabah dalam kawasan sorotan boleh disebarkan ke kawasan dengan semantik yang sama.
Rushi mula-mula memaparkan imej berdasarkan pose input dengan kekasaran 0.01 untuk mencari kawasan VHL bagi setiap kelas semantik, dan kemudian mengoptimumkan kekasaran VHL ini berdasarkan albedo dan pencahayaan jarang beku. Kekasaran yang munasabah boleh disebarkan ke dalam segmentasi semantik yang sama melalui Persamaan (6), dan kekasaran ini boleh dioptimumkan melalui Persamaan (7).
Peringkat ketiga penalaan halus berasaskan segmentasi. RuShi memperhalusi semua tekstur bahan berdasarkan pembahagian semantik dan pembahagian bilik sebelumnya. Secara khusus, Rushi menggunakan kekangan pelicinan yang serupa dengan Persamaan (4) dan kekangan pelicinan bilik untuk kekasaran untuk menjadikan kekasaran dalam bilik berbeza lebih lembut dan licin. Kekangan pelicinan bilik ditakrifkan oleh Persamaan (8), manakala tidak menggunakan sebarang kekangan pelicinan pada albedo, jumlah kerugian ditakrifkan oleh Persamaan (9).
Tetapan eksperimen dan perbandingan kesan
Mengenai set data, Rushi menggunakan dua set data: Dataset sintetik dan set data sebenar. Bagi yang pertama, Rushi menggunakan pengesan laluan untuk mencipta pemandangan komposit dengan bahan dan lampu yang berbeza, memberikan 24 paparan untuk pengoptimuman dan 14 paparan baharu, memberikan imej material Ground Truth untuk setiap paparan. Bagi yang terakhir, disebabkan kekurangan imej HDR penuh dalam set data sebenar adegan berskala besar yang biasa digunakan seperti Scannet, Matterport3D dan Replica, Rushi mengumpul 10 set data sebenar HDR penuh dan menangkap 10 hingga 20 dengan menggabungkan 7 dedahan kurungan. Imej panorama HDR penuh.
Mengenai kaedah asas. Untuk memulihkan SVBRDF daripada imej berbilang paparan bagi pemandangan berskala besar, kaedah pemaparan songsang semasa termasuk kaedah SOTA berasaskan pembelajaran imej tunggal PhyIR, kaedah pemaparan saraf SOTA berpusatkan objek berbilang paparan InvRender, NVDIFFREC dan NeILF. Mengenai metrik penilaian , kami menggunakan PSNR, SSIM dan MSE untuk menilai ramalan bahan dan imej yang dipaparkan semula untuk perbandingan kuantitatif, dan menggunakan MAE dan SSIM untuk menilai imej yang dinyalakan semula yang diberikan oleh perwakilan pencahayaan yang berbeza.
Mula-mula mari kita lihat penilaian pada set data sintetik, seperti ditunjukkan dalam Jadual 1 dan Rajah 4 di bawah Kaedah Rushu jauh lebih baik daripada kaedah SOTA dalam anggaran kekasaran, dan kekasaran boleh menghasilkan. pemantulan Spekular yang munasabah dari segi fizikal . Di samping itu, berbanding dengan perwakilan tersirat asal, NeILF dengan perwakilan pencahayaan hibrid visual mengurangkan kekaburan antara bahan dan pencahayaan.
Kemudian dinilai pada set data sebenar yang mencabar yang mengandungi bahan kompleks dan pencahayaan hasil perbandingan kuantitatif dalam Jadual 2 di bawah menunjukkan bahawa kaedah Rushi adalah lebih baik daripada yang sebelumnya. satu. Kaedah . Walaupun kaedah ini mempunyai anggaran ralat pemaparan semula, hanya kaedah visual memisahkan bahan yang konsisten dan kukuh dari segi fizikal secara global.
Rajah 5 dan 6 di bawah menunjukkan perbandingan kualitatif paparan 3D dan paparan imej 2D masing-masing. PhyIR mempunyai prestasi generalisasi yang lemah disebabkan jurang domain yang besar dan tidak dapat mencapai ramalan konsistensi global. InvRender, NVDIFFREC dan NeILF menghasilkan ramalan kabur dengan artifak yang menyukarkan untuk memisahkan bahan yang betul. Walaupun NVDIFFREC boleh mencapai prestasi yang serupa dengan kaedah as-view, ia tidak dapat memisahkan kekaburan antara albedo dan kekasaran, sehingga sorotan dalam komponen spekular dipulihkan secara tidak betul kepada albedo meresap.
Eksperimen Ablasi
Untuk menunjukkan keberkesanan perwakilan pencahayaan dan strategi pengoptimuman bahan, sepertiuntuk TBL, Eksperimen Ablasi dilakukan pada perwakilan pencahayaan hibrid, permulaan albedo pada peringkat pertama, pensampelan VHL dan perambatan semantik untuk anggaran kekasaran pada peringkat kedua, dan penalaan halus berasaskan segmentasi pada peringkat ketiga .
PertamaTBL dibandingkan dengan kaedah pencahayaan SH dan pencahayaan SG yang digunakan secara meluas dalam kaedah sebelumnya Hasilnya ditunjukkan dalam Rajah 7 di bawah, contohnya, TBL mempunyai frekuensi rendah dan tinggi -ciri frekuensi yang ditunjukkan.
bandingkan perwakilan pencahayaan campuran dengan TBL asal, dan hasilnya ditunjukkan dalam Rajah 8 di bawah. Tanpa perwakilan pencahayaan bercampur, albedo boleh menyebabkan bunyi bising dan menumpu secara perlahan. Pengenalan sinaran prakiraan membolehkan penggunaan input resolusi tinggi untuk memulihkan bahan halus dan mempercepatkan proses pengoptimuman. Pada masa yang sama, IrT menghasilkan albedo yang lebih halus dan bebas artifak berbanding NIrF.
keberkesanan strategi tiga peringkat telah disahkan, dan hasilnya ditunjukkan dalam Jadual 3 dan Rajah 9 di bawah. Kekasaran garis dasar gagal menumpu dan hanya kawasan kemuncak dikemas kini. Tanpa permulaan albedo pada peringkat pertama, kawasan sorotan akan menjadi terlalu terang dan mengakibatkan kekasaran yang salah. Peringkat kedua pensampelan berasaskan VHL dan penyebaran berasaskan semantik adalah penting untuk memulihkan kekasaran yang munasabah di kawasan yang sorotan spekular tidak diperhatikan. Tahap ketiga penalaan halus berasaskan segmentasi menghasilkan albedo yang halus, menjadikan kekasaran akhir lebih lancar dan menghalang penyebaran ralat kekasaran antara bahan yang berbeza.
Apakah kekuatan teknologi pemaparan songsang baharu Rushi?
Malah, Rushi mencapai keputusan SOTA pada tugas pemaparan songsang bagi satu imej dengan mencadangkan kaedah latihan rangkaian saraf dalam kertas kerja CVPR 2022 "PhyIR: Rendering Songsang berasaskan Fizik untuk Imej Dalaman Panoramik". Kini rangka kerja pemaparan songsang baharu bukan sahaja mencapai pelbagai perspektif, keseluruhan rumah, ruang dan pemandangan, tetapi juga menyelesaikan banyak kelemahan utama kaedah pemaparan songsang sebelumnya.
Pertama sekaliKaedah sebelumnya berdasarkan latihan data sintetik tidak menunjukkan prestasi yang baik dalam senario sebenar. Rangka kerja pemaparan songsang kedalaman baharu Rushi memperkenalkan "adegan hierarki sebelum" buat kali pertama Melalui pengoptimuman bahan berbilang peringkat dan digabungkan dengan data ruang kediaman pangkalan data spatial tiga dimensi terbesar di dunia dalam ruang digital Rushi, pencahayaan, pemantulan dan cahaya. ruang dianalisis Sifat fizikal seperti kekasaran membolehkan ramalan hierarki dan tepat.
Keputusan ramalanKeluaran akhir ialah peta bahan berbilang jenis yang munasabah secara fizikal dan konsisten di peringkat global, yang menukar dengan lancar data pemandangan dalaman yang sebenarnya ditangkap oleh peralatan Rushi kepada aset pemaparan digital, menyesuaikan diri dengan situasi semasa Unity, Blender, dsb. Semua enjin pemaparan arus perdana , sekali gus membolehkan penjanaan automatik aset pemandangan dan aplikasi MR berasaskan fizikal, seperti penyuntingan bahan, sintesis paparan baharu, pencahayaan semula, pemasukan objek maya, dsb. Aset digital yang sangat serba boleh ini kondusif untuk menyokong lebih banyak aplikasi dan produk yang berbeza pada masa hadapan.
Suntingan Bahan
Menyunting Semula
KeduaKaedah pemaparan boleh dibezakan sebelumnya berdasarkan pengoptimuman adalah sangat mahal dari segi pengiraan dan sangat tidak cekap. Dalam beberapa tahun kebelakangan ini, untuk menyelesaikan masalah rendering songsang dengan lebih baik dan mengurangkan pergantungan pada data latihan, kaedah rendering boleh dibezakan telah dicadangkan, iaitu, melalui kaedah "derivasi pembezaan" untuk menjadikan rendering ke hadapan boleh dibezakan, dan kemudian ke belakang- menyebarkan kecerunan kepada Parameter rendering, dan akhirnya parameter yang akan diselesaikan berdasarkan fizik diperoleh melalui pengoptimuman. Kaedah sedemikian termasuk pencahayaan sfera-harmonik (SH) [1] dan pencahayaan Gaussian (VSG) sfera tiga dimensi.
Walau bagaimanapun, pemandangan dalaman berskala besar mempunyai sejumlah besar kesan optik kompleks seperti oklusi dan bayang-bayang Pemodelan pencahayaan global dalam pemaparan boleh dibezakan akan membawa kos pengiraan yang tinggi. Sebagai contoh, TBL yang dicadangkan kali ini boleh mewakili pencahayaan global adegan dalaman dengan cekap dan tepat dan hanya memerlukan kira-kira 20MB memori, manakala pencahayaan VSG berasaskan grid yang padat [2] memerlukan kira-kira 1GB memori, dan berasaskan grid yang jarang. Kaedah pencahayaan SH Plenoxels [3] Lebih kurang 750MB memori diperlukan, kapasiti memori data dikurangkan berpuluh kali ganda.
Bukan itu sahaja, kaedah baharu Rushi boleh melengkapkan pemaparan songsang bagi keseluruhan adegan dalaman dalam 30 minit, manakala kaedah tradisional [4] mungkin mengambil masa kira-kira 12 jam , peningkatan sebanyak 24 kali ganda. Peningkatan ketara dalam kelajuan pengkomputeran bermakna pengurangan kos dan kelebihan prestasi kos yang lebih ketara, yang membawa kita selangkah lebih dekat kepada aplikasi praktikal berskala besar.
Akhir sekali, kaedah pemaparan songsang saraf seperti NeRF sebelumnya (seperti PS-NeRF [5], NeRFactor [6], dsb.) terutamanya berorientasikan adegan berskala kecil yang berpusat pada objek, dan ia kelihatan tidak berupaya memodelkan adegan dalaman berskala besar. Berdasarkan model ruang digital Rushi yang tepat dan perwakilan pencahayaan campuran yang cekap dan tepat, rangka kerja pemaparan songsang baharu menyelesaikan masalah ini dengan memperkenalkan pembahagian semantik dan pembahagian bilik sebelumnya.
Berkenaan rangka kerja pemaparan songsang kedalaman baharu ini, ketua saintis Rushi, Pan Cihui berkata, "Ia benar-benar mencapai pendigitalan dunia sebenar yang lebih mendalam dan menyelesaikan masalah kaedah pemaparan songsang sebelumnya yang sukar untuk memulihkan fizik dalam adegan sebenar . Bahan dan pencahayaan yang munasabah, serta isu konsistensi berbilang paparan, membawa imaginasi yang lebih besar kepada aplikasi pembinaan semula 3D dan MR 》
Pahami kelebihan teknologi rendering songsang
dalam digital. ruang. China Innovation VR + Industry Integration
Rushi sentiasa mengumpul banyak teknologi dalam bidang pembinaan semula 3D, melaburkan banyak tenaga dalam penggilap dan komited terhadap pelaksanaan algoritma yang berkaitan. Pada masa yang sama, ia memberikan sokongan yang hebat untuk penyelidikan dan pembangunan teknologi termaju dan sangat mementingkan untuk menakluki teknologi terkemuka dalam industri. Ini telah menjadi asas penting untuk pembinaan semula model kehidupan sebenar 3D RuShi dan penyelidikan MR, termasuk teknologi pemaparan songsang baharu ini, untuk mendapat pengiktirafan daripada komuniti akademik antarabangsa, dan telah membantu keupayaan algoritma RuShi mencapai tahap terkemuka antarabangsa dari segi penyelidikan teori. dan aplikasi teknikal.
Algoritma dan kelebihan teknikal ini akan mencapai pendigitalan dunia sebenar yang lebih mendalam dan mempercepatkan lagi pembinaan ruang digital. Pada masa ini, Rushi Digital Space telah mengumpul lebih daripada 27 juta set koleksi di negara yang berbeza dan senario aplikasi yang berbeza melalui peralatan pengumpulan yang dibangunkan sendiri, meliputi kawasan seluas 2.274 bilion meter persegi. Rushi Digital Space juga akan membantu hala tuju pembangunan integrasi industri VR +nya, membawa peluang pembangunan baharu untuk naik taraf aplikasi digital kepada runcit komersil, kemudahan industri, pameran kebudayaan, hal ehwal awam, hiasan rumah, transaksi hartanah dan industri lain, seperti tontonan rumah VR , muzium VR dan banyak lagi.
Pembantu pemasaran AI yang dicipta oleh Rushi
Untuk integrasi industri VR +, Kelebihan terbesar Rushi adalah berterusan. Berevolusi dengan baik algoritma pembinaan semula digital dan pengumpulan data sebenar yang besar telah memberikannya kedua-dua halangan teknikal yang tinggi dan halangan data yang besar . Algoritma dan data ini juga boleh beredar antara satu sama lain sedikit sebanyak, sentiasa mengembangkan kelebihannya. Pada masa yang sama, halangan data dan algoritma memudahkan Rushi untuk mengurangkan masalah kesakitan pelbagai industri, membawa beberapa penyelesaian teknikal dan menginovasi model baharu pembangunan industri.
Hasil teknologi pemaparan songsang telah dipilih ke dalam CVPR selama dua tahun berturut-turut, terutamanya kerana Rushi ingin membuat perubahan dalam hala tuju MR dan mencapai beberapa pelaksanaan dalam industri. Pada masa hadapan, Rushi berharap dapat membuka jurang antara VR kehidupan sebenar dan simulasi maya tulen, benar-benar mencapai penyepaduan maya dan sebenar, dan membina lebih banyak aplikasi industri.
Atas ialah kandungan terperinci Kelajuan ditingkatkan sebanyak 24 kali, dan pemaparan songsang bagi adegan dalaman yang besar boleh diselesaikan dalam masa 30 minit. Hasil penyelidikan Rushi telah dipilih untuk CVPR 2023. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Kertas StableDiffusion3 akhirnya di sini! Model ini dikeluarkan dua minggu lalu dan menggunakan seni bina DiT (DiffusionTransformer) yang sama seperti Sora. Ia menimbulkan kekecohan apabila ia dikeluarkan. Berbanding dengan versi sebelumnya, kualiti imej yang dijana oleh StableDiffusion3 telah dipertingkatkan dengan ketara Ia kini menyokong gesaan berbilang tema, dan kesan penulisan teks juga telah dipertingkatkan, dan aksara bercelaru tidak lagi muncul. StabilityAI menegaskan bahawa StableDiffusion3 ialah satu siri model dengan saiz parameter antara 800M hingga 8B. Julat parameter ini bermakna model boleh dijalankan terus pada banyak peranti mudah alih, dengan ketara mengurangkan penggunaan AI

Ramalan trajektori memainkan peranan penting dalam pemanduan autonomi Ramalan trajektori pemanduan autonomi merujuk kepada meramalkan trajektori pemanduan masa hadapan kenderaan dengan menganalisis pelbagai data semasa proses pemanduan kenderaan. Sebagai modul teras pemanduan autonomi, kualiti ramalan trajektori adalah penting untuk kawalan perancangan hiliran. Tugas ramalan trajektori mempunyai timbunan teknologi yang kaya dan memerlukan kebiasaan dengan persepsi dinamik/statik pemanduan autonomi, peta ketepatan tinggi, garisan lorong, kemahiran seni bina rangkaian saraf (CNN&GNN&Transformer), dll. Sangat sukar untuk bermula! Ramai peminat berharap untuk memulakan ramalan trajektori secepat mungkin dan mengelakkan perangkap Hari ini saya akan mengambil kira beberapa masalah biasa dan kaedah pembelajaran pengenalan untuk ramalan trajektori! Pengetahuan berkaitan pengenalan 1. Adakah kertas pratonton teratur? A: Tengok survey dulu, hlm

Kertas kerja ini meneroka masalah mengesan objek dengan tepat dari sudut pandangan yang berbeza (seperti perspektif dan pandangan mata burung) dalam pemanduan autonomi, terutamanya cara mengubah ciri dari perspektif (PV) kepada ruang pandangan mata burung (BEV) dengan berkesan dilaksanakan melalui modul Transformasi Visual (VT). Kaedah sedia ada secara amnya dibahagikan kepada dua strategi: penukaran 2D kepada 3D dan 3D kepada 2D. Kaedah 2D-ke-3D meningkatkan ciri 2D yang padat dengan meramalkan kebarangkalian kedalaman, tetapi ketidakpastian yang wujud dalam ramalan kedalaman, terutamanya di kawasan yang jauh, mungkin menimbulkan ketidaktepatan. Manakala kaedah 3D ke 2D biasanya menggunakan pertanyaan 3D untuk mencuba ciri 2D dan mempelajari berat perhatian bagi kesesuaian antara ciri 3D dan 2D melalui Transformer, yang meningkatkan masa pengiraan dan penggunaan.

Beberapa pemikiran peribadi pengarang Dalam bidang pemanduan autonomi, dengan pembangunan sub-tugas/penyelesaian hujung-ke-hujung berasaskan BEV, data latihan berbilang paparan berkualiti tinggi dan pembinaan adegan simulasi yang sepadan telah menjadi semakin penting. Sebagai tindak balas kepada titik kesakitan tugas semasa, "kualiti tinggi" boleh dipecahkan kepada tiga aspek: senario ekor panjang dalam dimensi berbeza: seperti kenderaan jarak dekat dalam data halangan dan sudut arah tepat semasa pemotongan kereta, dan data garis lorong. . Ini selalunya bergantung pada sejumlah besar pengumpulan data dan strategi perlombongan data yang kompleks, yang memerlukan kos yang tinggi. Nilai sebenar 3D - imej sangat konsisten: Pemerolehan data BEV semasa sering dipengaruhi oleh ralat dalam pemasangan/penentukuran sensor, peta berketepatan tinggi dan algoritma pembinaan semula itu sendiri. ini membawa saya kepada

Sila ambil perhatian bahawa lelaki persegi ini berkerut dahi, memikirkan identiti "tetamu tidak diundang" di hadapannya. Ternyata dia berada dalam situasi berbahaya, dan apabila dia menyedari perkara ini, dia segera memulakan pencarian mental untuk mencari strategi untuk menyelesaikan masalah itu. Akhirnya, dia memutuskan untuk melarikan diri dari tempat kejadian dan kemudian mendapatkan bantuan secepat mungkin dan mengambil tindakan segera. Pada masa yang sama, orang di seberang sana memikirkan perkara yang sama seperti dia... Terdapat adegan sedemikian dalam "Minecraft" di mana semua watak dikawal oleh kecerdasan buatan. Setiap daripada mereka mempunyai latar identiti yang unik Contohnya, gadis yang disebutkan sebelum ini adalah seorang kurier berusia 17 tahun tetapi bijak dan berani. Mereka mempunyai daya ingatan dan pemikiran serta hidup seperti manusia di bandar kecil yang terletak di Minecraft ini. Apa yang mendorong mereka adalah sesuatu yang baru,

Fotografi mudah alih secara asasnya telah mengubah cara kami merakam dan berkongsi detik kehidupan. Kemunculan telefon pintar, terutamanya iPhone, memainkan peranan penting dalam peralihan ini. Terkenal dengan teknologi kamera canggih dan ciri penyuntingan yang mesra pengguna, iPhone telah menjadi pilihan pertama untuk jurugambar amatur dan berpengalaman. Pelancaran iOS 17 menandakan peristiwa penting dalam perjalanan ini. Kemas kini terbaharu Apple membawa satu set ciri penyuntingan foto yang dipertingkatkan, memberikan pengguna kit alat yang lebih berkuasa untuk menukar syot kilat setiap hari mereka kepada imej yang menarik secara visual dan kaya secara artistik. Perkembangan teknologi ini bukan sahaja memudahkan proses fotografi tetapi juga membuka ruang baharu untuk ekspresi kreatif, membolehkan pengguna menyuntik sentuhan profesional ke dalam foto mereka dengan mudah.

Pada 23 September, kertas kerja "DeepModelFusion:ASurvey" diterbitkan oleh Universiti Teknologi Pertahanan Nasional, JD.com dan Institut Teknologi Beijing. Gabungan/penggabungan model dalam ialah teknologi baru muncul yang menggabungkan parameter atau ramalan berbilang model pembelajaran mendalam ke dalam satu model. Ia menggabungkan keupayaan model yang berbeza untuk mengimbangi bias dan ralat model individu untuk prestasi yang lebih baik. Gabungan model mendalam pada model pembelajaran mendalam berskala besar (seperti LLM dan model asas) menghadapi beberapa cabaran, termasuk kos pengiraan yang tinggi, ruang parameter berdimensi tinggi, gangguan antara model heterogen yang berbeza, dsb. Artikel ini membahagikan kaedah gabungan model dalam sedia ada kepada empat kategori: (1) "Sambungan corak", yang menghubungkan penyelesaian dalam ruang berat melalui laluan pengurangan kerugian untuk mendapatkan gabungan model awal yang lebih baik.

Ditulis di atas & Pemahaman peribadi penulis ialah pembinaan semula 3D berasaskan imej ialah tugas mencabar yang melibatkan membuat inferens bentuk 3D objek atau pemandangan daripada set imej input. Kaedah berasaskan pembelajaran telah menarik perhatian kerana keupayaan mereka untuk menganggar secara langsung bentuk 3D. Kertas ulasan ini memfokuskan pada teknik pembinaan semula 3D yang canggih, termasuk menjana novel, pandangan ghaib. Gambaran keseluruhan perkembangan terkini dalam kaedah percikan Gaussian disediakan, termasuk jenis input, struktur model, perwakilan output dan strategi latihan. Cabaran yang tidak dapat diselesaikan dan hala tuju masa depan turut dibincangkan. Memandangkan kemajuan pesat dalam bidang ini dan banyak peluang untuk meningkatkan kaedah pembinaan semula 3D, pemeriksaan menyeluruh terhadap algoritma nampaknya penting. Oleh itu, kajian ini memberikan gambaran menyeluruh tentang kemajuan terkini dalam serakan Gaussian. (Leret ibu jari anda ke atas
