Latar belakang yang lebih berbutir dan kawalan latar depan, pengeditan yang lebih pantas: Pendekatan dua peringkat BEVControl-AI-php.cn

Jadual Kandungan

Input: Lakaran BEV, imej hingar berbilang paparan dan gesaan teks untuk pengeditan mudah Output: imej berbilang paparan.

#🎜🎜🎜##🎜🎜🎜🎜🎜🎜🎜#Keputusan Kuantitatif

Hasil kualitatif

Kesan demo

Rumah

Peranti teknologi

Latar belakang yang lebih berbutir dan kawalan latar depan, pengeditan yang lebih pantas: Pendekatan dua peringkat BEVControl

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 07, 2023 pm 11:21 PM

teori penjanaan adegan bevcontrol

Artikel ini akan memperkenalkan kaedah untuk menjana imej paparan jalan berbilang perspektif dengan tepat melalui reka letak BEV Sketch

Latar belakang yang lebih berbutir dan kawalan latar depan, pengeditan yang lebih pantas: Pendekatan dua peringkat BEVControl

Dalam bidang pemanduan autonomi, sintesis imej Digunakan secara meluas untuk meningkatkan prestasi tugas persepsi hiliran

Dalam bidang penglihatan komputer, masalah penyelidikan yang telah lama wujud dalam meningkatkan prestasi model persepsi dicapai dengan mensintesis imej. Dalam sistem pemanduan autonomi bertumpu penglihatan, menggunakan kamera berbilang pandangan, masalah ini menjadi lebih ketara kerana beberapa adegan ekor panjang tidak boleh dikumpulkan

Seperti yang ditunjukkan dalam Rajah 1(a), kaedah penjanaan yang sedia ada memasukkan semantik. struktur BEV gaya segmentasi ke dalam rangkaian penjanaan dan mengeluarkan imej berbilang paparan yang munasabah. Apabila dinilai semata-mata pada metrik peringkat pemandangan, kaedah sedia ada nampaknya mampu mensintesis imej paparan jalan fotorealistik. Walau bagaimanapun, setelah dizum masuk, kami mendapati ia gagal menghasilkan butiran peringkat objek yang tepat. Dalam rajah tersebut, kami menunjukkan kesilapan biasa algoritma penjanaan terkini, iaitu kenderaan yang dijana sepenuhnya berorientasikan ke arah bertentangan berbanding dengan kotak sempadan 3D sasaran. Tambahan pula, menyunting struktur BEV dalam gaya segmentasi semantik adalah tugas yang sukar dan memerlukan banyak tenaga kerja

Latar belakang yang lebih berbutir dan kawalan latar depan, pengeditan yang lebih pantas: Pendekatan dua peringkat BEVControl Oleh itu, kami mencadangkan kaedah dua peringkat bernama BEVControl untuk menyediakan latar belakang yang lebih halus dan kawalan geometri latar depan, seperti yang ditunjukkan dalam Rajah 1(b). BEVControl menyokong input struktur BEV gaya lakaran, membolehkan pengeditan cepat dan mudah. Selain itu, BEVControl kami menguraikan konsistensi visual kepada dua sub-matlamat: konsistensi geometri antara pemandangan jalan dan pandangan mata burung melalui Konsistensi penampilan antara pemandangan jalan melalui Penyelaras# 🎜🎜#

#🎜🎜 #

Pautan kertas:

https://www.php.cn/link/1531beb762df4029513ebf9295e0d34f#🎜 🎜##🎜🎜🎜🎜🎜🎜🎜🎜🎜 #Kaedah Rangka Kerja

Latar belakang yang lebih berbutir dan kawalan latar depan, pengeditan yang lebih pantas: Pendekatan dua peringkat BEVControl

#🎜🎜 #BEVControl ialah rangkaian terjana daripada struktur UNet daripada modul. Setiap modul mempunyai dua elemen iaitu Pengawal dan Penyelaras.

Input: Lakaran BEV, imej hingar berbilang paparan dan gesaan teks untuk pengeditan mudah Output: imej berbilang paparan.

Perincian kaedah

#🎜

#🎜#🎜##🎜#🎜 #🎜 Proses tayangan kamera bersyarat. Input ialah lakaran BEV. Outputnya ialah keadaan latar depan berbilang paparan dan keadaan latar belakang.

Latar belakang yang lebih berbutir dan kawalan latar depan, pengeditan yang lebih pantas: Pendekatan dua peringkat BEVControl

Pengawal: Menerima maklumat latar depan dan latar belakang lakaran pandangan kamera dengan cara yang memerhatikan diri, dan output sama seperti lakaran BEV menampilkan landskap jalan yang konsisten secara geometri.

Penyelaras: Menggunakan mekanisme perhatian silang silang dan elemen merentas untuk mencapai interaksi kontekstual paparan silang dan ciri paparan jalan keluaran dengan konsistensi penampilan. Cadangan metrik penilaian , jalan mIoU, dsb.) untuk menilai kualiti penjanaan.

Kami mendapati bahawa adalah mustahil untuk menilai keupayaan generatif sebenar rangkaian penjanaan hanya menggunakan metrik ini, seperti yang ditunjukkan dalam rajah di bawah. Keputusan kualitatif dan kuantitatif yang dilaporkan menunjukkan bahawa kedua-dua kumpulan menjana imej Street View dengan skor FID yang sama tetapi keupayaan yang sangat berbeza untuk kawalan terperinci ke atas latar depan dan latar belakang.

Latar belakang yang lebih berbutir dan kawalan latar depan, pengeditan yang lebih pantas: Pendekatan dua peringkat BEVControl Oleh itu, kami mencadangkan satu set penunjuk penilaian untuk mengukur keupayaan kawalan rangkaian penjanaan.

Keputusan Kuantitatif

#🎜🎜🎜##🎜🎜🎜🎜🎜🎜🎜#Keputusan Kuantitatif

#🎜🎜🎜🎜##🎜🎜🎜 -of-the-art Perbandingan kaedah pada penunjuk penilaian yang dicadangkan.

Gunakan BEVControl untuk peningkatan data bagi menambah baik tugas pengesanan sasaran.

Hasil kualitatif

Perbandingan BEVControl dan kaedah terkini pada set pengesahan NuScenes.

Latar belakang yang lebih berbutir dan kawalan latar depan, pengeditan yang lebih pantas: Pendekatan dua peringkat BEVControl

Kesan demo

Latar belakang yang lebih berbutir dan kawalan latar depan, pengeditan yang lebih pantas: Pendekatan dua peringkat BEVControl

Kandungan yang perlu ditulis semula ialah: Rujukan

Xu R , Zhou B . Menjana imej paparan jalan daripada reka letak pandangan mata burung[J].

Atas ialah kandungan terperinci Latar belakang yang lebih berbutir dan kawalan latar depan, pengeditan yang lebih pantas: Pendekatan dua peringkat BEVControl. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Bagaimana untuk memperbaiki KB5055612 gagal dipasang di Windows 10?

3 minggu yang lalu By DDD

<🎜>: Tumbuh Taman - Panduan Mutasi Lengkap

3 minggu yang lalu By DDD

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Nordhold: Sistem Fusion, dijelaskan

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Cara Membuka Kunci Cangkuk Bergelut

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Tutorial Java

1667

Tutorial CakePHP

1426

Tutorial Laravel

1328

Tutorial PHP

1273

Tutorial C#

1255

Tunjukkan Lagi

Related knowledge

Menerobos sempadan pengesanan kecacatan tradisional, 'Spektrum Kecacatan' mencapai ketepatan ultra tinggi dan pengesanan kecacatan industri semantik yang kaya buat kali pertama. Jul 26, 2024 pm 05:38 PM

Dalam pembuatan moden, pengesanan kecacatan yang tepat bukan sahaja kunci untuk memastikan kualiti produk, tetapi juga teras untuk meningkatkan kecekapan pengeluaran. Walau bagaimanapun, set data pengesanan kecacatan sedia ada selalunya tidak mempunyai ketepatan dan kekayaan semantik yang diperlukan untuk aplikasi praktikal, menyebabkan model tidak dapat mengenal pasti kategori atau lokasi kecacatan tertentu. Untuk menyelesaikan masalah ini, pasukan penyelidik terkemuka yang terdiri daripada Universiti Sains dan Teknologi Hong Kong Guangzhou dan Teknologi Simou telah membangunkan set data "DefectSpectrum" secara inovatif, yang menyediakan anotasi berskala besar yang kaya dengan semantik bagi kecacatan industri. Seperti yang ditunjukkan dalam Jadual 1, berbanding set data industri lain, set data "DefectSpectrum" menyediakan anotasi kecacatan yang paling banyak (5438 sampel kecacatan) dan klasifikasi kecacatan yang paling terperinci (125 kategori kecacatan

Latihan dengan berjuta-juta data kristal untuk menyelesaikan masalah fasa kristalografi, kaedah pembelajaran mendalam PhAI diterbitkan dalam Sains Aug 08, 2024 pm 09:22 PM

Editor |KX Sehingga hari ini, perincian dan ketepatan struktur yang ditentukan oleh kristalografi, daripada logam ringkas kepada protein membran yang besar, tidak dapat ditandingi oleh mana-mana kaedah lain. Walau bagaimanapun, cabaran terbesar, yang dipanggil masalah fasa, kekal mendapatkan maklumat fasa daripada amplitud yang ditentukan secara eksperimen. Penyelidik di Universiti Copenhagen di Denmark telah membangunkan kaedah pembelajaran mendalam yang dipanggil PhAI untuk menyelesaikan masalah fasa kristal Rangkaian saraf pembelajaran mendalam yang dilatih menggunakan berjuta-juta struktur kristal tiruan dan data pembelauan sintetik yang sepadan boleh menghasilkan peta ketumpatan elektron yang tepat. Kajian menunjukkan bahawa kaedah penyelesaian struktur ab initio berasaskan pembelajaran mendalam ini boleh menyelesaikan masalah fasa pada resolusi hanya 2 Angstrom, yang bersamaan dengan hanya 10% hingga 20% daripada data yang tersedia pada resolusi atom, manakala Pengiraan ab initio tradisional

Model dialog NVIDIA ChatQA telah berkembang kepada versi 2.0, dengan panjang konteks disebut pada 128K Jul 26, 2024 am 08:40 AM

Komuniti LLM terbuka ialah era apabila seratus bunga mekar dan bersaing Anda boleh melihat Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 dan banyak lagi. model yang cemerlang. Walau bagaimanapun, berbanding dengan model besar proprietari yang diwakili oleh GPT-4-Turbo, model terbuka masih mempunyai jurang yang ketara dalam banyak bidang. Selain model umum, beberapa model terbuka yang mengkhusus dalam bidang utama telah dibangunkan, seperti DeepSeek-Coder-V2 untuk pengaturcaraan dan matematik, dan InternVL untuk tugasan bahasa visual.

Google AI memenangi pingat perak IMO Mathematical Olympiad, model penaakulan matematik AlphaProof telah dilancarkan dan pembelajaran pengukuhan kembali Jul 26, 2024 pm 02:40 PM

Bagi AI, Olimpik Matematik tidak lagi menjadi masalah. Pada hari Khamis, kecerdasan buatan Google DeepMind menyelesaikan satu kejayaan: menggunakan AI untuk menyelesaikan soalan sebenar IMO Olimpik Matematik Antarabangsa tahun ini, dan ia hanya selangkah lagi untuk memenangi pingat emas. Pertandingan IMO yang baru berakhir minggu lalu mempunyai enam soalan melibatkan algebra, kombinatorik, geometri dan teori nombor. Sistem AI hibrid yang dicadangkan oleh Google mendapat empat soalan dengan betul dan memperoleh 28 mata, mencapai tahap pingat perak. Awal bulan ini, profesor UCLA, Terence Tao baru sahaja mempromosikan Olimpik Matematik AI (Anugerah Kemajuan AIMO) dengan hadiah berjuta-juta dolar Tanpa diduga, tahap penyelesaian masalah AI telah meningkat ke tahap ini sebelum Julai. Lakukan soalan secara serentak pada IMO Perkara yang paling sukar untuk dilakukan dengan betul ialah IMO, yang mempunyai sejarah terpanjang, skala terbesar dan paling negatif

PRO |. Mengapa model besar berdasarkan MoE lebih patut diberi perhatian? Aug 07, 2024 pm 07:08 PM

Pada tahun 2023, hampir setiap bidang AI berkembang pada kelajuan yang tidak pernah berlaku sebelum ini. Pada masa yang sama, AI sentiasa menolak sempadan teknologi trek utama seperti kecerdasan yang terkandung dan pemanduan autonomi. Di bawah trend berbilang modal, adakah status Transformer sebagai seni bina arus perdana model besar AI akan digoncang? Mengapakah penerokaan model besar berdasarkan seni bina MoE (Campuran Pakar) menjadi trend baharu dalam industri? Bolehkah Model Penglihatan Besar (LVM) menjadi satu kejayaan baharu dalam penglihatan umum? ...Daripada surat berita ahli PRO 2023 laman web ini yang dikeluarkan dalam tempoh enam bulan lalu, kami telah memilih 10 tafsiran khas yang menyediakan analisis mendalam tentang aliran teknologi dan perubahan industri dalam bidang di atas untuk membantu anda mencapai matlamat anda dalam bidang baharu. tahun. Tafsiran ini datang dari Week50 2023

Untuk menyediakan tanda aras dan sistem penilaian menjawab soalan saintifik dan kompleks baharu untuk model besar, UNSW, Argonne, University of Chicago dan institusi lain bersama-sama melancarkan rangka kerja SciQAG Jul 25, 2024 am 06:42 AM

Editor |ScienceAI Question Answering (QA) set data memainkan peranan penting dalam mempromosikan penyelidikan pemprosesan bahasa semula jadi (NLP). Set data QA berkualiti tinggi bukan sahaja boleh digunakan untuk memperhalusi model, tetapi juga menilai dengan berkesan keupayaan model bahasa besar (LLM), terutamanya keupayaan untuk memahami dan menaakul tentang pengetahuan saintifik. Walaupun pada masa ini terdapat banyak set data QA saintifik yang meliputi bidang perubatan, kimia, biologi dan bidang lain, set data ini masih mempunyai beberapa kekurangan. Pertama, borang data adalah agak mudah, kebanyakannya adalah soalan aneka pilihan. Ia mudah dinilai, tetapi mengehadkan julat pemilihan jawapan model dan tidak dapat menguji sepenuhnya keupayaan model untuk menjawab soalan saintifik. Sebaliknya, Soal Jawab terbuka

Kadar ketepatan mencapai 60.8%. Model ramalan retrosintesis kimia Universiti Zhejiang berdasarkan Transformer diterbitkan dalam sub-jurnal Nature Aug 06, 2024 pm 07:34 PM

Editor |. KX Retrosynthesis ialah tugas kritikal dalam penemuan ubat dan sintesis organik, dan AI semakin digunakan untuk mempercepatkan proses. Kaedah AI sedia ada mempunyai prestasi yang tidak memuaskan dan kepelbagaian terhad. Dalam amalan, tindak balas kimia sering menyebabkan perubahan molekul tempatan, dengan pertindihan yang besar antara bahan tindak balas dan produk. Diilhamkan oleh ini, pasukan Hou Tingjun di Universiti Zhejiang mencadangkan untuk mentakrifkan semula ramalan retrosintetik satu langkah sebagai tugas penyuntingan rentetan molekul, secara berulang menapis rentetan molekul sasaran untuk menghasilkan sebatian prekursor. Dan model retrosintetik berasaskan penyuntingan EditRetro dicadangkan, yang boleh mencapai ramalan berkualiti tinggi dan pelbagai. Eksperimen yang meluas menunjukkan bahawa model itu mencapai prestasi cemerlang pada set data penanda aras standard USPTO-50 K, dengan ketepatan 1 teratas 60.8%.

Pandangan alam semula jadi: Ujian kecerdasan buatan dalam perubatan berada dalam keadaan huru-hara Apa yang perlu dilakukan? Aug 22, 2024 pm 04:37 PM

Editor |. ScienceAI Berdasarkan data klinikal yang terhad, beratus-ratus algoritma perubatan telah diluluskan. Para saintis sedang membahaskan siapa yang harus menguji alat dan cara terbaik untuk melakukannya. Devin Singh menyaksikan seorang pesakit kanak-kanak di bilik kecemasan mengalami serangan jantung semasa menunggu rawatan untuk masa yang lama, yang mendorongnya untuk meneroka aplikasi AI untuk memendekkan masa menunggu. Menggunakan data triage daripada bilik kecemasan SickKids, Singh dan rakan sekerja membina satu siri model AI untuk menyediakan potensi diagnosis dan mengesyorkan ujian. Satu kajian menunjukkan bahawa model ini boleh mempercepatkan lawatan doktor sebanyak 22.3%, mempercepatkan pemprosesan keputusan hampir 3 jam bagi setiap pesakit yang memerlukan ujian perubatan. Walau bagaimanapun, kejayaan algoritma kecerdasan buatan dalam penyelidikan hanya mengesahkan perkara ini

See all articles