Penulisan semula tajuk: Penjejakan kertas pelajar cemerlang ICCV 2023, Github telah memperoleh 1.6K bintang, maklumat komprehensif seperti sihir!-AI-php.cn

Jadual Kandungan

1. Maklumat kertas

3.1 Volume 3D Canonical

3.2 bijection 3D

3.3 Mengkomputer gerakan bingkai ke bingkai

4. Perbandingan eksperimen

Kandungan yang perlu ditulis semula ialah: Pautan asal: https://mp.weixin.qq.com/s/HOIi5y9j-JwUImhpHPYgkg# 🎜🎜 #

Rumah

Peranti teknologi

Penulisan semula tajuk: Penjejakan kertas pelajar cemerlang ICCV 2023, Github telah memperoleh 1.6K bintang, maklumat komprehensif seperti sihir!

PHPz

Oct 11, 2023 am 11:29 AM

Pemanduan autonomi kertas

1. Maklumat kertas

Kertas pelajar terbaik ICCV2023 tahun ini telah dianugerahkan kepada qianqian wang dari Universiti Cornell, yang kini merupakan penyelidik pasca doktoral di University of California, Berkeley! 标题重写：ICCV 2023优秀学生论文跟踪，Github已经获得1.6K star，仿佛魔法般的全面信息！

2

Dalam bidang anggaran gerakan video, penulis menunjukkan bahawa kaedah tradisional terbahagi kepada dua jenis: penjejakan ciri jarang dan aliran optik padat. Walaupun kedua-dua kaedah telah terbukti berkesan dalam aplikasi masing-masing, kedua-dua kaedah tidak menangkap gerakan dalam video sepenuhnya. Aliran optik berpasangan tidak dapat menangkap trajektori gerakan dalam tetingkap masa yang lama, manakala penjejakan jarang tidak dapat memodelkan gerakan semua piksel Untuk merapatkan jurang ini, banyak kajian telah cuba menganggarkan trajektori piksel padat dan jarak jauh dalam video secara serentak. Kaedah kajian ini berbeza daripada hanya memautkan medan aliran optik dua bingkai kepada meramalkan secara langsung trajektori setiap piksel merentas berbilang bingkai. Walau bagaimanapun, kaedah ini selalunya hanya mempertimbangkan konteks terhad apabila menganggarkan pergerakan dan mengabaikan maklumat yang jauh dari segi masa atau ruang. Rabun jauh ini boleh membawa kepada pengumpulan ralat dalam trajektori yang panjang, serta ketidakkonsistenan spatiotemporal dalam anggaran gerakan. Walaupun sesetengah kaedah mempertimbangkan konteks jangka panjang, kaedah tersebut masih beroperasi dalam domain 2D, yang mungkin membawa kepada kehilangan penjejakan dalam peristiwa oklusi. 标题重写：ICCV 2023优秀学生论文跟踪，Github已经获得1.6K star，仿佛魔法般的全面信息！

Secara keseluruhan, anggaran trajektori padat dan jarak jauh dalam video kekal sebagai masalah yang tidak dapat diselesaikan dalam bidang tersebut. Masalah ini melibatkan tiga cabaran utama: 1) Bagaimana untuk mengekalkan ketepatan trajektori dalam urutan yang panjang, 2) Bagaimana untuk mengesan lokasi titik di bawah oklusi, 3) Bagaimana untuk mengekalkan konsistensi spatiotemporal

Dalam artikel ini, Penulis mencadangkan gerakan video novel kaedah anggaran yang menggunakan semua maklumat dalam video untuk menganggarkan trajektori gerakan lengkap setiap piksel secara bersama. Kaedah ini dipanggil "OmniMotion" dan ia menggunakan perwakilan kuasi-3D. Dalam perwakilan ini, volum 3D standard dipetakan kepada volum tempatan pada setiap bingkai. Pemetaan ini berfungsi sebagai sambungan fleksibel kepada geometri berbilang paparan dinamik dan boleh mensimulasikan gerakan kamera dan pemandangan secara serentak. Perwakilan ini bukan sahaja memastikan ketekalan gelung tetapi juga menjejaki semua piksel semasa oklusi. Pengarang mengoptimumkan perwakilan ini untuk setiap video, menyediakan penyelesaian untuk gerakan sepanjang video. Selepas pengoptimuman, perwakilan ini boleh ditanya pada mana-mana koordinat berterusan video untuk mendapatkan trajektori gerakan yang merangkumi keseluruhan video

Kaedah yang dicadangkan dalam kertas ini boleh: 1) Menjana perwakilan lengkap yang konsisten secara global untuk semua titik dalam keseluruhan trajektori gerakan video , 2) titik penjejakan melalui oklusi, dan 3) memproses video sebenar dengan pelbagai kombinasi tindakan kamera dan adegan. Pada penanda aras penjejakan video TAP, kaedah ini berprestasi baik, jauh mengatasi kaedah sebelumnya.

3. Kaedah

Kertas ini mencadangkan kaedah berasaskan pengoptimuman masa ujian untuk menganggar gerakan padat dan jarak jauh daripada jujukan video. Mula-mula, mari kita berikan gambaran keseluruhan kaedah yang dicadangkan dalam kertas kerja:

Input

: Kaedah pengarang mengambil set bingkai dan pasangan anggaran gerakan bising (seperti medan aliran optik) sebagai input.

Operasi Kaedah: Menggunakan input ini, kaedah ini bertujuan untuk mencari perwakilan gerakan yang lengkap dan konsisten di peringkat global untuk keseluruhan video.
Ciri Hasil: Selepas pengoptimuman, perwakilan ini boleh disoal dengan mana-mana piksel mana-mana bingkai dalam video, menghasilkan trajektori gerakan yang lancar dan tepat merentas keseluruhan video. Kaedah ini juga mengenal pasti apabila titik tersumbat dan boleh menjejaki titik yang melalui oklusi.
Isi Teras:
OmniMotion Representation

Proses pengoptimuman: Seterusnya, pengarang menerangkan proses pengoptimuman cara memulihkan perwakilan ini daripada video.
Kaedah ini boleh memberikan perwakilan gerakan video yang komprehensif dan koheren, dan boleh menyelesaikan masalah yang mencabar dengan berkesan seperti oklusi. Sekarang mari kita ketahui lebih lanjut mengenainya

3.1 Volume 3D Canonical

Kandungan video diwakili oleh volum biasa bernama G, yang bertindak sebagai peta tiga dimensi bagi pemandangan yang diperhatikan. Sama seperti yang dilakukan dalam NeRF, mereka mentakrifkan rangkaian berasaskan koordinat nerf yang memetakan setiap koordinat 3D biasa uvw dalam G kepada ketumpatan σ dan warna c Ketumpatan yang disimpan dalam G memberitahu kita di mana permukaan berada dalam ruang biasa. Apabila digabungkan dengan bijection 3D, ini membolehkan kami menjejak permukaan pada berbilang bingkai dan memahami hubungan oklusi. Warna yang disimpan dalam G membolehkan kami mengira kehilangan fotometrik semasa pengoptimuman.

3.2 bijection 3D

Kertas ini memperkenalkan pemetaan bijection berterusan, dilambangkan sebagai , yang mengubah titik 3D daripada sistem koordinat tempatan kepada sistem koordinat 3D kanonik. Koordinat kanonik ini berfungsi sebagai rujukan atau "indeks" yang konsisten dalam masa untuk titik pemandangan atau trajektori 3D. Kelebihan utama menggunakan pemetaan bijektif ialah ketekalan berkala yang mereka sediakan dalam titik 3D antara bingkai yang berbeza, kerana semuanya berasal dari titik kanonik yang sama.

Persamaan pemetaan dari titik 3D dari satu bingkai tempatan ke bingkai yang lain ialah:

标题重写：ICCV 2023优秀学生论文跟踪，Github已经获得1.6K star，仿佛魔法般的全面信息！

Untuk menangkap gerakan dunia nyata yang kompleks, bijection ini diparameterkan sebagai Rangkaian Neural Songsang (INN). Pilihan Real-NVP sebagai model dipengaruhi oleh kesederhanaan dan sifatnya yang boleh diterbalikkan secara analitikal. Real-NVP melaksanakan pemetaan bijektif dengan menggunakan transformasi asas yang dipanggil lapisan gandingan affine. Lapisan ini membelah input supaya satu bahagian kekal tidak berubah manakala bahagian lain mengalami transformasi afin.

Untuk meningkatkan lagi seni bina ini, kita boleh melakukannya dengan mesyaratkan kod terpendam latent_i setiap bingkai. Oleh itu, semua pemetaan boleh balik i ditentukan oleh rangkaian pemetaan rangkaian boleh balik tunggal, tetapi ia mempunyai kod terpendam yang berbeza

3.3 Mengkomputer gerakan bingkai ke bingkai

Mengira semula gerakan antara bingkai

Bahagian ini menerangkan cara mengira gerakan 2D untuk sebarang querypixel dalam bingkai i. Secara intuitif, piksel pertanyaan mula-mula "diangkat" kepada 3D dengan titik pensampelan pada sinar, kemudian titik 3D ini "dipetakan" ke rangka sasaran j menggunakan pemetaan bijection i dan pemetaan j, diikuti dengan penggubahan alfa daripada sampel yang berbeza" Titik 3D yang dipetakan ini "diberikan" dan akhirnya "diunjurkan" kembali ke dalam 2D untuk mendapatkan surat-menyurat yang diandaikan.

标题重写：ICCV 2023优秀学生论文跟踪，Github已经获得1.6K star，仿佛魔法般的全面信息！

4. Perbandingan eksperimen

标题重写：ICCV 2023优秀学生论文跟踪，Github已经获得1.6K star，仿佛魔法般的全面信息！

Jadual data eksperimen ini menunjukkan prestasi pelbagai kaedah anggaran gerakan pada tiga set data - Kinetik, DAVIS dan RGB-Stacking. Untuk menilai prestasi kaedah individu, empat metrik digunakan: AJ, purata, OA dan TC. Sebagai tambahan kepada dua kaedah yang dicadangkan oleh pengarang (kami (TAP-Net) dan kami (RAFT)), terdapat 7 kaedah lain. Perlu diingat bahawa kedua-dua kaedah pengarang berprestasi baik pada kebanyakan metrik dan set data. Khususnya, kaedah (RAFT) kami mencapai hasil terbaik pada AJ, purata dan OA untuk ketiga-tiga set data, sambil menjadi yang kedua terbaik pada TC. Kaedah (TAP-Net) kami juga mencapai prestasi cemerlang yang serupa pada beberapa langkah. Sementara itu, kaedah lain mempunyai prestasi bercampur pada metrik ini. Perlu dinyatakan bahawa kaedah pengarang dan kaedah "Deformable Sprites" menganggarkan gerakan global melalui pengoptimuman masa ujian pada setiap video, manakala semua kaedah lain menggunakan pendekatan ke hadapan untuk melakukan anggaran gerakan secara tempatan. Secara ringkasnya, kaedah pengarang mengatasi semua kaedah lain yang diuji dari segi ketepatan kedudukan, ketepatan oklusi dan kesinambungan temporal, menunjukkan kelebihan ketara

标题重写：ICCV 2023优秀学生论文跟踪，Github已经获得1.6K star，仿佛魔法般的全面信息！

Ini ialah jadual keputusan eksperimen ablasi untuk set data DAVIS . Eksperimen ablasi dijalankan untuk mengesahkan sumbangan setiap komponen kepada prestasi keseluruhan sistem. Terdapat empat kaedah yang disenaraikan dalam jadual ini, tiga daripadanya ialah versi yang mengalih keluar komponen utama tertentu dan versi "Penuh" terakhir merangkumi semua komponen.

Tiada boleh terbalik: Versi ini mengalih keluar komponen "kebolehbalikan". Berbanding dengan kaedah penuh, semua metriknya turun dengan ketara, terutamanya pada AJ dan , yang menunjukkan bahawa keterbalikan memainkan peranan penting dalam keseluruhan sistem.
Tiada fotometrik: Versi ini mengalih keluar komponen "fotometrik". Walaupun prestasinya lebih rendah daripada versi "Penuh", prestasinya lebih baik berbanding versi "tidak boleh diterbalikkan". Ini menunjukkan bahawa walaupun komponen fotometri memainkan peranan tertentu dalam meningkatkan prestasi, kepentingannya mungkin lebih rendah daripada komponen boleh balik.
Pensampelan seragam: Versi ini menggunakan strategi pensampelan bersatu. Prestasinya juga kurang sedikit berbanding versi penuh, tetapi masih lebih baik daripada versi "ketidakbolehbalikan" dan "aluminium".
Full: Ini adalah versi penuh dengan semua komponen dan ia mencapai prestasi terbaik pada semua metrik. Ini menunjukkan bahawa setiap komponen menyumbang kepada peningkatan prestasi, terutamanya apabila semua komponen disepadukan, sistem boleh mencapai prestasi terbaik.

标题重写：ICCV 2023优秀学生论文跟踪，Github已经获得1.6K star，仿佛魔法般的全面信息！

Secara keseluruhan, keputusan eksperimen ablasi ini menunjukkan bahawa walaupun setiap komponen mempunyai peningkatan prestasi tertentu, ia boleh diterbalikkan Seks mungkin komponen yang paling penting, kerana tanpanya, penalti prestasi akan menjadi berat

5. Eksperimen ablasi yang dilakukan pada set data DAVIS dalam kerja ini memberikan kami cerapan berharga, mendedahkan peranan kritikal setiap komponen terhadap prestasi sistem keseluruhan. Daripada keputusan percubaan, kita dapat melihat dengan jelas bahawa komponen kebolehbalikan memainkan peranan penting dalam rangka kerja keseluruhan. Apabila komponen kritikal ini tiada, prestasi sistem menurun dengan ketara. Ini seterusnya menekankan kepentingan mempertimbangkan kebolehbalikan dalam analisis video dinamik. Pada masa yang sama, walaupun kehilangan komponen fotometri juga membawa kepada kemerosotan prestasi, ia nampaknya tidak mempunyai kesan yang besar terhadap prestasi seperti kebolehbalikan. Di samping itu, walaupun strategi pensampelan bersatu mempunyai kesan tertentu terhadap prestasi, impaknya agak kecil berbanding dengan dua yang pertama. Akhir sekali, pendekatan lengkap menyepadukan semua komponen ini dan menunjukkan kepada kami prestasi terbaik yang boleh dicapai di bawah semua pertimbangan. Secara keseluruhannya, kerja ini memberikan peluang berharga untuk mendapatkan cerapan tentang cara pelbagai komponen dalam analitis video berinteraksi antara satu sama lain dan sumbangan khusus mereka kepada prestasi keseluruhan, dengan itu menekankan keperluan untuk pendekatan bersepadu semasa mereka bentuk dan mengoptimumkan algoritma pemprosesan video KEPENTINGAN#🎜 🎜#

Walau bagaimanapun, seperti kebanyakan kaedah anggaran gerakan, kaedah kami menghadapi kesukaran dalam mengendalikan gerakan pantas dan sangat tidak tegar serta struktur kecil. Dalam senario ini, kaedah surat-menyurat berpasangan mungkin tidak menyediakan surat-menyurat yang boleh dipercayai yang mencukupi untuk kaedah kami mengira gerakan global yang tepat. Selain itu, disebabkan oleh sifat tidak cembung yang tinggi bagi masalah pengoptimuman yang mendasari, kami mendapati bahawa untuk video sukar tertentu, proses pengoptimuman kami boleh menjadi sangat sensitif kepada pemula. Ini boleh menyebabkan minima setempat yang tidak optimum, contohnya, susunan permukaan yang salah atau objek pendua dalam ruang kanonik, yang kadangkala sukar untuk diperbetulkan melalui pengoptimuman.

标题重写：ICCV 2023优秀学生论文跟踪，Github已经获得1.6K star，仿佛魔法般的全面信息！ Akhirnya, pendekatan kami boleh menjadi mahal secara pengiraan dalam bentuk semasa. Pertama, proses pengumpulan aliran melibatkan pengiraan menyeluruh bagi semua aliran berpasangan, yang berkembang secara kuadratik dengan panjang jujukan. Tetapi kami percaya bahawa kebolehskalaan proses ini boleh dipertingkatkan dengan meneroka kaedah pemadanan yang lebih cekap, seperti pepohon perbendaharaan kata atau pemadanan berasaskan kerangka utama, dan mengambil inspirasi daripada gerakan struktur dan kesusasteraan SLAM. Kedua, seperti kaedah lain yang menggunakan perwakilan tersirat saraf, kaedah kami melibatkan proses pengoptimuman yang agak panjang. Penyelidikan terkini dalam bidang ini boleh membantu mempercepatkan proses ini dan seterusnya memanjangkannya kepada urutan yang lebih panjang

6 Kesimpulan Kaedah pengoptimuman masa ujian baharu dicadangkan untuk menganggarkan pergerakan yang lengkap dan konsisten di seluruh dunia video. Perwakilan gerakan video baharu diperkenalkan, dipanggil OmniMotion, yang terdiri daripada volum standard kuasi-3D dan bijeksi kanonik tempatan untuk setiap bingkai. OmniMotion boleh memproses video biasa dengan tetapan kamera dan dinamik pemandangan yang berbeza serta menghasilkan gerakan jarak jauh yang tepat dan lancar melalui oklusi. Penambahbaikan yang ketara berbanding kaedah tercanggih sebelum ini dicapai, secara kualitatif dan kuantitatif.

Kandungan yang perlu ditulis semula ialah: Pautan asal: https://mp.weixin.qq.com/s/HOIi5y9j-JwUImhpHPYgkg# 🎜🎜 #

Atas ialah kandungan terperinci Penulisan semula tajuk: Penjejakan kertas pelajar cemerlang ICCV 2023, Github telah memperoleh 1.6K bintang, maklumat komprehensif seperti sihir!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

4 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang lalu By DDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

4 minggu yang lalu By DDD

<🎜>: Rails Dead - Cara Melengkapkan Setiap Cabaran

1 bulan yang lalu By DDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

2 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7722

Tutorial Java

1642

Tutorial CakePHP

1396

Tutorial Laravel

1289

Tutorial PHP

1233

Tunjukkan Lagi

Related knowledge

Mengapakah Gaussian Splatting begitu popular dalam pemanduan autonomi sehingga NeRF mula ditinggalkan? Jan 17, 2024 pm 02:57 PM

Ditulis di atas & pemahaman peribadi pengarang Gaussiansplatting tiga dimensi (3DGS) ialah teknologi transformatif yang telah muncul dalam bidang medan sinaran eksplisit dan grafik komputer dalam beberapa tahun kebelakangan ini. Kaedah inovatif ini dicirikan oleh penggunaan berjuta-juta Gaussians 3D, yang sangat berbeza daripada kaedah medan sinaran saraf (NeRF), yang terutamanya menggunakan model berasaskan koordinat tersirat untuk memetakan koordinat spatial kepada nilai piksel. Dengan perwakilan adegan yang eksplisit dan algoritma pemaparan yang boleh dibezakan, 3DGS bukan sahaja menjamin keupayaan pemaparan masa nyata, tetapi juga memperkenalkan tahap kawalan dan pengeditan adegan yang tidak pernah berlaku sebelum ini. Ini meletakkan 3DGS sebagai penukar permainan yang berpotensi untuk pembinaan semula dan perwakilan 3D generasi akan datang. Untuk tujuan ini, kami menyediakan gambaran keseluruhan sistematik tentang perkembangan dan kebimbangan terkini dalam bidang 3DGS buat kali pertama.

Bagaimana untuk menyelesaikan masalah ekor panjang dalam senario pemanduan autonomi? Jun 02, 2024 pm 02:44 PM

Semalam semasa temu bual, saya telah ditanya sama ada saya telah membuat sebarang soalan berkaitan ekor panjang, jadi saya fikir saya akan memberikan ringkasan ringkas. Masalah ekor panjang pemanduan autonomi merujuk kepada kes tepi dalam kenderaan autonomi, iaitu, kemungkinan senario dengan kebarangkalian yang rendah untuk berlaku. Masalah ekor panjang yang dirasakan adalah salah satu sebab utama yang kini mengehadkan domain reka bentuk pengendalian kenderaan autonomi pintar satu kenderaan. Seni bina asas dan kebanyakan isu teknikal pemanduan autonomi telah diselesaikan, dan baki 5% masalah ekor panjang secara beransur-ansur menjadi kunci untuk menyekat pembangunan pemanduan autonomi. Masalah ini termasuk pelbagai senario yang berpecah-belah, situasi yang melampau dan tingkah laku manusia yang tidak dapat diramalkan. "Ekor panjang" senario tepi dalam pemanduan autonomi merujuk kepada kes tepi dalam kenderaan autonomi (AVs) kes Edge adalah senario yang mungkin dengan kebarangkalian yang rendah untuk berlaku. kejadian yang jarang berlaku ini

Pilih kamera atau lidar? Kajian terbaru tentang mencapai pengesanan objek 3D yang mantap Jan 26, 2024 am 11:18 AM

0. Ditulis di hadapan&& Pemahaman peribadi bahawa sistem pemanduan autonomi bergantung pada persepsi lanjutan, membuat keputusan dan teknologi kawalan, dengan menggunakan pelbagai penderia (seperti kamera, lidar, radar, dll.) untuk melihat persekitaran sekeliling dan menggunakan algoritma dan model untuk analisis masa nyata dan membuat keputusan. Ini membolehkan kenderaan mengenali papan tanda jalan, mengesan dan menjejaki kenderaan lain, meramalkan tingkah laku pejalan kaki, dsb., dengan itu selamat beroperasi dan menyesuaikan diri dengan persekitaran trafik yang kompleks. Teknologi ini kini menarik perhatian meluas dan dianggap sebagai kawasan pembangunan penting dalam pengangkutan masa depan satu. Tetapi apa yang menyukarkan pemanduan autonomi ialah memikirkan cara membuat kereta itu memahami perkara yang berlaku di sekelilingnya. Ini memerlukan algoritma pengesanan objek tiga dimensi dalam sistem pemanduan autonomi boleh melihat dan menerangkan dengan tepat objek dalam persekitaran sekeliling, termasuk lokasinya,

Adakah anda benar-benar menguasai penukaran sistem koordinat? Isu berbilang sensor yang tidak dapat dipisahkan daripada pemanduan autonomi Oct 12, 2023 am 11:21 AM

Artikel perintis dan utama pertama terutamanya memperkenalkan beberapa sistem koordinat yang biasa digunakan dalam teknologi pemanduan autonomi, dan cara melengkapkan korelasi dan penukaran antara mereka, dan akhirnya membina model persekitaran bersatu. Fokus di sini adalah untuk memahami penukaran daripada kenderaan kepada badan tegar kamera (parameter luaran), penukaran kamera kepada imej (parameter dalaman) dan penukaran unit imej kepada piksel. Penukaran daripada 3D kepada 2D akan mempunyai herotan, terjemahan, dsb. Perkara utama: Sistem koordinat kenderaan dan sistem koordinat badan kamera perlu ditulis semula: sistem koordinat satah dan sistem koordinat piksel Kesukaran: herotan imej mesti dipertimbangkan Kedua-dua penyahherotan dan penambahan herotan diberi pampasan pada satah imej. 2. Pengenalan Terdapat empat sistem penglihatan secara keseluruhannya: sistem koordinat satah piksel (u, v), sistem koordinat imej (x, y), sistem koordinat kamera () dan sistem koordinat dunia (). Terdapat hubungan antara setiap sistem koordinat,

Kertas Stable Diffusion 3 akhirnya telah dikeluarkan, dan butiran seni bina didedahkan Adakah ia akan membantu untuk menghasilkan semula Sora? Mar 06, 2024 pm 05:34 PM

Kertas StableDiffusion3 akhirnya di sini! Model ini dikeluarkan dua minggu lalu dan menggunakan seni bina DiT (DiffusionTransformer) yang sama seperti Sora. Ia menimbulkan kekecohan apabila ia dikeluarkan. Berbanding dengan versi sebelumnya, kualiti imej yang dijana oleh StableDiffusion3 telah dipertingkatkan dengan ketara Ia kini menyokong gesaan berbilang tema, dan kesan penulisan teks juga telah dipertingkatkan, dan aksara bercelaru tidak lagi muncul. StabilityAI menegaskan bahawa StableDiffusion3 ialah satu siri model dengan saiz parameter antara 800M hingga 8B. Julat parameter ini bermakna model boleh dijalankan terus pada banyak peranti mudah alih, dengan ketara mengurangkan penggunaan AI

SIMPL: Penanda aras ramalan gerakan berbilang ejen yang mudah dan cekap untuk pemanduan autonomi Feb 20, 2024 am 11:48 AM

Tajuk asal: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving Paper pautan: https://arxiv.org/pdf/2402.02519.pdf Pautan kod: https://github.com/HKUST-Aerial-Robotics/SIMPL Unit pengarang: Universiti Sains Hong Kong dan Teknologi Idea Kertas DJI: Kertas kerja ini mencadangkan garis dasar ramalan pergerakan (SIMPL) yang mudah dan cekap untuk kenderaan autonomi. Berbanding dengan agen-sen tradisional

Artikel ini sudah cukup untuk anda membaca tentang pemanduan autonomi dan ramalan trajektori! Feb 28, 2024 pm 07:20 PM

Ramalan trajektori memainkan peranan penting dalam pemanduan autonomi Ramalan trajektori pemanduan autonomi merujuk kepada meramalkan trajektori pemanduan masa hadapan kenderaan dengan menganalisis pelbagai data semasa proses pemanduan kenderaan. Sebagai modul teras pemanduan autonomi, kualiti ramalan trajektori adalah penting untuk kawalan perancangan hiliran. Tugas ramalan trajektori mempunyai timbunan teknologi yang kaya dan memerlukan kebiasaan dengan persepsi dinamik/statik pemanduan autonomi, peta ketepatan tinggi, garisan lorong, kemahiran seni bina rangkaian saraf (CNN&GNN&Transformer), dll. Sangat sukar untuk bermula! Ramai peminat berharap untuk memulakan ramalan trajektori secepat mungkin dan mengelakkan perangkap Hari ini saya akan mengambil kira beberapa masalah biasa dan kaedah pembelajaran pengenalan untuk ramalan trajektori! Pengetahuan berkaitan pengenalan 1. Adakah kertas pratonton teratur? A: Tengok survey dulu, hlm

Mari kita bincangkan tentang sistem pemanduan autonomi hujung ke hujung dan generasi seterusnya, serta beberapa salah faham tentang pemanduan autonomi hujung ke hujung? Apr 15, 2024 pm 04:13 PM

Pada bulan lalu, atas sebab-sebab yang diketahui umum, saya telah mengadakan pertukaran yang sangat intensif dengan pelbagai guru dan rakan sekelas dalam industri. Topik yang tidak dapat dielakkan dalam pertukaran secara semula jadi adalah hujung ke hujung dan Tesla FSDV12 yang popular. Saya ingin mengambil kesempatan ini untuk menyelesaikan beberapa buah fikiran dan pendapat saya pada masa ini untuk rujukan dan perbincangan anda. Bagaimana untuk mentakrifkan sistem pemanduan autonomi hujung ke hujung, dan apakah masalah yang sepatutnya dijangka diselesaikan hujung ke hujung? Menurut definisi yang paling tradisional, sistem hujung ke hujung merujuk kepada sistem yang memasukkan maklumat mentah daripada penderia dan secara langsung mengeluarkan pembolehubah yang membimbangkan tugas. Sebagai contoh, dalam pengecaman imej, CNN boleh dipanggil hujung-ke-hujung berbanding kaedah pengekstrak ciri + pengelas tradisional. Dalam tugas pemanduan autonomi, masukkan data daripada pelbagai penderia (kamera/LiDAR

See all articles