Kajian semula kaedah visual untuk ramalan trajektori
Kertas ulasan baru-baru ini "Ramalan Trajektori Dengan Visi: Satu Tinjauan" datang daripada syarikat Hyundai dan Aptiv, Motional, bagaimanapun, merujuk kepada artikel ulasan "Niat Berasaskan Visi dan Ramalan Trajektori dalam Kenderaan Autonomi: Satu Tinjauan" oleh Oxford; Universiti".
Tugas ramalan pada asasnya dibahagikan kepada dua bahagian: 1) Niat, iaitu tugas klasifikasi yang pra-reka set kelas niat untuk ejen ia biasanya dianggap sebagai masalah pembelajaran yang diselia, dan ia adalah perlu untuk melabelkan kemungkinan niat Pengelasan ejen; 2) Trajektori, yang memerlukan meramalkan satu set kemungkinan kedudukan ejen dalam bingkai masa hadapan yang berikutnya, yang dipanggil titik laluan; ini membentuk interaksi antara ejen dan antara ejen dan jalan.
Model ramalan tingkah laku sebelum ini boleh dibahagikan kepada tiga kategori: model berasaskan fizik, berasaskan manuver dan persepsi interaksi. Ayat ini boleh ditulis semula sebagai: Menggunakan persamaan dinamik model fizikal, pergerakan yang boleh dikawal secara buatan direka bentuk untuk pelbagai jenis agen. Kaedah ini tidak boleh memodelkan keadaan potensi keseluruhan situasi, tetapi biasanya hanya memfokuskan pada ejen tertentu. Walau bagaimanapun, pada era sebelum pembelajaran mendalam, trend ini pernah menjadi SOTA. Model berasaskan manuver ialah model berdasarkan jenis pergerakan yang diharapkan oleh ejen. Model sedar interaksi biasanya sistem berasaskan pembelajaran mesin yang melakukan inferens berpasangan untuk setiap ejen dalam adegan dan menjana ramalan sedar interaksi untuk semua ejen dinamik. Terdapat tahap korelasi yang tinggi antara sasaran ejen berdekatan yang berbeza di tempat kejadian. Memodelkan modul perhatian trajektori ejen kompleks boleh membawa kepada generalisasi yang lebih baik.
Meramalkan tindakan atau peristiwa masa depan boleh menjadi tersirat, atau trajektori masa depannya boleh menjadi eksplisit. Niat ejen mungkin dipengaruhi oleh: a) kepercayaan atau kehendak ejen sendiri (yang sering tidak dipatuhi dan oleh itu sukar untuk dimodelkan b) interaksi sosial, yang boleh dimodelkan dengan cara yang berbeza, cth , dsb.; c) kekangan persekitaran, seperti susun atur jalan, yang boleh dikodkan melalui peta definisi tinggi (HD) d) maklumat latar belakang dalam bentuk bingkai imej RGB, awan titik lidar, aliran optik, Rajah segmentasi dsb. Ramalan trajektori, sebaliknya, adalah masalah yang lebih mencabar kerana ia melibatkan regresi (berterusan) dan bukannya masalah klasifikasi, tidak seperti mengiktiraf niat.
Trajektori dan niat perlu bermula dari kesedaran interaksi. Andaian yang munasabah ialah apabila cuba memandu secara agresif ke lebuh raya dengan trafik yang sesak, kenderaan yang lalu lalang mungkin membrek dengan kuat. Permodelan. Adalah lebih baik untuk membuat model dalam ruang BEV, yang membolehkan ramalan trajektori, tetapi juga dalam paparan imej (juga dipanggil perspektif). Ayat ini boleh ditulis semula sebagai: "Ini kerana kawasan kepentingan (RoI) boleh ditetapkan dalam bentuk grid kepada julat jarak khusus.". Walau bagaimanapun, disebabkan garisan yang hilang dalam perspektif, perspektif imej secara teorinya boleh mengembangkan RoI tanpa had. Ruang BEV lebih sesuai untuk pemodelan oklusi kerana ia memodelkan pergerakan secara lebih linear. Dengan melakukan anggaran sikap (terjemahan dan pusingan kenderaan sendiri), pampasan gerakan sendiri boleh dilakukan dengan mudah. Di samping itu, ruang ini mengekalkan gerakan dan skala ejen, iaitu, kenderaan di sekeliling akan menduduki bilangan piksel BEV yang sama tanpa mengira jaraknya dari kenderaan sendiri tetapi ini tidak berlaku dengan perspektif imej. Untuk meramal masa depan, seseorang perlu mempunyai pemahaman tentang masa lalu. Ini biasanya boleh dilakukan melalui penjejakan, atau ia boleh dilakukan dengan ciri BEV agregat sejarah.
Rajah berikut ialah gambar rajah blok beberapa komponen dan aliran data model ramalan:
Jadual berikut ialah ringkasan model ramalan:
Berikut pada asasnya membincangkan model ramalan dari perspektif input/output:
1) Tracklet: Modul persepsi meramalkan status semasa semua dinamik ejen. Keadaan ini termasuk pusat 3-D, dimensi, halaju, pecutan dan atribut lain. Penjejak boleh memanfaatkan data ini dan mewujudkan persatuan sementara supaya setiap penjejak boleh mengekalkan sejarah keadaan semua ejen. Kini, setiap tracklet mewakili pergerakan masa lalu ejen. Bentuk model ramalan ini adalah yang paling mudah kerana inputnya hanya terdiri daripada trajektori yang jarang. Penjejak yang baik dapat menjejaki ejen walaupun ia tersekat dalam bingkai semasa. Memandangkan penjejak tradisional adalah berdasarkan rangkaian pembelajaran bukan mesin, ia menjadi sangat sukar untuk melaksanakan model hujung ke hujung.
2) Data penderia mentah: Ini ialah kaedah hujung ke hujung Model memperoleh maklumat data penderia mentah dan meramalkan ramalan trajektori setiap ejen di tempat kejadian. Kaedah ini mungkin mempunyai output tambahan atau tidak dan kerugiannya untuk menyelia latihan yang kompleks. Kelemahan pendekatan jenis ini ialah input adalah intensif maklumat dan mahal dari segi pengiraan. Ini disebabkan oleh penggabungan tiga masalah persepsi, pengesanan dan ramalan, menjadikan model sukar dibangunkan dan lebih sukar untuk mencapai penumpuan.
3) Camera-vs-BEV: Kaedah BEV memproses data daripada peta paparan atas, dan algoritma ramalan kamera melihat dunia dari perspektif kenderaan sendiri biasanya lebih mencabar daripada yang pertama pelbagai sebab; pertama, dari persepsi BEV boleh mendapatkan medan pandangan yang lebih luas dan maklumat ramalan yang lebih kaya Selain itu, kamera lebih cenderung untuk disekat, jadi ia berbeza daripada kamera berdasarkan Berbanding dengan kaedah kamera, kaedah BEV tertakluk kepada lebih sedikit cabaran "separa pemerhatian" kedua, melainkan data lidar tersedia, penglihatan bermata sukar bagi algoritma untuk menyimpulkan kedalaman ejen yang dipersoalkan, yang merupakan petunjuk penting untuk meramalkan kelakuannya ; Akhirnya, kamera bergerak, yang memerlukan pemprosesan pergerakan ejen dan kenderaan sendiri, yang berbeza daripada BEV statik; Satu kata berhati-hati: Sebagai kelemahan, kaedah perwakilan BEV masih mempunyai masalah ralat terkumpul walaupun ia sedang memproses pandangan kamera Terdapat cabaran yang wujud, tetapi ia masih lebih praktikal daripada BEV, dan kereta jarang mempunyai akses kepada kamera yang menunjukkan lokasi BEV dan ejen berkenaan di jalan raya. Kesimpulannya ialah sistem ramalan seharusnya dapat melihat dunia dari perspektif kenderaan sendiri, termasuk lidar dan/atau kamera stereo, yang datanya mungkin berfaedah untuk melihat dunia dalam 3D satu lagi perkara penting yang berkaitan; masa jika perhatian mesti disertakan Apabila meramalkan kedudukan ejen, lebih baik menggunakan kedudukan kotak sempadan daripada titik tengah tulen, kerana koordinat bekas menunjukkan perubahan dalam jarak relatif antara kenderaan dan pejalan kaki juga sebagai gerakan kendiri kamera; dengan kata lain, sebagai ejen Apabila badan menghampiri kenderaan sendiri, kotak sempadan menjadi lebih besar, memberikan anggaran kedalaman tambahan (walaupun awal).
4) Ramalan gerakan diri: Modelkan gerakan kenderaan sendiri untuk menjana trajektori yang lebih tepat. Pendekatan lain menggunakan rangkaian dalam atau model dinamik untuk memodelkan gerakan ejen yang diminati, memanfaatkan kuantiti tambahan yang dikira daripada input set data, seperti pose, aliran optik, peta semantik dan peta haba.
5) Pengekodan domain masa: Memandangkan persekitaran pemanduan adalah dinamik dan terdapat banyak ejen aktif, adalah perlu untuk mengekod dalam dimensi masa ejen untuk membina sistem ramalan yang lebih baik yang membandingkan apa yang berlaku pada masa lalu dengan The masa depan disambungkan dengan apa yang berlaku sekarang; mengetahui dari mana ejen itu berasal membantu meneka ke mana ejen mungkin pergi seterusnya struktur.
6) Pengekodan sosial: Untuk menangani cabaran "berbilang ejen", kebanyakan algoritma berprestasi terbaik menggunakan pelbagai jenis rangkaian saraf graf (GNN) untuk mengekod interaksi sosial antara ejen kebanyakan Kaedah mengekod temporal dan dimensi sosial secara berasingan—sama ada bermula dengan dimensi temporal dan kemudian mempertimbangkan dimensi sosial, atau dalam susunan terbalik terdapat model berasaskan Transformer yang mengekod kedua-dua dimensi secara serentak.
7) Ramalan berdasarkan matlamat yang dijangkakan: Ramalan niat tingkah laku, seperti konteks adegan, biasanya dipengaruhi oleh matlamat jangkaan yang berbeza dan harus disimpulkan melalui penjelasan untuk ramalan masa depan yang dikondisikan pada matlamat yang dijangkakan, matlamat ini akan dimodelkan sebagai keadaan masa depan (ditakrifkan sebagai koordinat destinasi) atau jenis pergerakan yang dijangka oleh ejen dalam bidang neurosains dan penglihatan komputer menunjukkan bahawa orang biasanya ejen berorientasikan matlamat sebagai tambahan, semasa membuat keputusan, orang Mengikuti satu siri peringkat berturut-turut; penaakulan, akhirnya merumuskan rancangan jangka pendek atau panjang berdasarkan ini, soalan boleh dibahagikan kepada dua kategori: yang pertama adalah kognitif, menjawab soalan ke mana ejen itu pergi; bagaimana ejen ini mencapai matlamat yang dimaksudkan.
8) Ramalan pelbagai mod: Memandangkan persekitaran jalan raya adalah stokastik, trajektori sebelumnya boleh membentangkan trajektori masa depan yang berbeza, oleh itu, sistem ramalan praktikal yang menyelesaikan cabaran "stochasticity" akan memberi impak yang besar kepada masalah itu .
Atas ialah kandungan terperinci Kajian semula kaedah visual untuk ramalan trajektori. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Kawalan Apl Pintar ialah alat yang sangat berguna dalam Windows 11 yang membantu melindungi PC anda daripada apl tidak dibenarkan yang boleh merosakkan data anda, seperti perisian tebusan atau perisian intip. Artikel ini menerangkan maksud Kawalan Aplikasi Pintar, cara ia berfungsi dan cara menghidupkan atau mematikannya dalam Windows 11. Apakah Kawalan Aplikasi Pintar dalam Windows 11? Kawalan Aplikasi Pintar (SAC) ialah ciri keselamatan baharu yang diperkenalkan dalam kemas kini Windows 1122H2. Ia berfungsi dengan Microsoft Defender atau perisian antivirus pihak ketiga untuk menyekat apl yang mungkin tidak diperlukan yang boleh memperlahankan peranti anda, memaparkan iklan yang tidak dijangka atau melakukan tindakan lain yang tidak dijangka. Aplikasi pintar

Ditulis sebelum ini, hari ini kita membincangkan bagaimana teknologi pembelajaran mendalam boleh meningkatkan prestasi SLAM berasaskan penglihatan (penyetempatan dan pemetaan serentak) dalam persekitaran yang kompleks. Dengan menggabungkan kaedah pengekstrakan ciri dalam dan pemadanan kedalaman, di sini kami memperkenalkan sistem SLAM visual hibrid serba boleh yang direka untuk meningkatkan penyesuaian dalam senario yang mencabar seperti keadaan cahaya malap, pencahayaan dinamik, kawasan bertekstur lemah dan seks yang teruk. Sistem kami menyokong berbilang mod, termasuk konfigurasi monokular, stereo, monokular-inersia dan stereo-inersia lanjutan. Selain itu, ia juga menganalisis cara menggabungkan SLAM visual dengan kaedah pembelajaran mendalam untuk memberi inspirasi kepada penyelidikan lain. Melalui percubaan yang meluas pada set data awam dan data sampel sendiri, kami menunjukkan keunggulan SL-SLAM dari segi ketepatan kedudukan dan keteguhan penjejakan.

Dengan kebolehan tiruan AI yang begitu kuat, ia benar-benar mustahil untuk menghalangnya, sama sekali mustahil untuk menghalangnya. Adakah pembangunan AI mencapai tahap ini sekarang? Kaki hadapan anda membuat ciri-ciri wajah anda terbang, dan pada kaki belakang anda, ekspresi yang sama direproduksi Menatap, mengangkat kening, mencebik, tidak kira betapa berlebihan ekspresi itu, semuanya ditiru dengan sempurna. Tingkatkan kesukaran, angkat kening lebih tinggi, buka mata lebih luas, malah bentuk mulutnya bengkok, dan avatar watak maya dapat menghasilkan semula ekspresi dengan sempurna. Apabila anda melaraskan parameter di sebelah kiri, avatar maya di sebelah kanan juga akan menukar pergerakannya dengan sewajarnya untuk memberikan gambaran dekat mulut dan mata Tiruan itu tidak boleh dikatakan sama, tetapi ungkapan itu betul-betul sama (paling kanan). Penyelidikan ini datang dari institusi seperti Universiti Teknikal Munich, yang mencadangkan GaussianAvatars, yang

1 Pengenalan Medan Sinaran Neural (NeRF) adalah paradigma yang agak baharu dalam bidang pembelajaran mendalam dan penglihatan komputer. Teknologi ini telah diperkenalkan dalam kertas kerja ECCV2020 "NeRF: Mewakili Pemandangan sebagai Medan Sinaran Neural untuk Sintesis Pandangan" (yang memenangi Anugerah Kertas Terbaik) dan sejak itu telah menjadi sangat popular, dengan hampir 800 petikan sehingga kini [1]. Pendekatan ini menandakan perubahan besar dalam cara tradisional pembelajaran mesin memproses data 3D. Perwakilan pemandangan medan sinaran saraf dan proses pemaparan yang boleh dibezakan: imej komposit dengan mensampel koordinat 5D (kedudukan dan arah tontonan) sepanjang sinar kamera menyuapkan kedudukan ini ke dalam MLP untuk menghasilkan ketumpatan warna dan isipadu dan menggabungkan nilai ini menggunakan imej teknik pemaparan volumetrik; ; fungsi rendering boleh dibezakan, jadi ia boleh diluluskan

Penyelesaian anotasi visual semata-mata menggunakan penglihatan serta beberapa data daripada GPS, IMU dan penderia kelajuan roda untuk anotasi dinamik. Sudah tentu, untuk senario pengeluaran besar-besaran, ia tidak semestinya visual semata-mata. Sesetengah kenderaan yang dihasilkan secara besar-besaran akan mempunyai penderia seperti radar keadaan pepejal (AT128). Jika kami mencipta gelung tertutup data dari perspektif pengeluaran besar-besaran dan menggunakan semua penderia ini, kami boleh menyelesaikan masalah pelabelan objek dinamik dengan berkesan. Tetapi tiada radar keadaan pepejal dalam rancangan kami. Oleh itu, kami akan memperkenalkan penyelesaian pelabelan pengeluaran besar-besaran yang paling biasa ini. Teras penyelesaian anotasi visual semata-mata terletak pada pembinaan semula pose berketepatan tinggi. Kami menggunakan skema pembinaan semula pose Structure from Motion (SFM) untuk memastikan ketepatan pembinaan semula. Tetapi lulus

Artikel ini dicetak semula dengan kebenaran daripada akaun awam Autonomous Driving Heart. Sila hubungi sumber untuk mencetak semula. Tajuk asal: MotionLM: Multi-Agent Motion Forecasting as Language Modelling Paper pautan: https://arxiv.org/pdf/2309.16534.pdf Gabungan pengarang: Waymo Conference: ICCV2023 Idea kertas: Untuk perancangan keselamatan kenderaan autonomi, ramalkan tingkah laku masa hadapan dengan pasti ejen jalan raya adalah penting. Kajian ini mewakili trajektori berterusan sebagai jujukan token gerakan diskret dan menganggap ramalan gerakan berbilang agen sebagai tugas pemodelan bahasa. Model yang kami cadangkan, MotionLM, mempunyai kelebihan berikut: Pertama

Ditulis di atas & Pemahaman peribadi penulis Dalam beberapa tahun kebelakangan ini, pemanduan autonomi telah mendapat perhatian yang semakin meningkat kerana potensinya untuk mengurangkan beban pemandu dan meningkatkan keselamatan pemanduan. Ramalan penghunian tiga dimensi berasaskan penglihatan ialah tugas persepsi yang muncul yang sesuai untuk penyiasatan kos efektif dan komprehensif tentang keselamatan pemanduan autonomi. Walaupun banyak kajian telah menunjukkan keunggulan alat ramalan penghunian 3D berbanding tugas persepsi berpusatkan objek, masih terdapat ulasan khusus untuk bidang yang sedang berkembang pesat ini. Kertas kerja ini mula-mula memperkenalkan latar belakang ramalan penghunian 3D berasaskan penglihatan dan membincangkan cabaran yang dihadapi dalam tugasan ini. Seterusnya, kami membincangkan secara menyeluruh status semasa dan trend pembangunan kaedah ramalan penghunian 3D semasa daripada tiga aspek: peningkatan ciri, kemesraan penggunaan dan kecekapan pelabelan. akhirnya

Majalah "ComputerWorld" pernah menulis artikel yang mengatakan bahawa "pengaturcaraan akan hilang menjelang 1960" kerana IBM membangunkan bahasa baharu FORTRAN, yang membolehkan jurutera menulis formula matematik yang mereka perlukan dan kemudian menyerahkannya kepada komputer, jadi pengaturcaraan tamat. Beberapa tahun kemudian, kami mendengar pepatah baru: mana-mana ahli perniagaan boleh menggunakan istilah perniagaan untuk menerangkan masalah mereka dan memberitahu komputer apa yang perlu dilakukan Menggunakan bahasa pengaturcaraan yang dipanggil COBOL ini, syarikat tidak lagi memerlukan pengaturcara. Kemudian, dikatakan bahawa IBM membangunkan bahasa pengaturcaraan baharu yang dipanggil RPG yang membolehkan pekerja mengisi borang dan menjana laporan, jadi kebanyakan keperluan pengaturcaraan syarikat dapat diselesaikan melaluinya.
