MotionLM: Teknologi pemodelan bahasa untuk ramalan gerakan berbilang ejen-AI-php.cn

MotionLM: Teknologi pemodelan bahasa untuk ramalan gerakan berbilang ejen

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Lepaskan： 2023-10-13 12:09:05

ke hadapan

1687 orang telah melayarinya

Artikel ini dicetak semula dengan kebenaran akaun awam Autonomous Driving Heart Sila hubungi sumber untuk mencetak semula.

Tajuk asal: MotionLM: Multi-Agent Motion Forecasting as Language Modelling

Pautan kertas: https://arxiv.org/pdf/2309.16534.pdf

Unit pengarang: Waymo

Persidangan: ICC MotionLM: Teknologi pemodelan bahasa untuk ramalan gerakan berbilang ejen

Idea tesis:

Untuk perancangan keselamatan kenderaan autonomi, adalah penting untuk meramal dengan pasti tingkah laku ejen jalan raya pada masa hadapan. Kajian ini mewakili trajektori berterusan sebagai jujukan token gerakan diskret dan menganggap ramalan gerakan berbilang agen sebagai tugas pemodelan bahasa. Model cadangan kami, MotionLM, mempunyai beberapa kelebihan: Pertama, ia tidak memerlukan penggunaan titik penambat atau pembolehubah terpendam eksplisit untuk mempelajari pengedaran pelbagai mod secara optimum. Sebaliknya, kami mengeksploitasi objektif pemodelan bahasa standard untuk memaksimumkan kebarangkalian log purata token jujukan. Kedua, pendekatan kami mengelakkan heuristik interaksi post hoc, di mana penjanaan trajektori ejen individu berlaku selepas pemarkahan interaksi. Sebaliknya, MotionLM menjana pengedaran bersama niaga hadapan ejen interaktif dalam satu proses penyahkodan autoregresif. Di samping itu, penguraian berjujukan model membolehkan inferens keadaan penyebab temporal. Kaedah cadangan kami mencapai prestasi tercanggih baharu pada Set Data Gerakan Terbuka Waymo, menduduki tempat pertama pada papan pendahulu cabaran interaktif

Sumbangan Utama:

Dalam artikel ini, kami membentangkan ramalan gerakan berbilang ejen sebagai Bahasa tugas pemodelan dibincangkan. Kami memperkenalkan penyahkod kausa temporal untuk menyahkod token gerakan diskret yang dilatih dengan kehilangan pemodelan bahasa penyebab

Kertas kerja ini akan menggabungkan pensampelan dalam model dengan skema pengagregatan pelancaran mudah untuk meningkatkan keupayaan pengecaman corak berwajaran bagi trajektori bersama. Melalui percubaan dalam cabaran ramalan interaksi Set Data Gerakan Terbuka Waymo, kami menunjukkan bahawa kaedah baharu ini meningkatkan kedudukan metrik mAP bersama sebanyak 6% dan mencapai tahap prestasi tercanggih

Makalah ini menjalankan semakan meluas kaedah kami eksperimen ablasi dan menganalisis ramalan bersyarat penyebab temporalnya, yang sebahagian besarnya tidak disokong oleh model ramalan bersama semasa.

Reka Bentuk Rangkaian:

Matlamat kertas kerja ini adalah untuk memodelkan pengedaran ke atas interaksi berbilang ejen secara umum yang boleh digunakan untuk tugas hiliran yang berbeza, termasuk ramalan minimum, bersama dan bersyarat. Untuk mencapai matlamat ini, rangka kerja generatif ekspresif diperlukan yang boleh menangkap pelbagai morfologi dalam senario pemanduan. Selain itu, kami mempertimbangkan penjimatan kebergantungan masa di sini; iaitu, dalam model kami, inferens mengikut graf akiklik berarah, dengan setiap nod induk nod berada lebih awal dalam masa dan nod anaknya lebih lewat, yang menjadikan ramalan bersyarat lebih dekat kepada sebab. campur tangan kerana ia menghapuskan korelasi palsu tertentu yang sebaliknya akan membawa kepada ketidakpatuhan kepada kausalitas sementara. Makalah ini memerhatikan bahawa model bersama yang tidak mengekalkan kebergantungan temporal mungkin mempunyai keupayaan terhad untuk meramalkan tindak balas ejen sebenar, kegunaan utama dalam perancangan. Untuk tujuan ini, kertas kerja ini menggunakan penguraian autoregresif bagi penyahkod masa hadapan, di mana token gerakan ejen bergantung secara bersyarat pada semua token sampel sebelum ini, dan trajektori diperoleh secara berurutan

MotionLM: Teknologi pemodelan bahasa untuk ramalan gerakan berbilang ejen

Rajah 1. Model kami secara autoregresif menjana jujukan token gerakan diskret untuk satu set ejen untuk menghasilkan ramalan trajektori interaktif yang konsisten.

MotionLM: Teknologi pemodelan bahasa untuk ramalan gerakan berbilang ejen

Sila lihat Rajah 2, iaitu seni bina MotionLM

Kertas ini mula-mula mengekodkan ciri pemandangan heterogen (kiri) yang dikaitkan dengan setiap ejen pemodelan ke dalam benam pemandangan bentuk R, N,·,H. Antaranya, R ialah bilangan pelancaran, N ialah bilangan ejen yang dimodelkan bersama, dan H ialah dimensi bagi setiap pembenaman. Semasa proses inferens, untuk menyelaraskan persampelan, kertas ini mengulangi benam R kali dalam dimensi kelompok. Seterusnya, penyahkod trajektori melancarkan token gerakan diskret T untuk berbilang ejen dengan cara bersebab sementara (tengah). Akhir sekali, corak tipikal pelancaran boleh dipulihkan dengan pengagregatan ringkas k-means kluster menggunakan pemula penindasan bukan maksimum (panel kanan).

MotionLM: Teknologi pemodelan bahasa untuk ramalan gerakan berbilang ejen

Gambar 3. Dua mod pelancaran bersama ramalan pertama untuk tiga senario WOMD ditunjukkan. 🎜

Kecerunan warna mewakili perubahan masa daripada t = 0 saat kepada t = 8 saat. Mod gabungan beralih daripada hijau ke biru, dan mod subsendi beralih daripada oren kepada ungu dengan kebarangkalian tertinggi. Kami memerhatikan tiga jenis interaksi: ejen di lorong bersebelahan akan memberi laluan kepada ejen menukar lorong mengikut masa menukar lorong (kiri), pejalan kaki akan berjalan di belakang kenderaan yang lalu mengikut kemajuan kenderaan (tengah), dan kenderaan membelok akan sama ada Akan memberi laluan kepada penunggang basikal (kemungkinan besar mod), atau berpusing sebelum penunggang basikal menghampiri (mod kecil) (sebelah kanan)

MotionLM: Teknologi pemodelan bahasa untuk ramalan gerakan berbilang ejen

Sila lihat Rajah 4. Angka ini menunjukkan perwakilan rangkaian Bayesian kausal bagi aruhan sendi (kiri), rangkaian Bayesian kausal pasca intervensi (tengah) dan pelaziman kausal (kanan)

Garis pepejal mewakili korelasi sebab akibat dalam masa, manakala garisan putus-putus mewakili aliran maklumat sebab. Model tanpa kekangan bergantung masa akan menyokong pelaziman sebab-akibat tetapi bukan pelaziman sebab-akibat temporal, yang boleh menjadi masalah apabila cuba meramalkan tindak balas ejen.

Hasil eksperimen:

MotionLM: Teknologi pemodelan bahasa untuk ramalan gerakan berbilang ejen

🎜🎜🎜🎜🎜 🎜 🎜🎜Seff, A., Cera, B., Chen, D. , Ng, M., Zhou, A., Nayakanti, N., Refaat, K. S., & Sapp, B. (2023 MotionLM: Multi-Agent Motion Forecasting as Language Modeling.🎜 🎜ArXiv/2309.16534🎜🎜). 🎜🎜🎜Pautan asal: https://mp.weixin.qq.com/s/MTai0rA8PeNFuj7UjCfd6A🎜

Atas ialah kandungan terperinci MotionLM: Teknologi pemodelan bahasa untuk ramalan gerakan berbilang ejen. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!