Artikel ini cuba membuka "mata" tangkapan gerakan inersia. Dengan memakai kamera telefon tambahan, algoritma kami mempunyai "penglihatan." Ia boleh mengesan maklumat alam sekitar semasa menangkap pergerakan manusia, dengan itu mencapai kedudukan tepat badan manusia. Penyelidikan ini datang daripada pasukan Xu Feng di Universiti Tsinghua dan telah diterima oleh SIGGRAPH2023, persidangan antarabangsa teratas dalam bidang grafik komputer.
Dengan perkembangan teknologi komputer, persepsi tubuh manusia dan persepsi persekitaran telah menjadi sangat diperlukan dalam kecerdasan moden aplikasi dua bahagian. Teknologi penderiaan badan manusia boleh merealisasikan interaksi manusia-komputer, penjagaan perubatan pintar, permainan dan aplikasi lain dengan menangkap pergerakan dan tindakan tubuh manusia. Teknologi pengesan alam sekitar boleh merealisasikan aplikasi seperti pembinaan semula tiga dimensi, analisis pemandangan dan navigasi pintar dengan membina semula model pemandangan. Kedua-dua tugas saling bergantung, tetapi kebanyakan teknologi sedia ada di dalam dan luar negara mengendalikannya secara bebas. Pasukan penyelidik percaya bahawa persepsi gabungan pergerakan manusia dan persekitaran adalah sangat penting untuk senario di mana manusia berinteraksi dengan alam sekitar. Pertama, penderiaan serentak tubuh manusia dan alam sekitar boleh meningkatkan kecekapan dan keselamatan interaksi manusia dengan alam sekitar. Contohnya, dalam kereta pandu sendiri, mengesan tingkah laku pemandu dan persekitaran sekeliling secara serentak boleh memastikan keselamatan dan kelancaran pemanduan dengan lebih baik. Kedua, persepsi serentak terhadap tubuh manusia dan alam sekitar boleh mencapai tahap interaksi manusia-komputer yang lebih tinggi Contohnya, dalam realiti maya dan realiti tambahan, persepsi serentak terhadap tindakan pengguna dan persekitaran sekeliling boleh mencapai pengalaman yang lebih mendalam. . Oleh itu, persepsi serentak terhadap tubuh manusia dan alam sekitar boleh membawa kita interaksi manusia-komputer dan pengalaman aplikasi alam sekitar yang lebih cekap, selamat dan lebih bijak.
Berdasarkan perkara ini, Pasukan Xu Feng dari Universiti Tsinghua mencadangkan tangkapan gerakan manusia masa nyata serentak menggunakan hanya 6 penderia inersia (IMU) dan 1 kamera warna monokular , kedudukan dan teknologi pemetaan persekitaran (seperti yang ditunjukkan dalam Rajah 1). Teknologi tangkapan gerakan inersia (mocap) meneroka maklumat "dalaman" seperti isyarat gerakan badan manusia, manakala teknologi penyetempatan dan pemetaan (SLAM) serentak terutamanya bergantung pada maklumat "luaran", iaitu persekitaran yang ditangkap oleh kamera. Yang pertama mempunyai kestabilan yang baik, tetapi kerana tiada rujukan yang betul luaran, hanyut kedudukan global akan terkumpul semasa pergerakan jangka panjang boleh menganggarkan kedudukan global di tempat kejadian dengan ketepatan yang tinggi, tetapi apabila maklumat alam sekitar tidak boleh dipercayai (seperti tiada tekstur Atau terdapat oklusi), ia adalah mudah untuk kehilangan penjejakan.
Oleh itu, kertas kerja ini menggabungkan kedua-dua teknologi pelengkap ini dengan berkesan (mocap dan SLAM). Pembinaan semula peta dan kedudukan manusia yang teguh dan tepat dicapai melalui gabungan pendahuluan gerakan manusia dan penjejakan visual pada berbilang algoritma utama.
Rajah 1 Artikel ini mencadangkan teknologi tangkapan gerakan manusia dan pemetaan persekitaran serentak 🎜>
Khususnya, dalam kajian ini, 6 IMU dipakai pada anggota badan, kepala dan belakang orang itu, dan kamera warna monokular dipasang pada kepala dan diambil gambar ke luar. Reka bentuk ini diilhamkan oleh tingkah laku manusia sebenar: apabila manusia berada dalam persekitaran baharu, mereka memerhati persekitaran melalui mata mereka dan menentukan kedudukan mereka, dengan itu merancang pergerakan mereka dalam tempat kejadian.
Dalam sistem kami, kamera monokular bertindak sebagai mata manusia, memberikan isyarat visual untuk pembinaan semula pemandangan masa nyata dan kedudukan diri untuk teknologi ini, manakala IMU mengukur pergerakan anggota badan dan kepala manusia. Persediaan ini serasi dengan peralatan VR sedia ada dan boleh menggunakan kamera dalam set kepala VR dan IMU tambahan untuk melakukan tangkapan gerakan badan penuh dan persepsi persekitaran yang stabil dan bebas hanyut. Buat pertama kali, keseluruhan sistem mencapai tangkapan gerakan manusia serentak dan pembinaan semula titik jarang persekitaran berdasarkan hanya 6 IMU dan 1 kamera Kelajuan larian mencapai 60fps pada CPU, dan ketepatannya melebihi yang terbaik dalam kedua-duanya bidang. Contoh masa nyata sistem ini ditunjukkan dalam Rajah 2 dan 3.
Rajah 2 Dalam pergerakan kompleks sejauh 70 meter, sistem ini menjejaki kedudukan badan manusia dengan tepat dan menangkap pergerakan badan manusia tanpa hanyut kedudukan yang jelas.
Rajah 3 Contoh masa nyata sistem ini secara serentak membina semula gerakan manusia dan pemandangan yang jarang mata.
Rajah 4 Aliran kaedah keseluruhan
Tugas sistem adalah untuk membina semula pergerakan manusia dan awan titik jarang adegan tiga dimensi dalam masa nyata daripada orientasi dan ukuran pecutan enam penderia IMU dan gambar berwarna yang diambil oleh kamera , dan cari kedudukan orang itu di tempat kejadian. Kami mereka bentuk rangka kerja yang digabungkan secara mendalam untuk mengeksploitasi sepenuhnya kelebihan pelengkap bagi tangkapan gerakan inersia jarang dan teknologi SLAM. Dalam rangka kerja ini, pendahuluan gerakan manusia digabungkan dengan berbilang komponen utama SLAM, dan hasil penentududukan SLAM juga diberikan kembali kepada tangkapan gerakan manusia. Seperti yang ditunjukkan dalam Rajah 4, kami membahagikan sistem kepada empat modul mengikut fungsi: modul tangkapan gerakan inersia (Tangkapan Gerakan Inersia), modul penjejakan kamera (Penjejakan Kamera), dan modul pemetaan Dan modul pengesanan gelung (Pemetaan & Penutupan Gelung) dan modul kemas kini gerakan manusia (Pengemas Kini Terjemahan Badan). Setiap modul diperkenalkan di bawah.
Modul tangkapan gerakan inersia menganggarkan postur dan gerakan manusia daripada 6 ukuran IMU. Reka bentuk modul ini adalah berdasarkan kerja PIP [1] kami yang terdahulu, tetapi dalam kerja ini kami tidak lagi menganggap bahawa pemandangan itu adalah tanah rata, tetapi pertimbangkan untuk menangkap gerakan manusia bebas dalam ruang 3D. Untuk tujuan ini, makalah ini membuat pengubahsuaian adaptif kepada algoritma pengoptimuman PIP.
Secara khusus, modul ini mula-mula meramalkan putaran sendi manusia, kelajuan, kebarangkalian sentuhan kaki dan tanah daripada pengukuran IMU melalui rangkaian saraf berulang berbilang peringkat. Pengawal dwi PD yang dicadangkan oleh PIP digunakan untuk menyelesaikan pecutan sudut kawalan optimum dan pecutan linear sendi manusia. Seterusnya, modul ini mengoptimumkan pecutan postur badan manusia , supaya ia dapat mencapai pecutan yang diberikan oleh pengawal PD sambil memenuhi syarat kekangan sentuhan C :
di mana J ialah matriks Jacobian bersama , ialah kelajuan linear kaki yang bersentuhan dengan tanah, dan kekangan C memerlukan kelajuan kaki yang bersentuhan dengan tanah hendaklah kecil (tiada gelongsor berlaku). Untuk menyelesaikan masalah pengaturcaraan kuadratik ini, sila rujuk PIP[1]. Selepas memperoleh postur dan gerakan badan manusia melalui integrasi pecutan postur, postur kamera yang terikat pada badan manusia boleh diperolehi untuk modul seterusnya.
Modul penjejakan kamera mengambil pose kamera awal yang diberikan oleh modul menangkap gerakan inersia dan imej berwarna yang ditangkap oleh kamera sebagai input, dan menggunakan maklumat imej untuk mengoptimumkan kamera menimbulkan dan menghapuskan drift kedudukan. Secara khusus, modul ini direka bentuk berdasarkan ORB-SLAM3 [2]. Ia mula-mula mengekstrak titik ciri ORB imej, dan melakukan pemadanan ciri dengan titik peta jarang yang dibina semula (diterangkan di bawah) menggunakan persamaan ciri untuk mendapatkan titik 2D-3D yang sepadan berpasangan, dan kemudian mengoptimumkan pose kamera dengan mengoptimumkan ralat unjuran semula. Perlu diingat bahawa hanya mengoptimumkan ralat unjuran semula mungkin dipengaruhi oleh padanan palsu, yang membawa kepada hasil pengoptimuman pose kamera yang lemah. Oleh itu, Artikel ini menyepadukan maklumat terdahulu gerakan manusia dalam pengoptimuman penjejakan kamera, menggunakan hasil tangkapan gerakan inersia sebagai kekangan, mengehadkan proses pengoptimuman ralat unjuran semula dan segera menemui serta menghapuskan padanan titik titik peta ciri yang salah .
Koordinat dunia bagi titik peta yang direkodkan ialah dan koordinat piksel bagi titik ciri imej 2D yang sepadan ialah mewakili semua perhubungan yang sepadan. Gunakan
untuk mewakili pose kamera awal sebelum pengoptimuman, kemudian modul ini mengoptimumkan pose kamera R,t:
Di mana, ialah fungsi inti Huber yang teguh, memetakan putaran tiga dimensi kepada ruang vektor tiga dimensi, ialah operasi unjuran perspektif dan ialah pekali kawalan bagi istilah putaran tangkapan gerakan dan terjemahan. Pengoptimuman dilakukan tiga kali, setiap kali mengklasifikasikan padanan 2D-3D sebagai betul atau salah berdasarkan ralat unjuran semula Dalam pengoptimuman seterusnya, hanya padanan yang betul digunakan dan padanan yang salah telah dipadamkan. Dengan pengetahuan sedia ada yang kukuh yang disediakan oleh kekangan tangkapan gerakan, algoritma ini dapat membezakan dengan lebih baik antara padanan yang betul dan salah, dengan itu meningkatkan ketepatan penjejakan kamera. Selepas menyelesaikan pose kamera, modul ini mengekstrak bilangan pasangan titik peta yang dipadankan dengan betul dan menggunakannya sebagai kredibiliti pose kamera.
Modul pengesanan pemetaan dan penutupan gelung menggunakan bingkai utama untuk membina semula titik peta yang jarang dan mengesan sama ada badan manusia telah mencapai lokasi yang telah ditujui. Semasa proses pemetaan, kami menggunakan pelarasan berkas terkandas tangkapan gerakan (Pelarasan Himpunan, BA) untuk mengoptimumkan kedudukan titik peta jarang dan pose kamera rangka utama secara serentak, dan memperkenalkan keyakinan titik peta untuk keseimbangan dinamik Hubungan kekuatan relatif antara istilah kekangan tangkapan gerakan dan istilah ralat unjuran semula ialah , dengan itu meningkatkan ketepatan keputusan. Apabila gelung tertutup berlaku dalam pergerakan manusia, Pengoptimuman Pose Graf Berbantukan tangkapan gerakan dilakukan untuk membetulkan ralat gelung tertutup . Akhirnya, kedudukan titik peta jarang yang dioptimumkan dan pose bingkai utama diperolehi, yang digunakan untuk menjalankan algoritma dalam bingkai seterusnya.
Secara khusus, modul ini terlebih dahulu mengira keyakinan titik peta berdasarkan situasi pemerhatian, yang digunakan untuk pengoptimuman BA seterusnya. Seperti yang ditunjukkan dalam Rajah 5 di bawah, mengikut lokasi bingkai utama titik peta yang diperhatikan, modul ini mengira panjang garis dasar bingkai utama bi dan sudut cerapan θi untuk menentukan keyakinan titik peta i , di mana k ialah pekali kawalan.
Rajah 5 (a) Pengiraan keyakinan titik peta. (b) Dengan panjang garis dasar yang sama b1=b2, sudut cerapan yang lebih besar (biru) boleh menahan gangguan pose kamera dengan lebih baik, mengakibatkan ralat kedudukan titik peta yang lebih kecil (e1
Kemudian, 20 pose kamera bingkai utama terkini dan titik peta yang diperhatikan dioptimumkan secara serentak. Pose bingkai utama lain yang melihat titik peta ini ditetapkan semasa pengoptimuman. Nyatakan set semua bingkai kunci boleh dioptimumkan sebagai K0, set semua bingkai kunci tetap sebagai Kf, dan set titik peta yang diukur dengan bingkai kunci j sebagai Xj. nota
menunjukkan orientasi kerangka utama dan kedudukan tiga dimensi yang perlu dioptimumkan,
menunjukkan lokasi titik peta. Kemudian pengoptimuman pelarasan rasuk bagi kekangan tangkapan gerakan ditakrifkan sebagai:
Antaranya,
mewakili bingkai kunci sebelumnya bagi bingkai kunci j,
ialah pekali kekangan tangkapan gerakan. Pengoptimuman ini memerlukan ralat unjuran semula titik peta hendaklah kecil, dan putaran dan kedudukan relatif bagi setiap bingkai kunci hendaklah hampir dengan hasil tangkapan gerakan Keyakinan titik peta ci secara dinamik menentukan tangkapan gerakan kekangan dan Hubungan berat relatif antara item unjuran semula titik peta: Bagi kawasan yang belum dibina semula sepenuhnya, sistem lebih berkemungkinan mempercayai hasil tangkapan gerakan sebaliknya, jika kawasan itu berulang kali diperhatikan, sistem akan lebih mempercayai penjejakan visual. Perwakilan graf faktor yang dioptimumkan ditunjukkan dalam Rajah 6 di bawah.
Gambar 6 Perwakilan graf faktor yang dioptimumkan oleh kaedah pelarasan rasuk untuk kekangan tangkapan gerakan.
Apabila trajektori gelung tertutup dikesan, sistem melakukan pengoptimuman gelung tertutup. Berdasarkan ORB-SLAM3[2], set bucu dalam graf pose ialah F dan set tepi ialah C. Kemudian pengoptimuman graf pose bagi kekangan tangkapan gerakan ditakrifkan sebagai:
Antaranya, ialah pose bagi bingkai kunci j, dan berada di antara bingkai utama i dan j sebelum graf pose dioptimumkan. Pose relatif ialah pekali relatif bagi kekangan tangkapan gerakan. Pengoptimuman ini dipandu oleh tangkapan gerakan sebelum dan menyebarkan ralat gelung tertutup ke setiap bingkai utama. Kemas kini gerakan manusiaModul kemas kini gerakan manusia menggunakan pose kamera yang dioptimumkan dan kredibiliti modul penjejakan kamera untuk mengemas kini kedudukan global badan manusia yang diberikan oleh modul tangkapan gerakan. Modul ini dilaksanakan menggunakan algoritma pembetulan ramalan penapis Kalman. Antaranya, modul tangkapan gerakan menyediakan varians berterusan pecutan gerakan badan manusia, yang boleh digunakan untuk meramalkan kedudukan global badan manusia (pengedaran terdahulu manakala modul penjejakan kamera menyediakan pemerhatian dan keyakinan kedudukan kamera, yang digunakan untuk membetulkan kedudukan global badan manusia (taburan posterior). Antaranya, matriks kovarians pemerhatian kedudukan kamera
lebih kurang dikira dengan bilangan titik peta yang sepadan sebagai matriks pepenjuru berikut:
di mana
ialah perpuluhan untuk mengelakkan pembahagi menjadi 0. Iaitu, lebih banyak bilangan titik peta yang berjaya dipadankan dalam penjejakan kamera, lebih kecil varians pemerhatian pose kamera. Algoritma penapis Kalman digunakan untuk akhirnya meramalkan kedudukan global badan manusia.Untuk pengenalan kaedah dan derivasi formula yang lebih terperinci, sila rujuk teks asal dan lampiran kertas. Eksperimen
Perbandingan dengan MocapKaedah ini terutamanya menyelesaikan masalah hanyut kedudukan global dalam tangkapan gerakan inersia jarang (Mocap), jadi yang utama ujian dipilih Penunjuk ialah ralat kedudukan global badan manusia. Perbandingan keputusan ujian kuantitatif dengan kaedah SOTA mocap TransPose[3], TIP[4] dan PIP[1] pada dua set data awam, TotalCapture dan HPS, ditunjukkan dalam Jadual 1 di bawah Perbandingan keputusan ujian kualitatif ditunjukkan dalam Rajah 7 dan 8 di bawah. Dapat dilihat bahawa kaedah dalam artikel ini jauh melebihi kaedah tangkapan gerakan inersia sebelumnya dari segi ketepatan kedudukan global (masing-masing meningkat sebanyak 41% dan 38% dalam TotalCapture dan HPS), dan trajektori mempunyai persamaan tertinggi dengan nilai sebenar.
Jadual 1 Perbandingan kuantitatif ralat kedudukan global dengan kerja menangkap gerakan inersia (unit: meter ). Set data TotalCapture diklasifikasikan mengikut tindakan, dan set data HPS diklasifikasikan mengikut adegan. Untuk kerja kami, kami menguji 9 kali dan melaporkan median dan sisihan piawai.
Rajah 7 Perbandingan kualitatif ralat kedudukan global dengan kerja menangkap gerakan inersia. Nilai sebenar ditunjukkan dalam warna hijau, dan keputusan ramalan kaedah berbeza ditunjukkan dalam warna biru. Trajektori pergerakan dan kedudukan semasa badan manusia (titik oren) ditunjukkan di sudut setiap imej. Rajah 8 Perbandingan kualitatif ralat kedudukan global dengan kerja menangkap gerakan inersia (video). Nilai sebenar ditunjukkan dalam warna hijau, kaedah dalam kertas ini berwarna putih, dan kaedah kerja sebelumnya menggunakan warna lain yang berbeza (lihat legenda). Kertas kerja ini membandingkan kerja SOTA SLAM ORB-SLAM3[2] dari dua perspektif: ketepatan kedudukan dan ketepatan pembinaan semula peta. Versi inersia monokular dan monokular telah dibandingkan. Keputusan perbandingan kuantitatif bagi ketepatan kedudukan ditunjukkan dalam Jadual 2. Keputusan perbandingan kuantitatif bagi ketepatan pembinaan semula peta ditunjukkan dalam Jadual 3, dan keputusan perbandingan kualitatif ditunjukkan dalam Rajah 9. Dapat dilihat bahawa berbanding dengan SLAM, kaedah dalam kertas kerja ini banyak meningkatkan keteguhan sistem, ketepatan kedudukan dan ketepatan pembinaan semula peta. Perbandingan dengan SLAM
Jadual 2 Perbandingan kuantitatif ralat kedudukan dengan kerja SLAM (unit ralat: meter). M/MI masing-masing mewakili versi inersia monokular/monokular ORB-SLAM3, dan Hidup/Mati mewakili keputusan masa nyata dan luar talian SLAM. Memandangkan SLAM sering kehilangan penjejakan, kami melaporkan ralat kedudukan purata pada urutan lengkap (Penuh) dan bingkai yang berjaya dijejaki (Dijejaki) untuk SLAM tidak ada kehilangan penjejakan dalam kaedah ini, jadi kami melaporkan hasil urutan lengkap. Setiap kaedah telah diuji 9 kali dan median dan sisihan piawai telah dilaporkan. Untuk ralat pada bingkai yang berjaya dijejaki, kami juga melaporkan peratusan kejayaan. Jika kaedah gagal beberapa kali, kami menandakannya sebagai gagal (ditandakan dengan "-").
Jadual 3 Perbandingan kuantitatif ralat pembinaan semula peta dengan kerja SLAM (Unit ralat: meter). M/MI masing-masing mewakili versi inersia monokular/monokular ORB-SLAM3. Untuk tiga adegan berbeza (pejabat, luar, kilang), kami menguji ralat purata semua titik peta 3D yang dibina semula daripada geometri permukaan pemandangan. Setiap kaedah telah diuji 9 kali dan median dan sisihan piawai telah dilaporkan. Jika kaedah gagal beberapa kali, kami menandakannya sebagai gagal (ditandakan dengan "-").
Rajah 9 Perbandingan kualitatif ralat pembinaan semula peta dengan kerja SLAM . Kami menunjukkan titik adegan yang dibina semula dengan kaedah yang berbeza, dengan warna menunjukkan ralat untuk setiap titik.
Selain itu, sistem ini meningkatkan keteguhannya terhadap kehilangan pengesanan visual dengan memperkenalkan gerakan manusia sebelum ini. Apabila ciri visual lemah, sistem ini boleh menggunakan gerakan manusia sebelum meneruskan penjejakan tanpa kehilangan penjejakan dan penetapan semula atau mencipta peta baharu seperti sistem SLAM yang lain. Seperti yang ditunjukkan dalam Rajah 10 di bawah.
Rajah 10 Perbandingan keteguhan oklusi kerja SLAM dan SLAM. Rujukan trajektori kebenaran tanah ditunjukkan di sudut kanan atas. Disebabkan oleh pengawalan SLAM secara rawak, sistem koordinat global dan cap waktu tidak sejajar sepenuhnya.
Untuk lebih banyak hasil percubaan, sila rujuk teks asal kertas, halaman utama projek dan video kertas.
Kertas kerja ini mencadangkan gabungan pertama mocap inersia dan SLAM untuk mencapai kerja tangkapan gerakan, kedudukan dan pemetaan serentak manusia. Sistem ini cukup ringan untuk memerlukan hanya set penderia yang jarang dipakai oleh tubuh manusia, termasuk 6 unit ukuran inersia dan kamera telefon bimbit. Untuk penjejakan dalam talian, mocap dan SLAM digabungkan melalui pengoptimuman terhad dan teknik penapisan Kalman untuk mencapai kedudukan manusia yang lebih tepat. Untuk pengoptimuman bahagian belakang, ralat kedudukan dan pemetaan dikurangkan lagi dengan menyepadukan gerakan manusia sebelum ke dalam pengoptimuman pelarasan rasuk dan pengoptimuman gelung tertutup dalam SLAM.
Penyelidikan ini bertujuan untuk mengintegrasikan persepsi tubuh manusia dengan persepsi alam sekitar. Walaupun kerja ini tertumpu terutamanya pada aspek penyetempatan, kami percaya bahawa kerja ini mewakili langkah pertama ke arah tangkapan gerakan bersama dan persepsi dan pembinaan semula persekitaran yang terperinci.
Atas ialah kandungan terperinci Enam penderia inersia dan telefon mudah alih merealisasikan tangkapan gerakan badan manusia, kedudukan dan pembinaan semula persekitaran. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!