Penjejakan seluruh badan, tidak takut oklusi, dua orang Cina dari CMU membuat DensePose berdasarkan isyarat WiFi-AI-php.cn

Anggaran pose manusia menggunakan penderia 2D dan 3D seperti penderia RGB, LiDAR atau radar telah mencapai kemajuan yang besar dalam beberapa tahun lalu, didorong oleh aplikasi seperti pemanduan autonomi dan VR. Walau bagaimanapun, penderia ini mempunyai beberapa had dari segi teknikal dan penggunaan praktikal. Pertama sekali, kosnya tinggi, dan keluarga biasa atau perniagaan kecil selalunya tidak mampu membeli LiDAR dan penderia radar. Kedua, penderia ini terlalu haus kuasa untuk kegunaan harian dan isi rumah.

Bagi kamera RGB, medan pandangan yang sempit dan keadaan pencahayaan yang lemah boleh memberi kesan teruk kepada kaedah berasaskan kamera. Oklusi menjadi satu lagi halangan yang menghalang model berasaskan kamera daripada menjana ramalan pose yang munasabah dalam imej. Pemandangan dalam rumah amat sukar, kerana perabot sering menghalang orang ramai. Lebih-lebih lagi, kebimbangan privasi menghalang penggunaan teknologi ini di tempat bukan awam, dan ramai orang enggan memasang kamera di rumah mereka untuk merakam tindakan mereka. Tetapi dalam bidang perubatan, atas sebab keselamatan, kesihatan dan lain-lain, ramai orang tua kadangkala terpaksa melakukan pemantauan masa nyata dengan bantuan kamera dan penderia lain.

Baru-baru ini, tiga penyelidik dari CMU mencadangkan dalam kertas kerja "DensePose From WiFi" bahawa Dalam beberapa kes, isyarat WiFi boleh digunakan sebagai pengganti imej RGB To menjalankan persepsi badan manusia. Pencahayaan dan oklusi mempunyai sedikit kesan pada penyelesaian WiFi untuk pengawasan dalaman. Isyarat WiFi membantu melindungi privasi peribadi, dan peralatan yang diperlukan adalah berpatutan. Perkara utama ialah kebanyakan rumah telah memasang WiFi, jadi teknologi itu berpotensi berkembang untuk memantau kesihatan orang dewasa yang lebih tua atau mengenal pasti tingkah laku yang mencurigakan di rumah.

Alamat kertas: https://arxiv.org/pdf/2301.00250.pdf

Pengkaji mahu kepada Masalah yang perlu diselesaikan ditunjukkan dalam baris pertama Rajah 1 di bawah. Memandangkan 3 pemancar WiFi dan 3 penerima yang sepadan, bolehkah surat-menyurat pose manusia yang padat dikesan dan dipulihkan dalam persekitaran yang berselerak dengan berbilang orang (baris keempat Rajah 1)? Perlu diambil perhatian bahawa banyak penghala WiFi (seperti TP-Link AC1750) mempunyai 3 antena, jadi hanya 2 penghala sedemikian diperlukan dalam kaedah artikel ini. Setiap penghala berharga kira-kira $30, bermakna keseluruhan persediaan masih jauh lebih murah daripada LiDAR dan sistem radar.

Untuk mencapai kesan yang ditunjukkan dalam baris keempat Rajah 1, penyelidik mendapat inspirasi daripada seni bina pembelajaran mendalam penglihatan komputer dan mencadangkan yang boleh dilaksanakan berdasarkan seni bina rangkaian Neural WiFi untuk anggaran pose padat dan mencapai anggaran pose padat menggunakan hanya isyarat WiFi dalam adegan dengan oklusi dan berbilang orang .

Penjejakan seluruh badan, tidak takut oklusi, dua orang Cina dari CMU membuat DensePose berdasarkan isyarat WiFi

Gambar di bawah menunjukkan DensePose berasaskan imej di sebelah kiri dan DensePose berasaskan WiFi di sebelah kanan.

Penjejakan seluruh badan, tidak takut oklusi, dua orang Cina dari CMU membuat DensePose berdasarkan isyarat WiFi

Sumber foto: Twitter @AiBreakfast

Selain itu, perlu dinyatakan bahawa pengarang pertama dan kedua kertas kerja itu adalah kedua-duanya Cina . Jiaqi Geng, pengarang pertama kertas itu, memperoleh ijazah sarjana dalam bidang robotik daripada CMU pada Ogos tahun lalu, dan Dong Huang, pengarang kedua, kini seorang saintis projek kanan di CMU.

Pengenalan kaedah

Mahu menggunakan WiFi untuk menjana koordinat UV permukaan badan manusia memerlukan tiga komponen: Pertama, lulus Langkah amplitud dan fasa membersihkan isyarat CSI (Saluran-keadaan-keadaan, menunjukkan nisbah antara gelombang isyarat yang dihantar dan gelombang isyarat yang diterima) kemudian, sampel CSI yang diproses ditukar melalui pengekod dwi-cawangan -rangkaian penyahkod ialah peta ciri 2D; kemudian peta ciri 2D dimasukkan ke dalam seni bina yang dipanggil DensePose-RCNN (terutamanya menukar imej 2D kepada model manusia 3D) untuk menganggarkan peta UV.

Sampel CSI asal adalah bising (lihat Rajah 3 (b)), bukan itu sahaja, kebanyakan penyelesaian berasaskan WiFi mengabaikan fasa isyarat CSI dan memfokuskan pada amplitud isyarat (lihat Rajah 3 (a) )). Walau bagaimanapun, membuang maklumat fasa boleh memberi kesan negatif terhadap prestasi model. Oleh itu, kajian ini melakukan pemprosesan sanitasi untuk mendapatkan nilai fasa yang stabil untuk menggunakan maklumat CSI dengan lebih baik.

Penjejakan seluruh badan, tidak takut oklusi, dua orang Cina dari CMU membuat DensePose berdasarkan isyarat WiFi

Untuk menganggarkan pemetaan UV dalam domain spatial daripada isyarat CSI satu dimensi, anda perlu terlebih dahulu menukar input rangkaian daripada domain CSI kepada domain spatial. Artikel ini dilengkapkan menggunakan Rangkaian Terjemahan Modaliti (seperti yang ditunjukkan dalam Rajah 4). Selepas beberapa operasi, perwakilan pemandangan 3×720×1280 dalam domain imej yang dijana oleh isyarat WiFi boleh diperolehi.

Penjejakan seluruh badan, tidak takut oklusi, dua orang Cina dari CMU membuat DensePose berdasarkan isyarat WiFi

Setelah memperoleh gambaran pemandangan 3×720×1280 dalam domain imej, kajian ini menggunakan kaedah yang serupa dengan DensePose -RCNN Seni bina rangkaian WiFi-DensePose RCNN untuk meramalkan peta UV badan manusia. Khususnya, dalam WiFi-DensePose RCNN (Rajah 5), kajian ini menggunakan ResNet-FPN sebagai tulang belakang dan mengekstrak ciri spatial daripada peta ciri imej 3 × 720 × 1280 yang diperolehi. Output kemudiannya disalurkan ke rangkaian cadangan wilayah. Untuk menggunakan maklumat pelengkap daripada sumber yang berbeza dengan lebih baik, WiFi-DensePose RCNN juga mengandungi dua cawangan, kepala DensePose dan kepala Keypoint, selepas itu hasil pemprosesan digabungkan dan dimasukkan ke unit penghalusan.

Walau bagaimanapun melatih Rangkaian Terjemahan Modal dan rangkaian RCNN WiFi-DensePose daripada pemulaan rawak mengambil banyak masa (kira-kira 80 jam). Untuk meningkatkan kecekapan latihan, kajian ini memindahkan rangkaian DensPose berasaskan imej kepada rangkaian berasaskan WiFi (lihat Rajah 6 untuk butiran).

Penjejakan seluruh badan, tidak takut oklusi, dua orang Cina dari CMU membuat DensePose berdasarkan isyarat WiFi

Memulakan rangkaian berasaskan WiFi secara langsung dengan berat rangkaian berasaskan imej tidak berjaya, oleh itu, kajian itu mula-mula melatih Model DensePose-RCNN berasaskan imej berfungsi sebagai rangkaian guru, dan rangkaian pelajar terdiri daripada rangkaian terjemahan modaliti dan WiFi-DensePose RCNN. Tujuannya adalah untuk meminimumkan perbezaan antara peta ciri berbilang lapisan yang dihasilkan oleh model pelajar dan model guru.

Eksperimen

Keputusan Jadual 1 menunjukkan bahawa kaedah berasaskan WiFi memperoleh nilai AP@50 yang tinggi iaitu 87.2, yang menunjukkan bahawa model boleh mengesan lokasi anggaran dengan berkesan kotak pembatas badan manusia. AP@75 adalah agak rendah dengan nilai 35.6, yang menunjukkan butiran tubuh manusia tidak dianggarkan dengan sempurna.

Penjejakan seluruh badan, tidak takut oklusi, dua orang Cina dari CMU membuat DensePose berdasarkan isyarat WiFi

Keputusan Jadual 2 menunjukkan bahawa dpAP・GPS@50 dan dpAP・GPSm@50 mempunyai nilai yang lebih tinggi, tetapi dpAP・GPS@75 dan dpAP・GPSm @75 ialah nilai yang lebih rendah. Ini menunjukkan bahawa model kami berprestasi baik dalam menganggarkan pose badan manusia, tetapi masih menghadapi kesukaran untuk mengesan butiran seperti anggota badan.

Penjejakan seluruh badan, tidak takut oklusi, dua orang Cina dari CMU membuat DensePose berdasarkan isyarat WiFi

Keputusan kuantitatif dalam Jadual 3 dan Jadual 4 menunjukkan bahawa kaedah berasaskan imej menghasilkan AP yang sangat tinggi berbanding kaedah berasaskan WiFi. Perbezaan antara nilai AP-m dan nilai AP-l model berasaskan WiFi adalah agak kecil. Kajian ini mencadangkan ini kerana orang yang jauh dari kamera mengambil lebih sedikit ruang dalam imej, yang mengakibatkan kurang maklumat tentang objek tersebut. Sebaliknya, isyarat WiFi mengandungi semua maklumat tentang keseluruhan adegan, tanpa mengira lokasi subjek.

Penjejakan seluruh badan, tidak takut oklusi, dua orang Cina dari CMU membuat DensePose berdasarkan isyarat WiFi

Atas ialah kandungan terperinci Penjejakan seluruh badan, tidak takut oklusi, dua orang Cina dari CMU membuat DensePose berdasarkan isyarat WiFi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!