ここ数年、自動運転や VR などのアプリケーションによって、RGB センサー、LiDAR、レーダーなどの 2D および 3D センサーを使用した人間の姿勢推定が大きく進歩してきました。ただし、これらのセンサーには技術的にも実用的にもいくつかの制限があります。まずコストが高く、一般家庭や中小企業にはLiDARやレーダーセンサーを購入する余裕がないことが多いです。第二に、これらのセンサーは日常使用や家庭で使用するには電力を大量に消費します。
RGB カメラに関しては、狭い視野と不十分な照明条件がカメラベースの方法に重大な影響を与える可能性があります。オクルージョンは、カメラベースのモデルが画像内で合理的な姿勢予測を生成することを妨げるもう 1 つの障害になります。家具が人の邪魔になることが多いため、屋内のシーンは特に困難です。さらに、プライバシーへの懸念により、公共の場所以外でのこれらのテクノロジーの使用は妨げられており、多くの人は自分の行動を記録するために自宅にカメラを設置することに消極的です。しかし、医療分野では、安全、健康、その他の理由から、多くの高齢者がカメラやその他のセンサーの助けを借りてリアルタイム監視を実行する必要がある場合があります。
最近、CMU の 3 人の研究者が論文「DensePose From WiFi」で、場合によっては、WiFi 信号を RGB 画像の代わりに使用できることを提案しました。人体認識を実行します。照明と遮蔽は、屋内監視用の WiFi ソリューションにはほとんど影響しません。 WiFi 信号は個人のプライバシーを保護するのに役立ち、必要な機器は手頃な価格です。重要な点は、多くの家に WiFi が設置されているため、この技術は高齢者の健康状態を監視したり、家庭内での不審な行動を特定したりするために拡張される可能性があるということです。
論文アドレス: https://arxiv.org/pdf/2301.00250.pdf
研究者が望んでいること解決すべき問題は、以下の図 1 の最初の行に示されています。3 つの WiFi 送信機と 3 つの対応する受信機があるとすると、複数の人がいる乱雑な環境 (図 1 の 4 行目) で、人間の姿勢の密集した対応関係を検出して復元できるでしょうか? 多くの WiFi ルーター (TP-Link AC1750 など) には 3 つのアンテナがあるため、この方法ではそのようなルーターは 2 つだけ必要であることに注意してください。各ルーターのコストは約 30 ドルで、セットアップ全体が LiDAR やレーダー システムよりもはるかに安いことを意味します。
図 1 の 4 行目に示されている効果を達成するために、研究者はコンピューター ビジョンのディープ ラーニング アーキテクチャからインスピレーションを得て、次のことができるを提案しました。密な姿勢推定のための WiFi ニューラル ネットワーク アーキテクチャに基づいて実行され、オクルージョンや複数の人物が含まれるシーンで WiFi 信号のみを使用して密な姿勢推定を実現します。
#下の左の図は画像ベースの DensePose を示し、右の図は WiFi ベースの DensePose を示します。
出典: Twitter @AiBreakfast
Inさらに、この論文の最初の著者と 2 番目の著者は両方とも中国人である ことにも言及する価値があります。この論文の筆頭著者である Jiaqi Geng 氏は、昨年 8 月に CMU でロボット工学の修士号を取得し、2 番目の著者である Dong Huang 氏は現在 CMU の上級プロジェクトサイエンティストを務めています。
方法の紹介
WiFi を使用して人体表面の UV 座標を生成するには、3 つのコンポーネントが必要です。 pass 振幅と位相のステップにより、元の CSI (送信信号波と受信信号波の比率を示すチャネル状態情報) 信号がクリーンアップされ、処理された CSI サンプルがデュアル ブランチ エンコーダ/デコーダを通じて変換されます。ネットワークは 2D 特徴マップであり、2D 特徴マップは DensePose-RCNN (主に 2D 画像を 3D 人体モデルに変換する) と呼ばれるアーキテクチャに入力されて、UV マップが推定されます。元の CSI サンプルにはノイズが多く (図 3 (b) を参照)、それだけでなく、ほとんどの WiFi ベースのソリューションは CSI 信号の位相を無視し、信号の振幅に焦点を当てています (図 3 (a) を参照) ))。ただし、位相情報を破棄すると、モデルのパフォーマンスに悪影響を及ぼす可能性があります。そこで本研究ではCSI情報をより有効に活用するために、安定した位相値を得るためにサニタイズ処理を行う。
#一次元 CSI 信号から空間領域の UV マッピングを推定するには、まず次のことが必要です。ネットワーク入力を CSI ドメインから空間ドメインに変換します。この記事は、Modality Translation Network を使用して完成しました (図 4 を参照)。いくつかの操作の後、WiFi 信号によって生成された画像領域の 3×720×1280 のシーン表現を取得できます。
#画像ドメインで 3×720×1280 のシーン表現を取得した後、この研究では DensePose と同様の方法を使用します。 -RCNN 人体の UV マップを予測するためのネットワーク アーキテクチャ WiFi-DensePose RCNN。具体的には、WiFi-DensePose RCNN (図 5) において、この研究では ResNet-FPN をバックボーンとして使用し、取得された 3 × 720 × 1280 の画像特徴マップから空間特徴を抽出します。その後、出力は地域提案ネットワークに供給されます。さまざまなソースからの補完的な情報をより効果的に利用するために、WiFi-DensePose RCNN には DensePose ヘッドと Keypoint ヘッドという 2 つのブランチも含まれており、その後、処理結果がマージされてリファインメント ユニットに入力されます。 ただし、ランダムな初期化から Modality Translation Network と WiFi-DensePose RCNN ネットワークをトレーニングするには、多くの時間 (約 80 時間) が必要です。トレーニング効率を向上させるために、この研究では画像ベースの DensPose ネットワークを WiFi ベースのネットワークに移行しました (詳細は図 6 を参照)。
画像ベースのネットワーク重みを使用して WiFi ベースのネットワークを直接初期化することは機能しませんでした。そのため、この研究では最初に画像ベースの DensePose-RCNN モデルは教師ネットワークとして機能し、生徒ネットワークはモダリティ変換ネットワークと WiFi-DensePose RCNN で構成されます。この目的は、学生モデルと教師モデルによって生成された多層特徴マップ間の差異を最小限に抑えることです。 表 1 の結果は、WiFi ベースの方法で 87.2 という非常に高い AP@50 値が得られたことを示しており、モデルが効果的に近似値を検出できることを示しています。人体の境界ボックスの位置。 AP@75 は 35.6 と比較的低く、人体の詳細が完全には推定されていないことを示しています。 表 2 の結果は、dpAP・GPS@50 と dpAP・GPSm@50 の値が高いことを示していますが、dpAP・GPS@75 と dpAP・GPSm @75 は低い値です。これは、私たちのモデルが人間の胴体の姿勢を推定する際にはうまく機能しますが、手足などの詳細を検出するのがまだ難しいことを示しています。
#
以上がオクルージョンを恐れない全身追跡、CMU の 2 人の中国人が WiFi 信号に基づいて DensePose を作成の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。