物体検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP メトリクスを達成しました。現時点では、これは自動運転シナリオにおける魚眼カメラに基づく目標検出アルゴリズムに関する最初の研究です。
記事リンク: https://arxiv.org/pdf/2404.13443.pdf
私たちのネットワーク構造はYOLOv3ネットワークモデルに基づいており、バウンディングボックス、回転バウンディングボックス、楕円や多角形など多彩な表現が可能です。ネットワークを低電力の車載ハードウェアに移植できるようにするために、ResNet18 をエンコーダとして使用します。標準の Darknet53 エンコーダと比較して、パラメータは 60% 以上削減されます。提案されたネットワーク アーキテクチャを次の図に示します。
私たちの境界ボックスモデルは、Darknet53 エンコーダーが ResNet18 エンコーダーに置き換えられることを除いて、YOLOv3 と同じです。 YOLOv3 と同様に、オブジェクト検出は複数のスケールで実行されます。各スケールの各グリッドについて、オブジェクトの幅 ()、高さ ()、オブジェクトの中心座標 (,)、およびオブジェクト クラスを予測します。最後に、非最大抑制を使用して冗長な検出をフィルタリングします。
このモデルでは、ボックスの向きが通常のボックス情報 (,,,) とともに回帰されます。指向性のグランド トゥルース範囲 (-180 ~ +180°) は、-1 ~ +1 の間で正規化されます。
楕円回帰は、有向ボックス回帰と同じです。唯一の違いは出力表現です。したがって、損失関数も有向ボックス損失と同じになります。
私たちが提案するポリゴンベースのインスタンスセグメンテーション手法は、PolarMask 手法と PolyYOLO 手法に非常に似ています。 PolyYOLO のようなまばらなポリゴン ポイントと単一スケールの予測を使用する代わりに。高密度ポリゴンのアノテーションとマルチスケール予測を使用します。
60K の画像を含む Valeo 魚眼データセットで評価しました。画像は、ヨーロッパ、北米、アジアにある 4 台のサラウンドビュー カメラから撮影されました。
各モデルは、IoU しきい値 50% の平均精度メトリック (mAP) を使用して比較されます。結果を以下の表に示します。各アルゴリズムは、同一のパフォーマンスとインスタンスのセグメンテーションのパフォーマンスという 2 つの基準に基づいて評価されます。
以上がFisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズムの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。