論文アドレス: YOLOCS: Object Detection based on Dense Channel Compression for feature Spatial Solidification (arxiv.org)
今日の共有では、研究者は特徴の浄化と勾配の特徴を調べました。ネットワーク内の順方向伝播と逆方向伝播に焦点を当てた、バックプロパゲーション中のチャネル特性と畳み込みカーネルの間の相関関係。そこで研究者らは、高密度チャネル圧縮と呼ばれる特徴空間固定化手法を提案した。この方法の核となる概念に基づいて、バックボーンおよびヘッド ネットワーク用の 2 つの革新的なモジュール、つまり特徴空間固定化のための高密度チャネル圧縮 (DCFS) と非対称マルチレベル圧縮デカップリング ヘッド (ADH) が導入されています。 YOLOv5 モデルに統合すると、これら 2 つのモジュールは並外れたパフォーマンスを発揮し、YOLOCS として知られる改良されたモデルが誕生しました。
MSCOCO データセットで評価すると、大、中、小の YOLOCS モデルの AP はそれぞれ 50.1%、47.6%、42.5% です。 YOLOv5 モデルと同様の推論速度を維持しながら、大、中、小の YOLOCS モデルは、YOLOv5 の AP に対してそれぞれ 1.1%、2.3%、5.2% の利点を達成しました。
近年、コンピュータービジョンの分野で物体検出技術が広く注目を集めています。そのうち、シングルショットマルチボックスアルゴリズムに基づく目標検出技術(Single Shot Multi Box Detector、略称SSD)と畳み込みニューラルネットワークに基づく目標検出技術(Convolutional Neural Networks、略称CNN)は、最も一般的に使用される 2 つのターゲット検出テクノロジー。しかし、シングルショットマルチフレームアルゴリズムの精度が低く、畳み込みニューラルネットワークに基づくターゲット検出技術の計算複雑さのため、効率的で高精度のターゲット検出技術を見つけることが現在の研究のホットスポットとなっています。 1つ。
Dense Channel Compression (DCC) は、畳み込みニューラル ネットワーク内の特徴マップを空間的に固定化することでネットワーク パラメーターの圧縮と高速化を実現する、新しい畳み込みニューラル ネットワーク圧縮テクノロジーです。ただし、ターゲット検出の分野での DCC 技術の応用は十分に研究されていません。 高密度チャネル圧縮 (DCC) テクノロジーは、ネットワーク パラメーターの数を削減することで計算効率を向上させることを目的としています。具体的には、DCC は、畳み込み層の出力特徴マップに対してチャネル圧縮を実行することにより、畳み込み層のパラメータの数を削減します。この圧縮技術は、冗長で不要なチャネルを削除するか、低ランク分解などの方法を使用することで実現できます。 DCC 技術は画像分類タスクに非常に効果的ですが、そのため、YOLOCS (YOLO with Dense Channel Compression) と呼ばれる、高密度チャネル圧縮に基づくターゲット検出技術が提案されています。 YOLOCS テクノロジーは、DCC テクノロジーと YOLO (You Only Look Once) アルゴリズムを組み合わせて、ターゲット検出の効率的かつ高精度な処理を実現します。具体的には、YOLOCS テクノロジーは、DCC テクノロジーを使用して特徴マップを空間的に固定化し、それによってターゲット位置の正確な位置決めを実現します。同時に、YOLOCS テクノロジーは、YOLO アルゴリズムのシングルショット マルチフレーム アルゴリズムの特性を使用してターゲットの分類を迅速に実行します。計算。
03 新しいフレームワーク
フィーチャ空間ソリッド化構造 (DCFS) のための高密度チャネル圧縮
さらに、各層からの圧縮された特徴には、より大きな畳み込みカーネルの重み (3×3) が含まれており、出力特徴の受容野を効果的に拡張します。このアプローチは、特徴空間固定化密チャネル圧縮と呼ばれます。特徴空間の固定化のための高密度チャネル圧縮の背後にある理論的根拠は、チャネル圧縮を容易にするためにより大きなコンボリューション カーネルを利用することに依存しています。この手法には 2 つの重要な利点があります。まず、順方向伝播中に特徴認識の受容野が拡張され、それによって地域的に関連する特徴の詳細が確実に組み込まれ、圧縮段階全体での特徴の損失が最小限に抑えられます。第 2 に、誤差逆伝播中の誤差詳細の強化により、より正確な重み調整が可能になります。
これら 2 つの利点をさらに説明するために、以下に示すように、2 つの異なるカーネル タイプ (1×1 と 3×3) の畳み込みを使用して 2 つのチャネルが圧縮されます。
DCFS のネットワーク 構造は次のようになります。下の図のとおりです。ネットワークの順方向伝播プロセス中にチャネルを徐々に圧縮するために、3 層のボトルネック構造が採用されています。ハーフチャネル 3×3 畳み込みがすべてのブランチに適用され、その後バッチ正規化 (BN) および活性化関数レイヤーが続きます。続いて、1 × 1 畳み込み層を使用して、入力特徴チャネルと一致するように出力特徴チャネルを圧縮します。
YOLOX モデルの分離ヘッド問題を解決するために、研究者はのシリーズ研究と実験。結果は、分離されたヘッド構造の利用と関連する損失関数との間の論理的相関関係を明らかにします。具体的には、さまざまなタスクに対して、損失計算の複雑さに応じてデカップリング ヘッドの構造を調整する必要があります。さらに、分離されたヘッド構造がさまざまなタスクに適用される場合、前の層の機能チャネル (以下に示すように) をタスク チャネルに直接圧縮すると、最終出力寸法の違いにより大幅な機能損失が発生する可能性があります。これにより、モデルの全体的なパフォーマンスに悪影響を及ぼす可能性があります。
さらに、特徴空間の固定化のために提案された高密度チャネル圧縮方法を考慮する場合、出力チャネルに一致するように最終層のチャネル数を直接減らすと、順伝播中に特徴の損失が発生する可能性があり、ネットワークのパフォーマンスが低下する可能性があります。 。同時に、バックプロパゲーションのコンテキストでは、この構造は次善のエラーバックプロパゲーションを引き起こし、勾配の安定性の達成を妨げる可能性があります。これらの課題に対処するために、非対称多段圧縮デカップリング ヘッドと呼ばれる新しいデカップリング ヘッドが導入されました (以下の図 (b) を参照)。
具体的には、研究者らはターゲットスコアリングタスク専用のネットワークパスを深化し、3つの畳み込みを使用してタスクの受容野とパラメーターの数を拡張しました。同時に、各畳み込み層の特徴がチャネル次元に沿って圧縮されます。この方法は、ターゲット スコアリング タスクに関連するトレーニングの困難さを効果的に軽減し、モデルのパフォーマンスを向上させるだけでなく、分離されたヘッド モジュールのパラメーターと GFLOP を大幅に削減し、それによって推論速度を大幅に向上させます。さらに、1 つの畳み込み層を使用して、分類タスクと境界ボックス タスクを分離します。これは、一致する正のサンプルの場合、両方のタスクに関連する損失が比較的小さいため、過度の拡張が回避されるためです。このアプローチにより、デカップリング ヘッダーのパラメーターと GFLOP が大幅に削減され、最終的に推論速度が向上します。
04 実験の視覚化MS-COCO val2017 でのアブレーション実験
MS-COCO 2017 test-dev での AP に関する YOLOCS、YOLOX、YOLOv5-r6.1[7] の比較
以上がYoloCS: 特徴マップの空間の複雑さを効果的に軽減しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。