待望の古典的な検出に、新たな攻撃の波が到来しました - YOLOv5。その中で、YOLOv5 には完全なファイルがありません。現時点で最も重要なことは、ターゲット検出の分野で大きなメリットがあり、特定のシナリオで大幅に改善できる YOLOv4 を理解することです。今日は YOLOv4 を分析します。次号では、YOLOv5 を Apple 携帯電話に導入するか、端末のカメラを通じてリアルタイムで検出するかを練習します。
畳み込みニューラル ネットワーク (CNN) の精度を向上させると考えられる機能が多数あります。これらの機能の組み合わせは、大規模なデータセットで実際にテストし、結果を理論的に検証する必要があります。一部の関数は特定のモデル、特定の問題、または小規模なデータセットでのみ動作しますが、バッチ正規化や残差結合などの一部の関数はほとんどのモデル、タスク、データセットで動作します。このペーパーでは、これらの共通の機能には、重み付け残差接続 (WRC)、クロスステージ接続 (CSP)、ミニバッチ間正規化 (CMbN)、自己敵対的トレーニング (SAT)、および Mish アクティベーションが含まれることを前提としています。このペーパーでは、WRC、CSP、CMbN、SAT、エラー アクティベーション、モザイク データ拡張、CMbN、DropBlock 正規化、CIoU 損失といった新機能を使用し、それらのいくつかを組み合わせて次の効果を実現します。 AP 43.5% (AP50 65.7%)、使用時MS+COCO データセット、Tesla V100 でのリアルタイム速度は 65 FPS。
モザイクデータ強化
学習用に4枚の画像を1枚の画像に入れることは、偽装してミニバッチを増やすことに相当します。これは、2 つの画像を混合する CutMix をベースにした改良版です。
1 つの画像に対して、ニューラル ネットワークに画像を逆に更新させ、画像に変更と摂動を加えます。次に、この画像をトレーニングします。この方法は画像の様式化の主な方法であり、ネットワークが画像を逆に更新して画像を様式化することができます。
自己敵対的トレーニング (SAT) も、2 つの前方後方ステージで動作する新しいデータ拡張手法を表します。このようにして、ニューラル ネットワークはネットワークの重みの代わりに元の画像を変更します。それ自体に対する敵対的な攻撃。元の画像を変更して、画像上に目的のオブジェクトが存在しないように見せかけます。第 2 段階では、この変更された画像上のオブジェクトを通常の方法で検出するようにニューラル ネットワークがトレーニングされます。
クロスミニバッチ正規化
CmBNは、以下の図に示すように、クロスミニバッチ正規化(CMBN)として定義されるCBNの修正バージョンを表します。これは、単一バッチ内の最小バッチ間の統計のみを収集します。
SAMを変更
SAMの空間ごとの注意から点ごとの注意へ
;PANを変更し、チャネルを加算(追加)から連結
。 実験
実験を通じて、最強のターゲット検出カレイドスコープでの実験であることがわかります。分類ネットワーク:
CSPResNeXt-50 分類器精度
CSPDarknet-53 分類器精度
YOLOv4 検出ネットワークでは、4 つの損失 (GIoU、CIoU、DIoU、MSE)、ラベル平滑化、コサイン学習レート、遺伝的アルゴリズムのハイパーパラメータ選択、モザイク データ強化およびその他の方法。次の表は、YOLOv4 検出ネットワークでのアブレーション実験の結果です:
CSPResNeXt50-PANet-SPP、512x512
トレーニングに異なるトレーニング ウェイト モデルを使用。
さまざまなミニバッチ サイズの結果:
最後に、3 つの異なるシリーズの GPU (Maxwell、Pascal、Volta) での COCO データセットの結果の比較:
最も興味深いのは、COCO データセットで他のフレームワーク (速度と精度) と比較できることです。
以上がyolov を iPhone または端末に導入するプロセス全体の実践の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。