ターゲット検出の分野では、YOLOv9 は実装プロセスで進歩を続けており、新しいアーキテクチャとメソッドを採用することで、従来の畳み込みのパラメータ利用率が効果的に向上し、パフォーマンスがはるかに優れています。前世代の製品。
YOLOv8 が 2023 年 1 月に正式にリリースされてから 1 年以上が経過し、ついに YOLOv9 が登場しました。
Joseph Redmon 氏、Ali Farhadi 氏らが 2015 年に第一世代の YOLO モデルを提案して以来、ターゲット検出分野の研究者たちはそれを何度も更新し、反復してきました。 YOLO は画像のグローバル情報に基づく予測システムであり、そのモデルのパフォーマンスは継続的に強化されています。アルゴリズムとテクノロジーを継続的に改善することで、研究者は目覚ましい成果を達成し、ターゲット検出タスクにおける YOLO をますます強力にしています。これらの継続的な改善と最適化は、ターゲット検出技術の開発に新たな機会と課題をもたらし、同時にこの分野の進歩と革新を促進してきました。
今回の YOLOv9 は、中央研究院、台湾の台北理工大学などと共同で開発されました。関連論文「Learning What You Want to」プログラマブル勾配情報を使って学ぶ』 》を公開しました。
論文アドレス: https://arxiv.org/pdf/2402.13616.pdf
GitHub アドレス: https://github.com/WongKinYiu/ yolov9
今日の深層学習手法は、モデルの予測結果が実際の状況に最も近くなるように、最適な目的関数を設計する方法に焦点を当てています。同時に、予測に十分な情報を取得できる適切なアーキテクチャを設計する必要があります。しかし、既存の方法は、入力データがレイヤーごとの特徴抽出と空間変換を受けるときに大量の情報が失われるという事実を無視しています。
したがって、YOLOv9 は、データが深いネットワークを介して送信されるときのデータ損失の重要な問題、つまり情報ボトルネックと可逆機能を深く研究しています。
研究者らは、複数の目標を達成するためにディープネットワークに必要なさまざまな変化に対処するために、プログラマブル勾配情報 (PGI) の概念を提案しました。 PGI は、目的関数を計算するためのターゲット タスクに完全な入力情報を提供することで、ネットワークの重みを更新するための信頼できる勾配情報を取得できます。
さらに、研究者らは、勾配パス計画に基づいた新しい軽量ネットワーク アーキテクチャ、つまり Generalized Efficient Layer Aggregation Network (GELAN) を設計しました。このアーキテクチャにより、PGI が軽量モデルで優れた結果を達成できることが確認されています。
研究者らは、MS COCO データセットに基づいて、ターゲット検出タスクに関して提案された GELAN と PGI を検証しました。結果は、深い畳み込みに基づいて開発された SOTA 手法と比較して、GELAN が従来の畳み込み演算子のみを使用してより優れたパラメーター利用率を達成していることを示しています。
PGIとしては適応力が高く、軽量モデルから大型モデルまで幅広く使用可能です。これを使用して完全な情報を取得できるため、 スクラッチからトレーニングしたモデルが、大規模なデータセットを使用して事前トレーニングされた SOTA モデルよりも優れた結果を達成できるようになります。以下の図 1 は、いくつかの比較結果を示しています。
新しくリリースされた YOLOv9 について、YOLOv7、YOLOv4、Scaled-YOLOv4、DPT の開発に参加した Alexey Bochkovskiy 氏は、YOLOv9 は次のように高く評価しました。畳み込みベースまたはトランスフォーマーのオブジェクト検出器よりも優れています。ソース: https://twitter.com/alexeyab84/status/1760685626247250342 そしてネチズンはこう言ったYOLOv9 は新しい SOTA リアルタイム目標検出器のようであり、独自のカスタム トレーニング チュートリアルも準備中です。
#さらに多くの「勤勉な」ネチズンが YOLOv9 モデルに pip サポートを追加しました。 ## 出典: https://twitter.com/kadirnar_ai/status/1760716187896283635 問題ステートメント ニューラル ネットワークの収束困難問題は、勾配の消失や勾配の飽和などの要因によるものだと考えられています。従来のディープ ニューラル ネットワーク には確かに存在します。しかし、最新のディープ ニューラル ネットワークは、さまざまな正規化関数と活性化関数を設計することで、上記の問題を根本的に解決しました。しかし、それでも、ディープ ニューラル ネットワーク では、収束速度が遅い、または収束効果が低いという問題がまだあります。では、この問題の本質は何でしょうか? 情報ボトルネックの詳細な分析を通じて、研究者らは問題の根本原因を推測しました。非常に深いネットワークから最初に勾配が渡された直後、目標を達成するために必要な情報の多くは、失った。この推論を検証するために、研究者らは初期重みを使用してさまざまなアーキテクチャのディープネットワークに対してフィードフォワード処理を実行しました。図 2 はこれを視覚的に示しています。明らかに、PlainNet は深い層での物体検出に必要な多くの重要な情報を失います。 ResNet、CSPNet、GELAN が保持できる重要な情報の割合に関しては、実際にトレーニング後に取得できる精度と正の相関があります。研究者らはさらに、上記の問題の原因を解決するために、可逆ネットワークに基づく方法を設計しました。 方法の紹介 プログラマブル勾配情報 (PGI) この研究は、新しい補助監視フレームワークであるプログラマブル勾配情報を提案します。 (PGI)、図 3(d) に示すように。 さらに、この研究では、新しいネットワーク アーキテクチャ GELAN も提案しています (次の図を参照)。研究者らは、CSPNet と ELAN の 2 つのニューラル ネットワーク アーキテクチャを組み合わせて、軽量性、推論速度、精度を考慮した一般化された効率的な層集約ネットワーク (GELAN) を設計しました。研究者らは、当初は畳み込み層のスタックのみを使用していた ELAN の機能を、あらゆる計算ブロックを使用できる新しいアーキテクチャに一般化しました。 YOLOv9 のパフォーマンスを評価するために、研究ではまず YOLOv9 と、次の方法で訓練された他のリアルタイム物体検出器を比較しました。スクラッチ 包括的な比較が行われ、結果が以下の表 1 に示されています。 YOLOv9 の各コンポーネントの役割を調査するために、この研究では一連のアブレーション実験を実施しました。 PGI に関して、研究者らは補助可逆枝とバックボーン ネットワークと首のマルチレベル補助情報のアブレーション研究をそれぞれ実施しました。表 4 に、すべての実験の結果を示します。表 4 からわかるように、PFH は深いモデルに対してのみ有効ですが、この論文で提案した PGI はさまざまな組み合わせで精度を向上させることができます。 研究者らはさらに、さまざまなサイズのモデルに PGI と深度モニタリングを実装し、結果を比較しました。結果を表 5 に示します。 図 6 は、ベースライン YOLOv7 から YOLOv9-E までコンポーネントを段階的に追加した結果を示しています。 #視覚化
以上がターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。