ホームページ テクノロジー周辺機器 AI ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

Feb 23, 2024 pm 12:49 PM
ターゲットの検出 業界 データが失われた yolov9

ターゲット検出の分野では、YOLOv9 は実装プロセスで進歩を続けており、新しいアーキテクチャとメソッドを採用することで、従来の畳み込みのパラメータ利用率が効果的に向上し、パフォーマンスがはるかに優れています。前世代の製品。

YOLOv8 が 2023 年 1 月に正式にリリースされてから 1 年以上が経過し、ついに YOLOv9 が登場しました。

Joseph Redmon 氏、Ali Farhadi 氏らが 2015 年に第一世代の YOLO モデルを提案して以来、ターゲット検出分野の研究者たちはそれを何度も更新し、反復してきました。 YOLO は画像のグローバル情報に基づく予測システムであり、そのモデルのパフォーマンスは継続的に強化されています。アルゴリズムとテクノロジーを継続的に改善することで、研究者は目覚ましい成果を達成し、ターゲット検出タスクにおける YOLO をますます強力にしています。これらの継続的な改善と最適化は、ターゲット検出技術の開発に新たな機会と課題をもたらし、同時にこの分野の進歩と革新を促進してきました。

今回の YOLOv9 は、中央研究院、台湾の台北理工大学などと共同で開発されました。関連論文「Learning What You Want to」プログラマブル勾配情報を使って学ぶ』 》を公開しました。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

論文アドレス: https://arxiv.org/pdf/2402.13616.pdf

GitHub アドレス: https://github.com/WongKinYiu/ yolov9

今日の深層学習手法は、モデルの予測結果が実際の状況に最も近くなるように、最適な目的関数を設計する方法に焦点を当てています。同時に、予測に十分な情報を取得できる適切なアーキテクチャを設計する必要があります。しかし、既存の方法は、入力データがレイヤーごとの特徴抽出と空間変換を受けるときに大量の情報が失われるという事実を無視しています。

したがって、YOLOv9 は、データが深いネットワークを介して送信されるときのデータ損失の重要な問題、つまり情報ボトルネックと可逆機能を深く研究しています。

研究者らは、複数の目標を達成するためにディープネットワークに必要なさまざまな変化に対処するために、プログラマブル勾配情報 (PGI) の概念を提案しました。 PGI は、目的関数を計算するためのターゲット タスクに完全な入力情報を提供することで、ネットワークの重みを更新するための信頼できる勾配情報を取得できます。

さらに、研究者らは、勾配パス計画に基づいた新しい軽量ネットワーク アーキテクチャ、つまり Generalized Efficient Layer Aggregation Network (GELAN) を設計しました。このアーキテクチャにより、PGI が軽量モデルで優れた結果を達成できることが確認されています。

研究者らは、MS COCO データセットに基づいて、ターゲット検出タスクに関して提案された GELAN と PGI を検証しました。結果は、深い畳み込みに基づいて開発された SOTA 手法と比較して、GELAN が従来の畳み込み演算子のみを使用してより優れたパラメーター利用率を達成していることを示しています。

PGIとしては適応力が高く、軽量モデルから大型モデルまで幅広く使用可能です。これを使用して完全な情報を取得できるため、 スクラッチからトレーニングしたモデルが、大規模なデータセットを使用して事前トレーニングされた SOTA モデルよりも優れた結果を達成できるようになります。以下の図 1 は、いくつかの比較結果を示しています。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します
新しくリリースされた YOLOv9 について、YOLOv7、YOLOv4、Scaled-YOLOv4、DPT の開発に参加した Alexey Bochkovskiy 氏は、YOLOv9 は次のように高く評価しました。畳み込みベースまたはトランスフォーマーのオブジェクト検出器よりも優れています。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

ソース: https://twitter.com/alexeyab84/status/1760685626247250342 そしてネチズンはこう言ったYOLOv9 は新しい SOTA リアルタイム目標検出器のようであり、独自のカスタム トレーニング チュートリアルも準備中です。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します
ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

#さらに多くの「勤勉な」ネチズンが YOLOv9 モデルに pip サポートを追加しました。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

## 出典: https://twitter.com/kadirnar_ai/status/1760716187896283635

次に YOLOv9 の詳細を見てみましょう。

問題ステートメント

通常、ディープ

ニューラル ネットワークの収束困難問題は、勾配の消失や勾配の飽和などの要因によるものだと考えられています。従来のディープ ニューラル ネットワーク には確かに存在します。しかし、最新のディープ ニューラル ネットワークは、さまざまな正規化関数と活性化関数を設計することで、上記の問題を根本的に解決しました。しかし、それでも、ディープ ニューラル ネットワーク では、収束速度が遅い、または収束効果が低いという問題がまだあります。では、この問題の本質は何でしょうか? 情報ボトルネックの詳細な分析を通じて、研究者らは問題の根本原因を推測しました。非常に深いネットワークから最初に勾配が渡された直後、目標を達成するために必要な情報の多くは、失った。この推論を検証するために、研究者らは初期重みを使用してさまざまなアーキテクチャのディープネットワークに対してフィードフォワード処理を実行しました。図 2 はこれを視覚的に示しています。明らかに、PlainNet は深い層での物体検出に必要な多くの重要な情報を失います。 ResNet、CSPNet、GELAN が保持できる重要な情報の割合に関しては、実際にトレーニング後に取得できる精度と正の相関があります。研究者らはさらに、上記の問題の原因を解決するために、可逆ネットワークに基づく方法を設計しました。

方法の紹介

プログラマブル勾配情報 (PGI)

この研究は、新しい補助監視フレームワークであるプログラマブル勾配情報を提案します。 (PGI)、図 3(d) に示すように。

PGI は主に 3 つの部分、つまり (1) メインブランチ、(2) 補助可逆ブランチ、(3) マルチレベル補助情報から構成されます。

PGI の推論プロセスはメイン ブランチのみを使用するため、追加の推論コストはありません。
  • 補助的な可逆ブランチはニューラル ネットワークの処理に使用されます。深化によって引き起こされる問題、ネットワークの深化は情報のボトルネックを引き起こし、損失関数が信頼性の高い勾配を生成できなくなります。
  • マルチレベルの補助情報は、エラー蓄積問題に対処するように設計されています。深い監視、特に複数の予測ブランチを持つアーキテクチャと軽量モデルによって引き起こされます。
  • GELAN ネットワーク

さらに、この研究では、新しいネットワーク アーキテクチャ GELAN も提案しています (次の図を参照)。研究者らは、CSPNet と ELAN の 2 つのニューラル ネットワーク アーキテクチャを組み合わせて、軽量性、推論速度、精度を考慮した一般化された効率的な層集約ネットワーク (GELAN) を設計しました。研究者らは、当初は畳み込み層のスタックのみを使用していた ELAN の機能を、あらゆる計算ブロックを使用できる新しいアーキテクチャに一般化しました。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します実験結果

YOLOv9 のパフォーマンスを評価するために、研究ではまず YOLOv9 と、次の方法で訓練された他のリアルタイム物体検出器を比較しました。スクラッチ 包括的な比較が行われ、結果が以下の表 1 に示されています。

調査では、ImageNet の事前トレーニング済みモデルも比較に含めました。結果を以下の図 5 に示します。従来の畳み込みを使用する YOLOv9 は、パラメーターの利用においてディープ コンボリューションを使用する YOLO MS よりもさらに優れていることは注目に値します。 ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活しますアブレーション実験

YOLOv9 の各コンポーネントの役割を調査するために、この研究では一連のアブレーション実験を実施しました。

この研究では、まず GELAN のコンピューティング ブロックでアブレーション実験が行われました。以下の表 2 に示すように、この研究では、ELAN の畳み込み層を異なる計算ブロックに置き換えることによって、システムが良好なパフォーマンスを維持できることがわかりました。

研究では、次に、ELAN ブロック深さと CSP ブロック深さの異なるサイズの GELAN でアブレーション実験を実施しました。結果を以下の表 3 に示します。 ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します
ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

PGI に関して、研究者らは補助可逆枝とバックボーン ネットワークと首のマルチレベル補助情報のアブレーション研究をそれぞれ実施しました。表 4 に、すべての実験の結果を示します。表 4 からわかるように、PFH は深いモデルに対してのみ有効ですが、この論文で提案した PGI はさまざまな組み合わせで精度を向上させることができます。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

研究者らはさらに、さまざまなサイズのモデルに PGI と深度モニタリングを実装し、結果を比較しました。結果を表 5 に示します。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

図 6 は、ベースライン YOLOv7 から YOLOv9-E までコンポーネントを段階的に追加した結果を示しています。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

#視覚化

研究者らは情報ボトルネックの問題を調査し、視覚化しました。図 6 は、次の手順で取得した特徴マップの視覚化結果を示しています。ランダムな初期重みをフィードフォワードとして使用するアーキテクチャ。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します
図 7 は、PGI がトレーニング中により信頼性の高い勾配を提供できるかどうかを示しています。これにより、更新に使用されるパラメーターが入力データとターゲットの間の関係を効果的に捉えることができます。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

技術的な詳細については、元の記事を参照してください。

以上がターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

C言語でCharを変換する方法 C言語でCharを変換する方法 Apr 03, 2025 pm 03:21 PM

C言語では、charタイプの変換は、キャスト:キャスト文字を使用することにより、別のタイプに直接変換できます。自動タイプ変換:あるタイプのデータが別のタイプの値に対応できる場合、コンパイラは自動的に変換します。

推奨されるXMLフォーマットツール 推奨されるXMLフォーマットツール Apr 02, 2025 pm 09:03 PM

XMLフォーマットツールは、読みやすさと理解を向上させるために、ルールに従ってコードを入力できます。ツールを選択するときは、カスタマイズ機能、特別な状況の処理、パフォーマンス、使いやすさに注意してください。一般的に使用されるツールタイプには、オンラインツール、IDEプラグイン、コマンドラインツールが含まれます。

マルチプロセスログを作成するときに、同時性が安全で効率的であることを確認する方法は? マルチプロセスログを作成するときに、同時性が安全で効率的であることを確認する方法は? Apr 02, 2025 pm 03:51 PM

マルチプロセスのログライティングの並行性セキュリティの問題を効率的に処理します。複数のプロセスが同じログファイルを同時に書き込みます。並行性が安全で効率的であることを確認する方法は?これは...

GOでは、複数のゴルチン共有のデータベース接続を正しく閉じる方法は? GOでは、複数のゴルチン共有のデータベース接続を正しく閉じる方法は? Apr 02, 2025 pm 04:33 PM

GORoutineでGoroutineでデータベース接続を共有するとき、複数のゴルチンがデータベース接続を共有する場合、これを正しく閉じる方法...

ベクトルpsを描画する方法 ベクトルpsを描画する方法 Apr 06, 2025 pm 10:00 PM

ベクトル図は、スケーラビリティ、明確さ、および小さなファイルサイズの利点を持つ数学的曲線を使用して作成された画像です。ベクトルグラフィックを描画するには、ベクトル編集ソフトウェアを使用して、形状を作成し、形状を組み合わせ、色の追加、テキスト、グループ化、レイヤーを組み合わせて画像を作成する必要があります。

特定のシステムバージョンでMySQLが報告したエラーのソリューション 特定のシステムバージョンでMySQLが報告したエラーのソリューション Apr 08, 2025 am 11:54 AM

MySQLのインストールエラーのソリューションは次のとおりです。1。システム環境を慎重に確認して、MySQL依存関係ライブラリの要件が満たされていることを確認します。異なるオペレーティングシステムとバージョンの要件は異なります。 2.エラーメッセージを慎重に読み取り、依存関係のインストールやSUDOコマンドの使用など、プロンプト(ライブラリファイルの欠落やアクセス許可など)に従って対応する測定値を取得します。 3.必要に応じて、ソースコードをインストールし、コンパイルログを慎重に確認してみてください。これには、一定量のLinuxの知識と経験が必要です。最終的に問題を解決する鍵は、システム環境とエラー情報を慎重に確認し、公式の文書を参照することです。

XMLの変更は構造に影響しますか? XMLの変更は構造に影響しますか? Apr 02, 2025 pm 06:33 PM

XMLコンテンツの変更が構造に影響するかどうかは、変更の性質に依存します。テキストコンテンツを単に変更するだけでは、通常、構造に影響しませんが、要素の追加/削除、属性の変更、または有効性チェックの失敗を含む変更は、構造に影響します。 XMLスキーマを理解し、XMLパーサーを使用し、単体テストを作成し、バージョンの採用により影響とリスクが最小限に抑えられ、XML構造の完全性と一貫性が確保されます。

MySQLを解決する方法は開始できません MySQLを解決する方法は開始できません Apr 08, 2025 pm 02:21 PM

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合(ポート占有率をチェックして構成の変更)、許可の問題(ユーザー許可を実行するサービスを確認)、構成ファイルエラー(パラメーター設定のチェック)、データディレクトリの破損(テーブルスペースの復元)、INNODBテーブルスペースの問題(IBDATA1ファイルのチェック)、プラグインロード障害(エラーログのチェック)が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

See all articles