ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します-AI-php.cn

ホームページ

テクノロジー周辺機器

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

PHPz

Feb 23, 2024 pm 12:49 PM

ターゲットの検出業界データが失われた yolov9

ターゲット検出の分野では、YOLOv9 は実装プロセスで進歩を続けており、新しいアーキテクチャとメソッドを採用することで、従来の畳み込みのパラメータ利用率が効果的に向上し、パフォーマンスがはるかに優れています。前世代の製品。

YOLOv8 が 2023 年 1 月に正式にリリースされてから 1 年以上が経過し、ついに YOLOv9 が登場しました。

Joseph Redmon 氏、Ali Farhadi 氏らが 2015 年に第一世代の YOLO モデルを提案して以来、ターゲット検出分野の研究者たちはそれを何度も更新し、反復してきました。 YOLO は画像のグローバル情報に基づく予測システムであり、そのモデルのパフォーマンスは継続的に強化されています。アルゴリズムとテクノロジーを継続的に改善することで、研究者は目覚ましい成果を達成し、ターゲット検出タスクにおける YOLO をますます強力にしています。これらの継続的な改善と最適化は、ターゲット検出技術の開発に新たな機会と課題をもたらし、同時にこの分野の進歩と革新を促進してきました。

今回の YOLOv9 は、中央研究院、台湾の台北理工大学などと共同で開発されました。関連論文「Learning What You Want to」プログラマブル勾配情報を使って学ぶ』》を公開しました。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

論文アドレス: https://arxiv.org/pdf/2402.13616.pdf

GitHub アドレス: https://github.com/WongKinYiu/ yolov9

今日の深層学習手法は、モデルの予測結果が実際の状況に最も近くなるように、最適な目的関数を設計する方法に焦点を当てています。同時に、予測に十分な情報を取得できる適切なアーキテクチャを設計する必要があります。しかし、既存の方法は、入力データがレイヤーごとの特徴抽出と空間変換を受けるときに大量の情報が失われるという事実を無視しています。

したがって、YOLOv9 は、データが深いネットワークを介して送信されるときのデータ損失の重要な問題、つまり情報ボトルネックと可逆機能を深く研究しています。

研究者らは、複数の目標を達成するためにディープネットワークに必要なさまざまな変化に対処するために、プログラマブル勾配情報 (PGI) の概念を提案しました。 PGI は、目的関数を計算するためのターゲットタスクに完全な入力情報を提供することで、ネットワークの重みを更新するための信頼できる勾配情報を取得できます。

さらに、研究者らは、勾配パス計画に基づいた新しい軽量ネットワークアーキテクチャ、つまり Generalized Efficient Layer Aggregation Network (GELAN) を設計しました。このアーキテクチャにより、PGI が軽量モデルで優れた結果を達成できることが確認されています。

研究者らは、MS COCO データセットに基づいて、ターゲット検出タスクに関して提案された GELAN と PGI を検証しました。結果は、深い畳み込みに基づいて開発された SOTA 手法と比較して、GELAN が従来の畳み込み演算子のみを使用してより優れたパラメーター利用率を達成していることを示しています。

PGIとしては適応力が高く、軽量モデルから大型モデルまで幅広く使用可能です。これを使用して完全な情報を取得できるため、スクラッチからトレーニングしたモデルが、大規模なデータセットを使用して事前トレーニングされた SOTA モデルよりも優れた結果を達成できるようになります。以下の図 1 は、いくつかの比較結果を示しています。

新しくリリースされた YOLOv9 について、YOLOv7、YOLOv4、Scaled-YOLOv4、DPT の開発に参加した Alexey Bochkovskiy 氏は、YOLOv9 は次のように高く評価しました。畳み込みベースまたはトランスフォーマーのオブジェクト検出器よりも優れています。

ソース: https://twitter.com/alexeyab84/status/1760685626247250342 そしてネチズンはこう言ったYOLOv9 は新しい SOTA リアルタイム目標検出器のようであり、独自のカスタムトレーニングチュートリアルも準備中です。

#さらに多くの「勤勉な」ネチズンが YOLOv9 モデルに pip サポートを追加しました。

## 出典: https://twitter.com/kadirnar_ai/status/1760716187896283635

次に YOLOv9 の詳細を見てみましょう。

問題ステートメント
通常、ディープ
ニューラルネットワークの収束困難問題は、勾配の消失や勾配の飽和などの要因によるものだと考えられています。従来のディープニューラルネットワークには確かに存在します。しかし、最新のディープニューラルネットワークは、さまざまな正規化関数と活性化関数を設計することで、上記の問題を根本的に解決しました。しかし、それでも、ディープニューラルネットワークでは、収束速度が遅い、または収束効果が低いという問題がまだあります。では、この問題の本質は何でしょうか？情報ボトルネックの詳細な分析を通じて、研究者らは問題の根本原因を推測しました。非常に深いネットワークから最初に勾配が渡された直後、目標を達成するために必要な情報の多くは、失った。この推論を検証するために、研究者らは初期重みを使用してさまざまなアーキテクチャのディープネットワークに対してフィードフォワード処理を実行しました。図 2 はこれを視覚的に示しています。明らかに、PlainNet は深い層での物体検出に必要な多くの重要な情報を失います。 ResNet、CSPNet、GELAN が保持できる重要な情報の割合に関しては、実際にトレーニング後に取得できる精度と正の相関があります。研究者らはさらに、上記の問題の原因を解決するために、可逆ネットワークに基づく方法を設計しました。

方法の紹介

プログラマブル勾配情報 (PGI)

この研究は、新しい補助監視フレームワークであるプログラマブル勾配情報を提案します。 (PGI)、図 3(d) に示すように。
PGI は主に 3 つの部分、つまり (1) メインブランチ、(2) 補助可逆ブランチ、(3) マルチレベル補助情報から構成されます。

PGI の推論プロセスはメインブランチのみを使用するため、追加の推論コストはありません。

補助的な可逆ブランチはニューラルネットワークの処理に使用されます。深化によって引き起こされる問題、ネットワークの深化は情報のボトルネックを引き起こし、損失関数が信頼性の高い勾配を生成できなくなります。

マルチレベルの補助情報は、エラー蓄積問題に対処するように設計されています。深い監視、特に複数の予測ブランチを持つアーキテクチャと軽量モデルによって引き起こされます。

GELAN ネットワーク

さらに、この研究では、新しいネットワークアーキテクチャ GELAN も提案しています (次の図を参照)。研究者らは、CSPNet と ELAN の 2 つのニューラルネットワークアーキテクチャを組み合わせて、軽量性、推論速度、精度を考慮した一般化された効率的な層集約ネットワーク (GELAN) を設計しました。研究者らは、当初は畳み込み層のスタックのみを使用していた ELAN の機能を、あらゆる計算ブロックを使用できる新しいアーキテクチャに一般化しました。

実験結果
YOLOv9 のパフォーマンスを評価するために、研究ではまず YOLOv9 と、次の方法で訓練された他のリアルタイム物体検出器を比較しました。スクラッチ包括的な比較が行われ、結果が以下の表 1 に示されています。

調査では、ImageNet の事前トレーニング済みモデルも比較に含めました。結果を以下の図 5 に示します。従来の畳み込みを使用する YOLOv9 は、パラメーターの利用においてディープコンボリューションを使用する YOLO MS よりもさらに優れていることは注目に値します。

アブレーション実験
YOLOv9 の各コンポーネントの役割を調査するために、この研究では一連のアブレーション実験を実施しました。
この研究では、まず GELAN のコンピューティングブロックでアブレーション実験が行われました。以下の表 2 に示すように、この研究では、ELAN の畳み込み層を異なる計算ブロックに置き換えることによって、システムが良好なパフォーマンスを維持できることがわかりました。

研究では、次に、ELAN ブロック深さと CSP ブロック深さの異なるサイズの GELAN でアブレーション実験を実施しました。結果を以下の表 3 に示します。
PGI に関して、研究者らは補助可逆枝とバックボーンネットワークと首のマルチレベル補助情報のアブレーション研究をそれぞれ実施しました。表 4 に、すべての実験の結果を示します。表 4 からわかるように、PFH は深いモデルに対してのみ有効ですが、この論文で提案した PGI はさまざまな組み合わせで精度を向上させることができます。

研究者らはさらに、さまざまなサイズのモデルに PGI と深度モニタリングを実装し、結果を比較しました。結果を表 5 に示します。

図 6 は、ベースライン YOLOv7 から YOLOv9-E までコンポーネントを段階的に追加した結果を示しています。

#視覚化
研究者らは情報ボトルネックの問題を調査し、視覚化しました。図 6 は、次の手順で取得した特徴マップの視覚化結果を示しています。ランダムな初期重みをフィードフォワードとして使用するアーキテクチャ。

図 7 は、PGI がトレーニング中により信頼性の高い勾配を提供できるかどうかを示しています。これにより、更新に使用されるパラメーターが入力データとターゲットの間の関係を効果的に捉えることができます。

技術的な詳細については、元の記事を参照してください。

以上がターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7467

CakePHP チュートリアル

1376

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

MySQLを解決する方法は開始できません Apr 08, 2025 pm 02:21 PM

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合（ポート占有率をチェックして構成の変更）、許可の問題（ユーザー許可を実行するサービスを確認）、構成ファイルエラー（パラメーター設定のチェック）、データディレクトリの破損（テーブルスペースの復元）、INNODBテーブルスペースの問題（IBDATA1ファイルのチェック）、プラグインロード障害（エラーログのチェック）が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

特定のシステムバージョンでMySQLが報告したエラーのソリューション Apr 08, 2025 am 11:54 AM

MySQLのインストールエラーのソリューションは次のとおりです。1。システム環境を慎重に確認して、MySQL依存関係ライブラリの要件が満たされていることを確認します。異なるオペレーティングシステムとバージョンの要件は異なります。 2.エラーメッセージを慎重に読み取り、依存関係のインストールやSUDOコマンドの使用など、プロンプト（ライブラリファイルの欠落やアクセス許可など）に従って対応する測定値を取得します。 3.必要に応じて、ソースコードをインストールし、コンパイルログを慎重に確認してみてください。これには、一定量のLinuxの知識と経験が必要です。最終的に問題を解決する鍵は、システム環境とエラー情報を慎重に確認し、公式の文書を参照することです。

SQL DateTimeの使用方法 Apr 09, 2025 pm 06:09 PM

DateTimeデータ型は、0001-01-01-01 00:00:00：00:00：00:00：00:00：00:00:00：59：59.999999999：59：59.99999999の範囲の高精度の日付情報を保存するために使用され、内部はdateTime（精度）です。変換機能は機能しますが、精度、範囲、およびタイムゾーンを変換する際に潜在的な問題に注意する必要があります。

NAVICATでデータベースパスワードを取得できますか？ Apr 08, 2025 pm 09:51 PM

NAVICAT自体はデータベースパスワードを保存せず、暗号化されたパスワードのみを取得できます。解決策：1。パスワードマネージャーを確認します。 2。NAVICATの「パスワードを記憶する」機能を確認します。 3.データベースパスワードをリセットします。 4.データベース管理者に連絡してください。

mysqlはインターネットが必要ですか？ Apr 08, 2025 pm 02:18 PM

MySQLは、基本的なデータストレージと管理のためにネットワーク接続なしで実行できます。ただし、他のシステムとのやり取り、リモートアクセス、または複製やクラスタリングなどの高度な機能を使用するには、ネットワーク接続が必要です。さらに、セキュリティ対策（ファイアウォールなど）、パフォーマンスの最適化（適切なネットワーク接続を選択）、およびデータバックアップは、インターネットに接続するために重要です。

MySQLのインストール後にデータベースをバックアップおよび復元する方法 Apr 08, 2025 am 11:45 AM

絶対的なMYSQLデータベースバックアップとリカバリソリューションはありません。データの量、ビジネスの重要性、RTO、RPOに基づいて選択する必要があります。 1.論理バックアップ（MySQLDUMP）はシンプルで使いやすく、小さなデータベースに適していますが、遅くて巨大なファイルです。 2。物理的なバックアップ（Xtrabackup）は高速で、大規模なデータベースに適していますが、使用がより複雑です。バックアップ戦略では、バックアップ頻度（RPO決定）、バックアップ方法（データの量と時間の要件決定）、ストレージの場所（オフサイトストレージがより安全になります）を考慮し、バックアップファイルの腐敗、許可の問題、ネットワーク中断、未検証の問題、データセキュリティを確保するために、バックアップとリカバリプロセスを定期的にテストする必要があります。

MariadBのNAVICATでデータベースパスワードを表示する方法は？ Apr 08, 2025 pm 09:18 PM

Passwordが暗号化された形式で保存されているため、MariadbのNavicatはデータベースパスワードを直接表示できません。データベースのセキュリティを確保するには、パスワードをリセットするには3つの方法があります。NAVICATを介してパスワードをリセットし、複雑なパスワードを設定します。構成ファイルを表示します（推奨されていない、高リスク）。システムコマンドラインツールを使用します（推奨されません。コマンドラインツールに習熟する必要があります）。

PostgreSQLデータベースパスワードを表示するNAVICATの方法 Apr 08, 2025 pm 09:57 PM

NAVICATはセキュリティ上の理由で暗号化されたパスワードを保存するため、NAVICATからPostgreSQLパスワードを直接表示することは不可能です。パスワードを確認するには、データベースに接続してみてください。パスワードを変更するには、PSQLまたはNAVICATのグラフィカルインターフェイスを使用してください。他の目的のために、ハードコーディングされたパスワードを避けるために、コード内の接続パラメーターを構成する必要があります。セキュリティを強化するには、強力なパスワード、定期的な変更を使用し、多要素認証を有効にすることをお勧めします。

See all articles