ホームページ テクノロジー周辺機器 AI ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

Feb 23, 2024 pm 12:49 PM
ターゲットの検出 業界 データが失われた yolov9

ターゲット検出の分野では、YOLOv9 は実装プロセスで進歩を続けており、新しいアーキテクチャとメソッドを採用することで、従来の畳み込みのパラメータ利用率が効果的に向上し、パフォーマンスがはるかに優れています。前世代の製品。

YOLOv8 が 2023 年 1 月に正式にリリースされてから 1 年以上が経過し、ついに YOLOv9 が登場しました。

Joseph Redmon 氏、Ali Farhadi 氏らが 2015 年に第一世代の YOLO モデルを提案して以来、ターゲット検出分野の研究者たちはそれを何度も更新し、反復してきました。 YOLO は画像のグローバル情報に基づく予測システムであり、そのモデルのパフォーマンスは継続的に強化されています。アルゴリズムとテクノロジーを継続的に改善することで、研究者は目覚ましい成果を達成し、ターゲット検出タスクにおける YOLO をますます強力にしています。これらの継続的な改善と最適化は、ターゲット検出技術の開発に新たな機会と課題をもたらし、同時にこの分野の進歩と革新を促進してきました。

今回の YOLOv9 は、中央研究院、台湾の台北理工大学などと共同で開発されました。関連論文「Learning What You Want to」プログラマブル勾配情報を使って学ぶ』 》を公開しました。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

論文アドレス: https://arxiv.org/pdf/2402.13616.pdf

GitHub アドレス: https://github.com/WongKinYiu/ yolov9

今日の深層学習手法は、モデルの予測結果が実際の状況に最も近くなるように、最適な目的関数を設計する方法に焦点を当てています。同時に、予測に十分な情報を取得できる適切なアーキテクチャを設計する必要があります。しかし、既存の方法は、入力データがレイヤーごとの特徴抽出と空間変換を受けるときに大量の情報が失われるという事実を無視しています。

したがって、YOLOv9 は、データが深いネットワークを介して送信されるときのデータ損失の重要な問題、つまり情報ボトルネックと可逆機能を深く研究しています。

研究者らは、複数の目標を達成するためにディープネットワークに必要なさまざまな変化に対処するために、プログラマブル勾配情報 (PGI) の概念を提案しました。 PGI は、目的関数を計算するためのターゲット タスクに完全な入力情報を提供することで、ネットワークの重みを更新するための信頼できる勾配情報を取得できます。

さらに、研究者らは、勾配パス計画に基づいた新しい軽量ネットワーク アーキテクチャ、つまり Generalized Efficient Layer Aggregation Network (GELAN) を設計しました。このアーキテクチャにより、PGI が軽量モデルで優れた結果を達成できることが確認されています。

研究者らは、MS COCO データセットに基づいて、ターゲット検出タスクに関して提案された GELAN と PGI を検証しました。結果は、深い畳み込みに基づいて開発された SOTA 手法と比較して、GELAN が従来の畳み込み演算子のみを使用してより優れたパラメーター利用率を達成していることを示しています。

PGIとしては適応力が高く、軽量モデルから大型モデルまで幅広く使用可能です。これを使用して完全な情報を取得できるため、 スクラッチからトレーニングしたモデルが、大規模なデータセットを使用して事前トレーニングされた SOTA モデルよりも優れた結果を達成できるようになります。以下の図 1 は、いくつかの比較結果を示しています。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します
新しくリリースされた YOLOv9 について、YOLOv7、YOLOv4、Scaled-YOLOv4、DPT の開発に参加した Alexey Bochkovskiy 氏は、YOLOv9 は次のように高く評価しました。畳み込みベースまたはトランスフォーマーのオブジェクト検出器よりも優れています。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

ソース: https://twitter.com/alexeyab84/status/1760685626247250342 そしてネチズンはこう言ったYOLOv9 は新しい SOTA リアルタイム目標検出器のようであり、独自のカスタム トレーニング チュートリアルも準備中です。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します
ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

#さらに多くの「勤勉な」ネチズンが YOLOv9 モデルに pip サポートを追加しました。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

## 出典: https://twitter.com/kadirnar_ai/status/1760716187896283635

次に YOLOv9 の詳細を見てみましょう。

問題ステートメント

通常、ディープ

ニューラル ネットワークの収束困難問題は、勾配の消失や勾配の飽和などの要因によるものだと考えられています。従来のディープ ニューラル ネットワーク には確かに存在します。しかし、最新のディープ ニューラル ネットワークは、さまざまな正規化関数と活性化関数を設計することで、上記の問題を根本的に解決しました。しかし、それでも、ディープ ニューラル ネットワーク では、収束速度が遅い、または収束効果が低いという問題がまだあります。では、この問題の本質は何でしょうか? 情報ボトルネックの詳細な分析を通じて、研究者らは問題の根本原因を推測しました。非常に深いネットワークから最初に勾配が渡された直後、目標を達成するために必要な情報の多くは、失った。この推論を検証するために、研究者らは初期重みを使用してさまざまなアーキテクチャのディープネットワークに対してフィードフォワード処理を実行しました。図 2 はこれを視覚的に示しています。明らかに、PlainNet は深い層での物体検出に必要な多くの重要な情報を失います。 ResNet、CSPNet、GELAN が保持できる重要な情報の割合に関しては、実際にトレーニング後に取得できる精度と正の相関があります。研究者らはさらに、上記の問題の原因を解決するために、可逆ネットワークに基づく方法を設計しました。

方法の紹介

プログラマブル勾配情報 (PGI)

この研究は、新しい補助監視フレームワークであるプログラマブル勾配情報を提案します。 (PGI)、図 3(d) に示すように。

PGI は主に 3 つの部分、つまり (1) メインブランチ、(2) 補助可逆ブランチ、(3) マルチレベル補助情報から構成されます。

PGI の推論プロセスはメイン ブランチのみを使用するため、追加の推論コストはありません。
  • 補助的な可逆ブランチはニューラル ネットワークの処理に使用されます。深化によって引き起こされる問題、ネットワークの深化は情報のボトルネックを引き起こし、損失関数が信頼性の高い勾配を生成できなくなります。
  • マルチレベルの補助情報は、エラー蓄積問題に対処するように設計されています。深い監視、特に複数の予測ブランチを持つアーキテクチャと軽量モデルによって引き起こされます。
  • GELAN ネットワーク

さらに、この研究では、新しいネットワーク アーキテクチャ GELAN も提案しています (次の図を参照)。研究者らは、CSPNet と ELAN の 2 つのニューラル ネットワーク アーキテクチャを組み合わせて、軽量性、推論速度、精度を考慮した一般化された効率的な層集約ネットワーク (GELAN) を設計しました。研究者らは、当初は畳み込み層のスタックのみを使用していた ELAN の機能を、あらゆる計算ブロックを使用できる新しいアーキテクチャに一般化しました。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します実験結果

YOLOv9 のパフォーマンスを評価するために、研究ではまず YOLOv9 と、次の方法で訓練された他のリアルタイム物体検出器を比較しました。スクラッチ 包括的な比較が行われ、結果が以下の表 1 に示されています。

調査では、ImageNet の事前トレーニング済みモデルも比較に含めました。結果を以下の図 5 に示します。従来の畳み込みを使用する YOLOv9 は、パラメーターの利用においてディープ コンボリューションを使用する YOLO MS よりもさらに優れていることは注目に値します。 ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活しますアブレーション実験

YOLOv9 の各コンポーネントの役割を調査するために、この研究では一連のアブレーション実験を実施しました。

この研究では、まず GELAN のコンピューティング ブロックでアブレーション実験が行われました。以下の表 2 に示すように、この研究では、ELAN の畳み込み層を異なる計算ブロックに置き換えることによって、システムが良好なパフォーマンスを維持できることがわかりました。

研究では、次に、ELAN ブロック深さと CSP ブロック深さの異なるサイズの GELAN でアブレーション実験を実施しました。結果を以下の表 3 に示します。 ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します
ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

PGI に関して、研究者らは補助可逆枝とバックボーン ネットワークと首のマルチレベル補助情報のアブレーション研究をそれぞれ実施しました。表 4 に、すべての実験の結果を示します。表 4 からわかるように、PFH は深いモデルに対してのみ有効ですが、この論文で提案した PGI はさまざまな組み合わせで精度を向上させることができます。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

研究者らはさらに、さまざまなサイズのモデルに PGI と深度モニタリングを実装し、結果を比較しました。結果を表 5 に示します。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

図 6 は、ベースライン YOLOv7 から YOLOv9-E までコンポーネントを段階的に追加した結果を示しています。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

#視覚化

研究者らは情報ボトルネックの問題を調査し、視覚化しました。図 6 は、次の手順で取得した特徴マップの視覚化結果を示しています。ランダムな初期重みをフィードフォワードとして使用するアーキテクチャ。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します
図 7 は、PGI がトレーニング中により信頼性の高い勾配を提供できるかどうかを示しています。これにより、更新に使用されるパラメーターが入力データとターゲットの間の関係を効果的に捉えることができます。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

技術的な詳細については、元の記事を参照してください。

以上がターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

クロードも怠け者になってしまった!ネチズン: 自分に休日を与える方法を学びましょう クロードも怠け者になってしまった!ネチズン: 自分に休日を与える方法を学びましょう Sep 02, 2024 pm 01:56 PM

もうすぐ学校が始まり、新学期を迎える生徒だけでなく、大型AIモデルも気を付けなければなりません。少し前、レディットはクロードが怠け者になったと不満を漏らすネチズンでいっぱいだった。 「レベルが大幅に低下し、頻繁に停止し、出力も非常に短くなりました。リリースの最初の週は、4 ページの文書全体を一度に翻訳できましたが、今では 0.5 ページの出力さえできません」 !」 https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ というタイトルの投稿で、「クロードには完全に失望しました」という内容でいっぱいだった。

初のメカニカルクロー!元羅宝は2024年の世界ロボット会議に登場し、家庭に入ることができる初のチェスロボットを発表した 初のメカニカルクロー!元羅宝は2024年の世界ロボット会議に登場し、家庭に入ることができる初のチェスロボットを発表した Aug 21, 2024 pm 07:33 PM

8月21日、2024年世界ロボット会議が北京で盛大に開催された。 SenseTimeのホームロボットブランド「Yuanluobot SenseRobot」は、全製品ファミリーを発表し、最近、世界初の家庭用チェスロボットとなるYuanluobot AIチェスプレイロボット - Chess Professional Edition(以下、「Yuanluobot SenseRobot」という)をリリースした。家。 Yuanluobo の 3 番目のチェス対局ロボット製品である新しい Guxiang ロボットは、AI およびエンジニアリング機械において多くの特別な技術アップグレードと革新を経て、初めて 3 次元のチェスの駒を拾う機能を実現しました。家庭用ロボットの機械的な爪を通して、チェスの対局、全員でのチェスの対局、記譜のレビューなどの人間と機械の機能を実行します。

世界ロボット会議で「未来の高齢者介護の希望」を担う家庭用ロボットを囲みました 世界ロボット会議で「未来の高齢者介護の希望」を担う家庭用ロボットを囲みました Aug 22, 2024 pm 10:35 PM

北京で開催中の世界ロボット会議では、人型ロボットの展示が絶対的な注目となっているスターダストインテリジェントのブースでは、AIロボットアシスタントS1がダルシマー、武道、書道の3大パフォーマンスを披露した。文武両道を備えた 1 つの展示エリアには、多くの専門的な聴衆とメディアが集まりました。弾性ストリングのエレガントな演奏により、S1 は、スピード、強さ、正確さを備えた繊細な操作と絶対的なコントロールを発揮します。 CCTVニュースは、「書道」の背後にある模倣学習とインテリジェント制御に関する特別レポートを実施し、同社の創設者ライ・ジエ氏は、滑らかな動きの背後にあるハードウェア側が最高の力制御と最も人間らしい身体指標(速度、負荷)を追求していると説明した。など)、AI側では人の実際の動きのデータが収集され、強い状況に遭遇したときにロボットがより強くなり、急速に進化することを学習することができます。そしてアジャイル

Li Feifei 氏のチームは、ロボットに空間知能を与え、GPT-4o を統合する ReKep を提案しました Li Feifei 氏のチームは、ロボットに空間知能を与え、GPT-4o を統合する ReKep を提案しました Sep 03, 2024 pm 05:18 PM

ビジョンとロボット学習の緊密な統合。最近話題の1X人型ロボットNEOと合わせて、2つのロボットハンドがスムーズに連携して服をたたむ、お茶を入れる、靴を詰めるといった動作をしていると、いよいよロボットの時代が到来するのではないかと感じられるかもしれません。実際、これらの滑らかな動きは、高度なロボット技術 + 精緻なフレーム設計 + マルチモーダル大型モデルの成果です。有用なロボットは多くの場合、環境との複雑かつ絶妙な相互作用を必要とし、環境は空間領域および時間領域の制約として表現できることがわかっています。たとえば、ロボットにお茶を注いでもらいたい場合、ロボットはまずティーポットのハンドルを掴んで、お茶をこぼさないように垂直に保ち、次にポットの口がカップの口と揃うまでスムーズに動かす必要があります。 、そしてティーポットを一定の角度に傾けます。これ

ACL 2024 賞の発表: HuaTech による Oracle 解読に関する最優秀論文の 1 つ、GloVe Time Test Award ACL 2024 賞の発表: HuaTech による Oracle 解読に関する最優秀論文の 1 つ、GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

貢献者はこの ACL カンファレンスから多くのことを学びました。 6日間のACL2024がタイのバンコクで開催されています。 ACL は、計算言語学と自然言語処理の分野におけるトップの国際会議で、国際計算言語学協会が主催し、毎年開催されます。 ACL は NLP 分野における学術的影響力において常に第一位にランクされており、CCF-A 推奨会議でもあります。今年の ACL カンファレンスは 62 回目であり、NLP 分野における 400 以上の最先端の作品が寄せられました。昨日の午後、カンファレンスは最優秀論文およびその他の賞を発表しました。今回の優秀論文賞は7件(未発表2件)、最優秀テーマ論文賞1件、優秀論文賞35件です。このカンファレンスでは、3 つの Resource Paper Award (ResourceAward) と Social Impact Award (

中国初の大型UIモデル登場! Motiff の大規模モデルはデザイナーにとって最適なアシスタントを作成し、UI デザインのワークフローを最適化します 中国初の大型UIモデル登場! Motiff の大規模モデルはデザイナーにとって最適なアシスタントを作成し、UI デザインのワークフローを最適化します Aug 19, 2024 pm 04:48 PM

人工知能は想像を超えるスピードで発展しています。 GPT-4 がマルチモーダル技術を一般に公開して以来、マルチモーダル大型モデルは急速な開発段階に入り、純粋なモデルの研究開発から垂直分野での探査と応用へと徐々に移行し、あらゆる分野に深く統合されています。インターフェイス インタラクションの分野では、Google や Apple などの国際的なテクノロジー大手が、携帯電話 AI 革命を前進させる唯一の方法とみなされている大規模なマルチモーダル UI モデルの研究開発に投資してきました。このような状況の中で、中国初の大規模UIモデルが誕生しました。 8月17日、国際エクスペリエンスデザインカンファレンス「IXDC2024」において、AI時代のデザインツールであるMotiffは、独自開発したUIマルチモーダルモデル「Motiff Model」を発表した。世界初のUIデザインツールです

AI の使用 | Microsoft CEO のクレイジーなアムウェイ AI ゲームは私を何千回も苦しめた AI の使用 | Microsoft CEO のクレイジーなアムウェイ AI ゲームは私を何千回も苦しめた Aug 14, 2024 am 12:00 AM

Machine Power Report 編集者: Yang Wen 大型モデルや AIGC に代表される人工知能の波は、私たちの生活や働き方を静かに変えていますが、ほとんどの人はまだその使い方を知りません。そこで、直感的で興味深く簡潔な人工知能のユースケースを通じてAIの活用方法を詳しく紹介し、皆様の思考を刺激するコラム「AI in Use」を立ち上げました。また、読者が革新的な実践的な使用例を提出することも歓迎します。なんと、AIは本当に天才になってしまったのです。最近、AIが生成した写真の真贋を見分けるのが難しいと話題になっています。 (詳しくはこちら:AI活用中 | 3ステップでAI美女になり、1秒でAIに元に戻される) インターネット上で人気のAI Google ladyのほかにも、さまざまなFLUXジェネレーターが登場しています。ソーシャルプラットフォーム上に出現した

分散型人工知能カンファレンス DAI 2024 論文募集: エージェント デイ、強化学習の父であるリチャード サットン氏が出席します。 Yan Shuicheng、Sergey Levine、DeepMind の科学者が基調講演を行います 分散型人工知能カンファレンス DAI 2024 論文募集: エージェント デイ、強化学習の父であるリチャード サットン氏が出席します。 Yan Shuicheng、Sergey Levine、DeepMind の科学者が基調講演を行います Aug 22, 2024 pm 08:02 PM

会議の紹介 科学技術の急速な発展に伴い、人工知能は社会の進歩を促進する重要な力となっています。この時代に、分散型人工知能 (DAI) の革新と応用を目撃し、参加できることは幸運です。分散型人工知能は人工知能分野の重要な分野であり、近年ますます注目を集めています。大規模言語モデル (LLM) に基づくエージェントは、大規模モデルの強力な言語理解機能と生成機能を組み合わせることで、自然言語対話、知識推論、タスク計画などにおいて大きな可能性を示しました。 AIAgent は大きな言語モデルを引き継ぎ、現在の AI 界隈で話題になっています。アウ

See all articles