未知のオブジェクトも簡単に識別してセグメント化でき、その効果を伝達できます。
これまでに見たことのない新しいオブジェクトをセグメント化することもできます。
これは DeepMind によって開発された新しい学習フレームワークです: オブジェクト発見および表現ネットワーク (略して Odin)
前へ 自己教師あり学習 (SSL)この方法では、大きなシーン全体をうまく表現できますが、個々のオブジェクトを区別することは困難です。
Odin メソッドはそれを実行し、監視なしで実行します。
画像内の単一のオブジェクトを区別するのは簡単ではありません。それはどのように行われるのでしょうか?
方法原理
主に Odin 学習フレームワークの「自己循環」により、画像内のさまざまなオブジェクトを適切に区別できます。
Odin は、連携して動作する 2 つのネットワーク セット、つまりターゲット検出ネットワークとターゲット表現ネットワークを学習しました。
Target Discovery Network は、画像のトリミングされた部分を入力として受け取ります。トリミングされた部分には画像領域の大部分が含まれている必要があり、画像のこの部分は他の側面では強化されていません。
次に、入力画像から生成された特徴マップに対してクラスター分析を実行し、さまざまな特徴に従って画像内の各オブジェクトをセグメント化します。
ターゲット表現ネットワーク の入力ビューは、ターゲット検出ネットワークで生成されたセグメント化された画像です。
ビューが入力された後、反転、ぼかし、ポイントレベルのカラー変換など、個別にランダムに前処理されます。
このようにして 2 組のマスクが得られますが、トリミングの違いを除けば、その他の情報は元の画像内容と同じです。
その後、2 つのマスクは、コントラスト損失を通じて画像内のオブジェクトをより適切に表現できる特徴を学習します。
具体的には、コントラスト検出を通じて、ネットワークはさまざまなターゲット オブジェクトの特性を識別するようにトレーニングされますが、他の無関係なオブジェクトからの多くの「ネガティブな」特性も存在します。
次に、異なるマスクにおける同じターゲット オブジェクトの類似性を最大化し、異なるターゲット オブジェクト間の類似性を最小化してから、より適切なセグメンテーションを実行して、異なるターゲット オブジェクトを区別します。
#同時に、ターゲット検出ネットワークは、ターゲット表現ネットワークのパラメーターに基づいて定期的に更新されます。
最終的な目標は、これらのオブジェクト レベルの特性が異なるビューでもほぼ変わらないことを保証すること、言い換えれば、画像内のオブジェクトを分離することです。
それでは、Odin 学習フレームワークの効果は何でしょうか?
未知のオブジェクトを非常によく区別できます
事前知識がなくてもシーン分割における Odin メソッドの転移学習のパフォーマンスも非常に強力です。
まず、Odin メソッドを使用して ImageNet データセットで事前トレーニングし、COCO データセットおよび PASCAL および Cityscapes セマンティック セグメンテーションに対するその効果を評価します。
対象オブジェクトをすでに知っている、つまり事前知識を取得する方法は、シーン分割を実行するときに事前知識を取得しない他の方法よりも大幅に優れています。
Odin 法は事前知識を取得しなくても、事前知識を取得する DetCon や ReLICv2 よりも効果が高くなります。
さらに、Odin メソッドは ResNet モデルだけでなく、Swim Transformer などのより複雑なモデルにも適用できます。 。
データの観点から見ると、Odin フレームワーク学習の利点は明らかですが、Odin の利点は視覚的なイメージのどこに反映されているのでしょうか?
Odin を使用して生成されたセグメント化された画像を、ランダムに初期化されたネットワーク (列 3)、ImageNet 監視ネットワーク (列 4) から取得した画像と比較します。
列 3 と列 4 はオブジェクトの境界を明確に描写できていないか、現実世界のオブジェクトの一貫性や局所性が欠けており、Odin によって生成された画像効果は明らかに優れています。
参考リンク:
[1] https://twitter.com/DeepMind/status/1554467389290561541
[2] https://arxiv.org/abs/2203.08777
以上が未知のオブジェクトも簡単に識別してセグメント化でき、その効果を伝達できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









1. はじめに モバイル デバイスの普及とコンピューティング能力の向上に伴い、画像セグメンテーション技術が研究のホットスポットになっています。 MobileSAM (MobileSegmentAnythingModel) は、モバイル デバイス向けに最適化された画像セグメンテーション モデルであり、高品質のセグメンテーション結果を維持しながら計算の複雑さとメモリ使用量を削減し、リソースが限られたモバイル デバイスで効率的に実行することを目的としています。この記事では、MobileSAM の原理、利点、適用シナリオについて詳しく紹介します。 2. MobileSAM モデルの設計思想 MobileSAM モデルの設計思想には主に次の側面が含まれます: 軽量モデル: モバイル デバイスのリソース制限に適応するために、MobileSAM モデルは軽量モデルを採用します。

人工知能技術の継続的な発展に伴い、画像セマンティックセグメンテーション技術は画像分析分野で人気の研究方向となっています。画像セマンティック セグメンテーションでは、画像内のさまざまな領域をセグメント化し、各領域を分類して、画像の包括的な理解を実現します。 Python はよく知られたプログラミング言語であり、その強力なデータ分析機能とデータ視覚化機能により、人工知能技術研究の分野で最初に選択されます。この記事では、Python で画像セマンティック セグメンテーション技術を使用する方法を紹介します。 1. 前提知識が深まる

場合によっては、大きなファイルを他の人に送信する必要がありますが、電子メールの添付ファイルのサイズ制限などの送信チャネルの制限や、ネットワークの状態があまり良くないため、大きなファイルを小さなファイルに分割する必要があります。ファイルを複数回送信してから、これらの小さなファイルをマージします。今回はPythonを使って大きなファイルを分割・結合する方法を紹介します。考え方と実装 テキストファイルであれば行数で区切ることができます。テキストファイルでもバイナリファイルでも、指定したサイズに応じて分割できます。 Python のファイル読み取りおよび書き込み機能を使用すると、ファイルの分割とマージ、各ファイルのサイズの設定、指定されたサイズのバイトの読み取りと新しいファイルへの書き込みが可能です。受信側は小さなファイルを順番に読み取り、バイトは順番にファイルに書き込まれるため、

C++ で音声認識と音声合成を実装するにはどうすればよいですか?音声認識と音声合成は、今日の人工知能の分野で人気のある研究方向の 1 つであり、多くの応用シナリオで重要な役割を果たしています。この記事では、C++ を使用して Baidu AI オープン プラットフォームに基づいた音声認識および音声合成機能を実装する方法を紹介し、関連するコード例を示します。 1. 音声認識 音声認識は人間の音声をテキストに変換する技術であり、音声アシスタント、スマートホーム、自動運転などの分野で広く利用されています。以下は C++ を使用した音声認識の実装です。

人工知能技術の継続的な発展に伴い、顔検出および認識技術は日常生活でますます広く使用されるようになりました。顔検出および認識技術は、顔アクセス制御システム、顔決済システム、顔検索エンジンなど、さまざまな場面で広く使用されています。広く使用されているプログラミング言語である Java は、顔の検出および認識テクノロジを実装することもできます。この記事では、Java を使用して顔検出および認識テクノロジを実装する方法を紹介します。 1. 顔検出技術 顔検出技術とは、画像や動画から顔を検出する技術のことです。 Jで

Golang と FFmpeg: オーディオ合成とセグメンテーションを実装する方法、特定のコード サンプルが必要です 概要: この記事では、Golang と FFmpeg ライブラリを使用してオーディオ合成とセグメンテーションを実装する方法を紹介します。読者の理解を深めるために、いくつかの具体的なコード例を使用します。はじめに: オーディオ処理技術の継続的な開発により、オーディオの合成とセグメンテーションは日常生活や仕事における一般的な機能要件になりました。高速かつ効率的で、作成と保守が簡単なプログラミング言語である Golang と FFmpeg の組み合わせ

多くの友人が事務作業で画面を録画したり、ファイルを転送したりする必要がありますが、ファイルが大きすぎる問題が原因で多くのトラブルが発生することがあります。以下にファイルが大きすぎる問題の解決策を示します。 win10 画面録画ファイルが大きすぎる場合の対処方法: 1. ソフトウェア Format Factory をダウンロードしてファイルを圧縮します。ダウンロードアドレス >> 2. メインページに入り、「Video-MP4」オプションをクリックします。 3. 変換形式ページで「ファイルの追加」をクリックし、圧縮するMP4ファイルを選択します。 4. ページ上の「出力構成」をクリックして、出力品質に従ってファイルを圧縮します。 5. ドロップダウン構成リストから「低品質とサイズ」を選択し、「OK」をクリックします。 6. 「OK」をクリックしてビデオファイルのインポートを完了します。 7. 「開始」をクリックして変換を開始します。 8. 完了したら、次のことができます。

交通標識認識システムとは何ですか?自動車安全システムの交通標識認識システム (英語訳: Traffic Sign Recognition、略して TSR) は、一般的な交通標識 (制限速度、駐車、U ターン、交通標識) を認識するモードと組み合わせた前面カメラを使用します。等。)。この機能は、ドライバーに前方の交通標識を警告し、それに従うことができます。 TSR 機能は、ドライバーが一時停止標識などの交通法規に違反し、不法左折やその他の意図しない交通違反を回避する可能性を減らし、安全性を向上させます。これらのシステムには、検出アルゴリズムを強化し、さまざまな地域の交通標識に適応するための柔軟なソフトウェア プラットフォームが必要です。交通標識認識の原理 交通標識認識はTSとも呼ばれます
