ホームページ > テクノロジー周辺機器 > AI > 本当にこんなに滑らかなのでしょうか?ヒントンのグループは、画像とビデオのシーンのスムーズな切り替えを可能にする、大きなパノラマ マスクに基づくインスタンス セグメンテーション フレームワークを提案しました。

本当にこんなに滑らかなのでしょうか?ヒントンのグループは、画像とビデオのシーンのスムーズな切り替えを可能にする、大きなパノラマ マスクに基づくインスタンス セグメンテーション フレームワークを提案しました。

王林
リリース: 2023-04-11 17:16:03
転載
1433 人が閲覧しました

パノラマ セグメンテーションは、画像の各ピクセルにセマンティック ラベルとインスタンス ラベルを割り当てることを目的とした基本的なビジョン タスクです。セマンティック ラベルは各ピクセルのカテゴリ (空、垂直オブジェクトなど) を記述し、インスタンス ラベルは画像内の各インスタンスに一意の ID を提供します (同じカテゴリの異なるインスタンスを区別するため)。このタスクは、セマンティック セグメンテーションとインスタンス セグメンテーションを組み合わせて、シーンに関する豊富なセマンティック情報を提供します。

意味ラベルのカテゴリは事前に固定されていますが、画像内のオブジェクトに割り当てられたインスタンス ID は、認識に影響を与えることなく交換できます。たとえば、2 台の車両のインスタンス ID を交換しても、結果には影響しません。したがって、インスタンス ID を予測するようにトレーニングされたニューラル ネットワークは、単一の画像から複数のインスタンス ID の割り当てへの 1 対多のマッピングを学習できる必要があります。 1 対多のマッピングを学習するのは困難であり、従来の方法では、オブジェクトの検出、セグメンテーション、複数の予測のマージなどの多段階パイプラインを利用することがよくあります。最近、一部の学者は、微分可能な二部グラフ マッチングに基づいて、認識マッチングに基づいて 1 対多のマッピングを 1 対 1 のマッピングに効果的に変換できるエンドツーエンドの方法を提案しました。ただし、これらの方法でも、カスタマイズされたアーキテクチャと特殊な損失関数、さらにパノラマ セグメンテーション タスク用の組み込みの誘導バイアスが必要です。

Pix2Seq、OFA、UViM、Unified I/O などの最近の汎用ビジョン モデルは、一般化タスクを実行しながら実行できる一般的なタスク無制限のフレームワークを提唱しています。タスクは以前よりも改善されました モデルははるかにシンプルになりました。たとえば、Pix2Seq は、画像に基づいて意味的に意味のある一連のシーケンスを生成して、いくつかの主要な視覚タスクを完了します。また、これらのモデルは、自己回帰モデルをトレーニングするための Transformer に基づいています。

Google Brain の Ting Chen 氏や Geoffrey Hinton 氏などの研究者は、新しい論文で同じ概念に従い、条件付き離散データ生成の観点からパノラマ セグメンテーション タスクの問題を理解しています。

本当にこんなに滑らかなのでしょうか?ヒントンのグループは、画像とビデオのシーンのスムーズな切り替えを可能にする、大きなパノラマ マスクに基づくインスタンス セグメンテーション フレームワークを提案しました。

紙のリンク https://arxiv.org/pdf/2210.06366.pdf

#図 1 に示すように、研究者はパノラマ マスクの生成モデルを設計し、モデルに入力された画像ごとに一連の離散トークンを生成しました。ユーザーは、過去のフレームからの予測を追加の条件付き信号として使用するだけで、このモデルをビデオ データ (オンライン データ/ストリーミング メディア) に適用できます。このようにして、モデルはオブジェクトの追跡とセグメント化を自動的に学習します。

本当にこんなに滑らかなのでしょうか?ヒントンのグループは、画像とビデオのシーンのスムーズな切り替えを可能にする、大きなパノラマ マスクに基づくインスタンス セグメンテーション フレームワークを提案しました。

パノラマ セグメンテーションの生成モデリングは、パノラマ マスクが離散的またはカテゴリカルであり、モデルがおそらく非常に大きいため、非常に困難です。たとえば、512×1024 のパノラマ マスクを生成するには、モデルで 100 万を超える個別のタグ (セマンティック ラベルとインスタンス ラベル) を生成する必要があります。トークンは本質的にシーケンシャルであり、入力データのスケールが変化しても変更するのが難しいため、これは自己回帰モデルにとって依然として比較的高価です。拡散モデルは高次元データの処理に優れていますが、ほとんどの場合、離散領域ではなく連続領域に適用されます。著者らは、離散データをアナログビットで表現することにより、潜在空間を学習する必要なく、拡散モデルを大きなパノラママスク上で直接トレーニングできることを示した。

研究者らは、広範な実験を通じて、自分たちの一般的な手法が同様の環境において最先端の専門家による手法と競合できることを実証しました。

モデル アーキテクチャ

拡散モデルのサンプリングは反復的に実行されるため、推論中にネットワークの前方伝播を複数回実行する必要があります。したがって、図 2 に示すように、研究者らはネットワークを意図的に 2 つのコンポーネント (1) 画像エンコーダ、2) マスク デコーダに分割しました。前者は、生のピクセル データを高レベルの表現ベクトルにマッピングし、マスク デコーダがパノラマ マスクを繰り返し読み出します。

本当にこんなに滑らかなのでしょうか?ヒントンのグループは、画像とビデオのシーンのスムーズな切り替えを可能にする、大きなパノラマ マスクに基づくインスタンス セグメンテーション フレームワークを提案しました。

ピクセル/画像エンコーダ

エンコーダは、元の画像 本当にこんなに滑らかなのでしょうか?ヒントンのグループは、画像とビデオのシーンのスムーズな切り替えを可能にする、大きなパノラマ マスクに基づくインスタンス セグメンテーション フレームワークを提案しました。本当にこんなに滑らかなのでしょうか?ヒントンのグループは、画像とビデオのシーンのスムーズな切り替えを可能にする、大きなパノラマ マスクに基づくインスタンス セグメンテーション フレームワークを提案しました。 の特徴マップにマッピングするネットワークです。H' と w' はパノラマ マスクの高さです。そして幅。パノラマ マスクは、元の画像と同じサイズまたはそれより小さいサイズにすることができます。この研究では、研究者らは ResNet をバックボーン ネットワークとして使用し、次に Transformer のエンコーダ層を特徴抽出器として使用しました。出力特徴マップが十分な解像度を持ち、U-Net と特徴ピラミッド ネットワークからインスピレーションを得て、さまざまなスケールの特徴が含まれていることを確認するために、研究者らは、双方向接続による畳み込みと、異なる解像度からマージするアップサンプリング操作を使用しました。アーキテクチャ設計の最新の進歩を利用できる、より複雑なエンコーダを使用することもできますが、これはネットワーク モデルの主な焦点ではないため、研究者は、モデル内でのその役割を説明するために、より単純な特徴抽出器を使用しているだけです。

マスク デコーダ

デコーダは、モデル推論中に画像の特徴に基づいて反復的に改良されます。具体的には、研究者が使用しているマスク デコーダは TransUNet です。ネットワークは、エンコーダーからの画像特徴マップとノイズ マスク (ランダムに初期化されるか、エンコード プロセスから反復的に初期化される) の連結を入力として受け取り、マスクの正確な予測を出力します。デコーダと、画像生成および画像から画像への変換に関する標準的な U-Net アーキテクチャとの違いの 1 つは、この論文で使用されている U-Net では、アップサンプリングの前にクロスアテンション層を上部に持つトランスフォーマ デコーダ層を使用していることです。エンコードされた画像の特徴。

ビデオ モードでのアプリケーション

研究者は、次のような画像条件でパノラマ マスクをモデル化します。:p(m|x )。特定のビデオの 3 次元マスク (追加の時間次元を伴う) に基づいて、私たちのモデルをビデオ パノラマ セグメンテーションに直接適用できます。オンライン/ストリーミング ビデオ設定に適応させるために、代わりに p(m_t|x_t,m_(t-1),m_(t-k)) モデリングを使用して、現在の画像と前の画像のマスクに基づいて新しいパノラマを生成できます。瞬間のマスク。図 5 に示すように、この変更は、過去のパノラマ マスク (m_(t-1)、m_(t-k)) を既存のノイズ マスクと連結することによって実現できます。この小さな変更を除けば、その他はすべてビデオの基本モデル (p(m|x)) と同じです。このモデルは非常にシンプルで、画像パノラマ モデルを微調整することでビデオ シーンに適用できます。

本当にこんなに滑らかなのでしょうか?ヒントンのグループは、画像とビデオのシーンのスムーズな切り替えを可能にする、大きなパノラマ マスクに基づくインスタンス セグメンテーション フレームワークを提案しました。

実験結果

この論文では、エキスパート手法と一般手法という 2 つの最先端の手法を比較します。方法。表 1 は、MS-COCO データセットの結果をまとめたものです。 ResNet-50 ベースのバックボーン上の Pix2Seq-D の一般化品質 (PQ) は、最先端の手法と競合します。 UViM などの他の最近の汎用モデルと比較して、当社のモデルはより効率的でありながら、パフォーマンスが大幅に向上しています。

本当にこんなに滑らかなのでしょうか?ヒントンのグループは、画像とビデオのシーンのスムーズな切り替えを可能にする、大きなパノラマ マスクに基づくインスタンス セグメンテーション フレームワークを提案しました。

#表 2 Pix2Seq-D と、標準 J&F のメトリクスを使用した、DAVIS データセット上の教師なしビデオ オブジェクト セグメンテーションの最先端の手法との比較。他の一般的なモデルはタスクに直接適用できないため、ベースラインには含まれていないことに注意してください。私たちの方法は、特別な設計を必要とせずに、最先端の方法と同じ結果を達成します。

本当にこんなに滑らかなのでしょうか?ヒントンのグループは、画像とビデオのシーンのスムーズな切り替えを可能にする、大きなパノラマ マスクに基づくインスタンス セグメンテーション フレームワークを提案しました。

図 8、9、および 10 は、MS-COCO、Cityscape、および DAVIS での Pix2Seq-D の結果の例を示しています。

本当にこんなに滑らかなのでしょうか?ヒントンのグループは、画像とビデオのシーンのスムーズな切り替えを可能にする、大きなパノラマ マスクに基づくインスタンス セグメンテーション フレームワークを提案しました。

本当にこんなに滑らかなのでしょうか?ヒントンのグループは、画像とビデオのシーンのスムーズな切り替えを可能にする、大きなパノラマ マスクに基づくインスタンス セグメンテーション フレームワークを提案しました。

本当にこんなに滑らかなのでしょうか?ヒントンのグループは、画像とビデオのシーンのスムーズな切り替えを可能にする、大きなパノラマ マスクに基づくインスタンス セグメンテーション フレームワークを提案しました。

以上が本当にこんなに滑らかなのでしょうか?ヒントンのグループは、画像とビデオのシーンのスムーズな切り替えを可能にする、大きなパノラマ マスクに基づくインスタンス セグメンテーション フレームワークを提案しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート