クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。-AI-php.cn

はじめに

ホームページ

テクノロジー周辺機器

クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。

王林

Apr 08, 2023 pm 09:21 PM

フレーム移行する

はじめに

VOS の参照 (RVOS) は、新たに登場したタスクであり、参照テキストに基づいて、ビデオシーケンスからテキストによって参照されるオブジェクトをセグメント化することを目的としています。半教師ありビデオオブジェクトセグメンテーションと比較して、RVOS はピクセルレベルの参照マスクではなく抽象言語記述のみに依存し、人間とコンピューターの対話により便利なオプションを提供するため、幅広い注目を集めています。

クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。

論文リンク: https://www.aaai.org/AAAI22Papers/AAAI-1100.LiD.pdf

この研究の主な目的は、既存の RVOS タスクが直面する 2 つの主要な課題を解決することです。

テキスト情報を , に変換する方法2 つのモダリティ間のスケールの一貫性を維持し、テキストによって提供される有用な特徴参照を画像特徴に完全に統合するための、画像情報のクロスモーダル融合。
放棄方法既存の手法の 2 段階の戦略 (つまり、最初に画像レベルでフレームごとに大まかな結果を取得し、次にその結果を参照として使用し、強化された時間情報の構造的改良を通じて最終的な予測を取得する) を採用し、全体を統合します。 RVOS タスクを単一ステージのフレームワークに統合します。

これに関して、この研究では、クロスモーダル要素移行のためのエンドツーエンドの RVOS フレームワークを提案します - YOFO 、その主な貢献と革新は次のとおりです:

参照テキスト情報を使用してビデオターゲットのセグメンテーションを直接取得するには、1 段階の推論のみが必要です。その結果、2 つの主流のデータセット (Ref-DAVIS2017 と Ref-Youtube-VOS) で得られた結果は、現在のすべての 2 段階手法を上回りました。
は、メタ移行 (Meta-Transfer) を提案しました。 ) 時間情報を強化し、よりターゲットに焦点を当てた特徴学習を実現するモジュール;
は、マルチスケールクロスモーダル特徴マイニング (マルチスケールクロスモーダル特徴マイニング) モジュールを提案します。言語と画像の便利な機能を完全に統合できます。

実装戦略

YOFO フレームワークの主なプロセスは次のとおりです。入力された画像とテキストは、まず画像エンコーダーと言語エンコーダーを通過して特徴を抽出します。、その後、融合のためのマルチスケールのクロスモーダル特徴マイニングモジュールで。融合された二峰性特徴は、メモリライブラリを含むメタ転送モジュールで単純化され、言語特徴の冗長な情報が削除され、同時に時間情報を保存して時間的相関性が強化され、最終的にセグメンテーション結果が得られます。デコーダ。

クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。

#図 1: YOFO フレームワークのメインプロセス。

#マルチスケールクロスモーダル特徴マイニングモジュール: このモジュールは、異なるスケールの 2 つのモーダル特徴を融合することで、画像特徴によって伝えられるスケール情報と言語特徴の間の一貫性を維持できます。さらに重要なのは、言語情報がマルチスケールの画像情報によって薄められたり圧倒されたりすることがないことです。融合プロセス。

クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。

# 図 2: マルチスケールのクロスモーダル特徴マイニングモジュール。

メタ移行モジュール

##: Learning-to-Learn 戦略が採用されており、そのプロセスは次のマッピング関数として簡単に説明できます。移行関数 は畳み込みであり、 はその畳み込みカーネルパラメーターです:

クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。

最適化プロセスは次の目的関数として表現できます。

クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。

その中で, M は、履歴情報を保存できるメモリバンクを表します。W は、さまざまな位置の重みを表し、特徴内のさまざまな位置にさまざまな注意を向けることができます。Y は、メモリバンクに保存されている各ビデオフレームの二峰性特徴を表します。この最適化プロセスにより、二峰性の特徴を再構築するメタ伝達関数の能力が最大化され、フレームワーク全体をエンドツーエンドでトレーニングできるようになります。

##トレーニングとテスト: トレーニングで使用される損失関数は lovasz 損失で、トレーニングセットは 2 つのビデオデータセット Ref-DAVIS2017 です。 Ref-Youtube-VOS を使用し、静的データセット Ref-COCO を使用してランダムアフィン変換を実行し、補助トレーニングとしてビデオデータをシミュレートします。メタマイグレーションプロセスはトレーニングと予測中に実行され、ネットワーク全体が 1080ti で 10FPS の速度で実行されます。

実験結果

研究で使用された方法は、2 つの主流の RVOS データセット (Ref-DAVIS2017 および Ref-Youtube-VOS) で優れた結果を達成しました。

クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。

## 図 3: 2 つの主流データセットの定量的指標。

クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。

# 図 4: VOS データセットの視覚化。

クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。

# 図 5: YOFO のその他の視覚化効果。

#研究では、特徴マイニングモジュール (FM) とメタ転送モジュール (MT) の有効性を示すために、一連のアブレーション実験も実施しました。

クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。図 6: 特徴マイニングモジュール (FM) とメタ転送モジュール (MT) の有効性。

さらに、この研究では、MT モジュールを使用した場合と使用しない場合のデコーダーの出力特徴を視覚化しました。MT モジュールが、で説明されているコンテンツを正しくキャプチャできることが明確にわかります。言語と干渉ノイズのフィルタリング。

クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。図 7: MT モジュールを使用する前後のデコーダ出力機能の比較。

研究チームについてこの論文は、Meitu Imaging Research Institute (MT Lab) の研究者と大連大学 Lu Huchuan チームの研究者によって共同提案されました。テクノロジーの。 Meitu Imaging Research Institute (MT Lab) は、コンピュータービジョン、機械学習、拡張現実、クラウドコンピューティングなどの分野におけるアルゴリズム研究、エンジニアリング開発、製品化に特化した Meitu のチームであり、Meitu の既存および将来の製品の基礎を提供します。コアアルゴリズムのサポートを提供し、最先端技術を通じて Meitu 製品の開発を促進しており、「Technology Center of Meitu」として知られており、CVPR、ICCV、ECCV などの主要な国際コンピュータービジョン会議に参加し、優勝しています。 10回以上の優勝と準優勝。

以上がクロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7490

CakePHP チュートリアル

1377

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

Java フレームワークの商用サポートの費用対効果を評価する方法 Jun 05, 2024 pm 05:25 PM

Java フレームワークの商用サポートのコスト/パフォーマンスを評価するには、次の手順が必要です。必要な保証レベルとサービスレベルアグリーメント (SLA) 保証を決定します。研究サポートチームの経験と専門知識。アップグレード、トラブルシューティング、パフォーマンスの最適化などの追加サービスを検討してください。ビジネスサポートのコストと、リスクの軽減と効率の向上を比較検討します。

PHP フレームワークの学習曲線は他の言語フレームワークと比較してどうですか? Jun 06, 2024 pm 12:41 PM

PHP フレームワークの学習曲線は、言語熟練度、フレームワークの複雑さ、ドキュメントの品質、コミュニティのサポートによって異なります。 PHP フレームワークの学習曲線は、Python フレームワークと比較すると高く、Ruby フレームワークと比較すると低くなります。 Java フレームワークと比較すると、PHP フレームワークの学習曲線は中程度ですが、開始までの時間は短くなります。

PHP フレームワークの軽量オプションはアプリケーションのパフォーマンスにどのような影響を与えますか? Jun 06, 2024 am 10:53 AM

軽量の PHP フレームワークは、サイズが小さくリソース消費が少ないため、アプリケーションのパフォーマンスが向上します。その特徴には、小型、高速起動、低メモリ使用量、改善された応答速度とスループット、および削減されたリソース消費が含まれます。実際のケース: SlimFramework は、わずか 500 KB、高い応答性と高スループットの REST API を作成します。

Java フレームワークのパフォーマンス比較 Jun 04, 2024 pm 03:56 PM

ベンチマークによると、小規模で高性能なアプリケーションの場合、Quarkus (高速起動、低メモリ) または Micronaut (TechEmpower に優れた) が理想的な選択肢です。 SpringBoot は大規模なフルスタックアプリケーションに適していますが、起動時間とメモリ使用量が若干遅くなります。

Golang フレームワークのドキュメントのベストプラクティス Jun 04, 2024 pm 05:00 PM

明確で包括的なドキュメントを作成することは、Golang フレームワークにとって非常に重要です。ベストプラクティスには、Google の Go コーディングスタイルガイドなど、確立されたドキュメントスタイルに従うことが含まれます。見出し、小見出し、リストなどの明確な組織構造を使用し、ナビゲーションを提供します。スタートガイド、API リファレンス、概念など、包括的で正確な情報を提供します。コード例を使用して、概念と使用法を説明します。ドキュメントを常に最新の状態に保ち、変更を追跡し、新機能を文書化します。 GitHub の問題やフォーラムなどのサポートとコミュニティリソースを提供します。 API ドキュメントなどの実践的なサンプルを作成します。

さまざまなアプリケーションシナリオに最適な Golang フレームワークを選択する方法 Jun 05, 2024 pm 04:05 PM

アプリケーションのシナリオに基づいて最適な Go フレームワークを選択します。アプリケーションの種類、言語機能、パフォーマンス要件、エコシステムを考慮します。一般的な Go フレームワーク: Jin (Web アプリケーション)、Echo (Web サービス)、Fiber (高スループット)、gorm (ORM)、fasthttp (速度)。実際のケース: REST API (Fiber) の構築とデータベース (gorm) との対話。フレームワークを選択します。主要なパフォーマンスには fasthttp、柔軟な Web アプリケーションには Jin/Echo、データベースインタラクションには gorm を選択してください。

golang フレームワーク開発の実践的な詳細な説明: 質疑応答 Jun 06, 2024 am 10:57 AM

Go フレームワーク開発における一般的な課題とその解決策は次のとおりです。エラー処理: 管理にはエラーパッケージを使用し、エラーを一元的に処理するにはミドルウェアを使用します。認証と認可: サードパーティのライブラリを統合し、資格情報を確認するためのカスタムミドルウェアを作成します。同時処理: ゴルーチン、ミューテックス、チャネルを使用してリソースアクセスを制御します。単体テスト: 分離のために getest パッケージ、モック、スタブを使用し、十分性を確保するためにコードカバレッジツールを使用します。デプロイメントとモニタリング: Docker コンテナを使用してデプロイメントをパッケージ化し、データのバックアップをセットアップし、ログ記録およびモニタリングツールでパフォーマンスとエラーを追跡します。

Golang フレームワークの学習プロセスでよくある誤解は何ですか? Jun 05, 2024 pm 09:59 PM

Go フレームワークの学習には、フレームワークへの過度の依存と柔軟性の制限という 5 つの誤解があります。フレームワークの規則に従わない場合、コードの保守が困難になります。古いライブラリを使用すると、セキュリティと互換性の問題が発生する可能性があります。パッケージを過度に使用すると、コード構造が難読化されます。エラー処理を無視すると、予期しない動作やクラッシュが発生します。

See all articles

クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオ オブジェクト セグメンテーション手法は、単一の段階のみを必要とします。

はじめに

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオオブジェクトセグメンテーション手法は、単一の段階のみを必要とします。