クロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオ オブジェクト セグメンテーション手法は、単一の段階のみを必要とします。
はじめに
VOS の参照 (RVOS) は、新たに登場したタスクであり、参照テキストに基づいて、ビデオ シーケンスからテキストによって参照されるオブジェクトをセグメント化することを目的としています。半教師ありビデオ オブジェクト セグメンテーションと比較して、RVOS はピクセル レベルの参照マスクではなく抽象言語記述のみに依存し、人間とコンピューターの対話により便利なオプションを提供するため、幅広い注目を集めています。
論文リンク: https://www.aaai.org/AAAI22Papers/AAAI-1100.LiD.pdf
この研究の主な目的は、既存の RVOS タスクが直面する 2 つの主要な課題を解決することです。
- テキスト情報を , に変換する方法2 つのモダリティ間のスケールの一貫性を維持し、テキストによって提供される有用な特徴参照を画像特徴に完全に統合するための、画像情報のクロスモーダル融合。
- 放棄方法既存の手法の 2 段階の戦略 (つまり、最初に画像レベルでフレームごとに大まかな結果を取得し、次にその結果を参照として使用し、強化された時間情報の構造的改良を通じて最終的な予測を取得する) を採用し、全体を統合します。 RVOS タスクを単一ステージのフレームワークに統合します。
これに関して、この研究では、クロスモーダル要素移行のためのエンドツーエンドの RVOS フレームワークを提案します - YOFO 、その主な貢献と革新は次のとおりです:
- 参照テキスト情報を使用してビデオ ターゲットのセグメンテーションを直接取得するには、1 段階の推論のみが必要です。その結果、2 つの主流のデータセット (Ref-DAVIS2017 と Ref-Youtube-VOS) で得られた結果は、現在のすべての 2 段階手法を上回りました。
- は、メタ移行 (Meta-Transfer) を提案しました。 ) 時間情報を強化し、よりターゲットに焦点を当てた特徴学習を実現するモジュール;
- は、マルチスケール クロスモーダル特徴マイニング (マルチスケール クロスモーダル特徴マイニング) モジュールを提案します。言語と画像の便利な機能を完全に統合できます。
YOFO フレームワークの主なプロセスは次のとおりです。入力された画像とテキストは、まず画像エンコーダーと言語エンコーダーを通過して特徴を抽出します。 、その後、融合のためのマルチスケールのクロスモーダル特徴マイニング モジュールで。融合された二峰性特徴は、メモリ ライブラリを含むメタ転送モジュールで単純化され、言語特徴の冗長な情報が削除され、同時に時間情報を保存して時間的相関性が強化され、最終的にセグメンテーション結果が得られます。デコーダ。
#図 1: YOFO フレームワークのメイン プロセス。
#マルチスケール クロスモーダル特徴マイニング モジュール: このモジュールは、異なるスケールの 2 つのモーダル特徴を融合することで、画像特徴によって伝えられるスケール情報と言語特徴の間の一貫性を維持できます。さらに重要なのは、言語情報がマルチスケールの画像情報によって薄められたり圧倒されたりすることがないことです。融合プロセス。
メタ移行モジュール
##: Learning-to-Learn 戦略が採用されており、そのプロセスは次のマッピング関数として簡単に説明できます。移行関数 は畳み込みであり、 はその畳み込みカーネル パラメーターです:
最適化プロセスは次の目的関数として表現できます。
その中で, M は、履歴情報を保存できるメモリ バンクを表します。W は、さまざまな位置の重みを表し、特徴内のさまざまな位置にさまざまな注意を向けることができます。Y は、メモリ バンクに保存されている各ビデオ フレームの二峰性特徴を表します。この最適化プロセスにより、二峰性の特徴を再構築するメタ伝達関数の能力が最大化され、フレームワーク全体をエンドツーエンドでトレーニングできるようになります。
##トレーニングとテスト: トレーニングで使用される損失関数は lovasz 損失で、トレーニング セットは 2 つのビデオ データ セット Ref-DAVIS2017 です。 Ref-Youtube-VOS を使用し、静的データセット Ref-COCO を使用してランダム アフィン変換を実行し、補助トレーニングとしてビデオ データをシミュレートします。メタマイグレーション プロセスはトレーニングと予測中に実行され、ネットワーク全体が 1080ti で 10FPS の速度で実行されます。
実験結果研究で使用された方法は、2 つの主流の RVOS データセット (Ref-DAVIS2017 および Ref-Youtube-VOS) で優れた結果を達成しました。
## 図 3: 2 つの主流データセットの定量的指標。
#研究では、特徴マイニング モジュール (FM) とメタ転送モジュール (MT) の有効性を示すために、一連のアブレーション実験も実施しました。
図 6: 特徴マイニング モジュール (FM) とメタ転送モジュール (MT) の有効性。
さらに、この研究では、MT モジュールを使用した場合と使用しない場合のデコーダーの出力特徴を視覚化しました。MT モジュールが、で説明されているコンテンツを正しくキャプチャできることが明確にわかります。言語と干渉ノイズのフィルタリング。
図 7: MT モジュールを使用する前後のデコーダ出力機能の比較。
研究チームについてこの論文は、Meitu Imaging Research Institute (MT Lab) の研究者と大連大学 Lu Huchuan チームの研究者によって共同提案されました。テクノロジーの。 Meitu Imaging Research Institute (MT Lab) は、コンピューター ビジョン、機械学習、拡張現実、クラウド コンピューティングなどの分野におけるアルゴリズム研究、エンジニアリング開発、製品化に特化した Meitu のチームであり、Meitu の既存および将来の製品の基礎を提供します。コアアルゴリズムのサポートを提供し、最先端技術を通じて Meitu 製品の開発を促進しており、「Technology Center of Meitu」として知られており、CVPR、ICCV、ECCV などの主要な国際コンピューター ビジョン会議に参加し、優勝しています。 10回以上の優勝と準優勝。
以上がクロスモーダル要素転送に基づいた Meitu と大連理工大学の参照ビデオ オブジェクト セグメンテーション手法は、単一の段階のみを必要とします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









Java フレームワークの商用サポートのコスト/パフォーマンスを評価するには、次の手順が必要です。 必要な保証レベルとサービス レベル アグリーメント (SLA) 保証を決定します。研究サポートチームの経験と専門知識。アップグレード、トラブルシューティング、パフォーマンスの最適化などの追加サービスを検討してください。ビジネス サポートのコストと、リスクの軽減と効率の向上を比較検討します。

PHP フレームワークの学習曲線は、言語熟練度、フレームワークの複雑さ、ドキュメントの品質、コミュニティのサポートによって異なります。 PHP フレームワークの学習曲線は、Python フレームワークと比較すると高く、Ruby フレームワークと比較すると低くなります。 Java フレームワークと比較すると、PHP フレームワークの学習曲線は中程度ですが、開始までの時間は短くなります。

軽量の PHP フレームワークは、サイズが小さくリソース消費が少ないため、アプリケーションのパフォーマンスが向上します。その特徴には、小型、高速起動、低メモリ使用量、改善された応答速度とスループット、および削減されたリソース消費が含まれます。 実際のケース: SlimFramework は、わずか 500 KB、高い応答性と高スループットの REST API を作成します。

ベンチマークによると、小規模で高性能なアプリケーションの場合、Quarkus (高速起動、低メモリ) または Micronaut (TechEmpower に優れた) が理想的な選択肢です。 SpringBoot は大規模なフルスタック アプリケーションに適していますが、起動時間とメモリ使用量が若干遅くなります。

明確で包括的なドキュメントを作成することは、Golang フレームワークにとって非常に重要です。ベスト プラクティスには、Google の Go コーディング スタイル ガイドなど、確立されたドキュメント スタイルに従うことが含まれます。見出し、小見出し、リストなどの明確な組織構造を使用し、ナビゲーションを提供します。スタート ガイド、API リファレンス、概念など、包括的で正確な情報を提供します。コード例を使用して、概念と使用法を説明します。ドキュメントを常に最新の状態に保ち、変更を追跡し、新機能を文書化します。 GitHub の問題やフォーラムなどのサポートとコミュニティ リソースを提供します。 API ドキュメントなどの実践的なサンプルを作成します。

アプリケーションのシナリオに基づいて最適な Go フレームワークを選択します。アプリケーションの種類、言語機能、パフォーマンス要件、エコシステムを考慮します。一般的な Go フレームワーク: Jin (Web アプリケーション)、Echo (Web サービス)、Fiber (高スループット)、gorm (ORM)、fasthttp (速度)。実際のケース: REST API (Fiber) の構築とデータベース (gorm) との対話。フレームワークを選択します。主要なパフォーマンスには fasthttp、柔軟な Web アプリケーションには Jin/Echo、データベース インタラクションには gorm を選択してください。

Go フレームワーク開発における一般的な課題とその解決策は次のとおりです。 エラー処理: 管理にはエラー パッケージを使用し、エラーを一元的に処理するにはミドルウェアを使用します。認証と認可: サードパーティのライブラリを統合し、資格情報を確認するためのカスタム ミドルウェアを作成します。同時処理: ゴルーチン、ミューテックス、チャネルを使用してリソース アクセスを制御します。単体テスト: 分離のために getest パッケージ、モック、スタブを使用し、十分性を確保するためにコード カバレッジ ツールを使用します。デプロイメントとモニタリング: Docker コンテナを使用してデプロイメントをパッケージ化し、データのバックアップをセットアップし、ログ記録およびモニタリング ツールでパフォーマンスとエラーを追跡します。

Go フレームワークの学習には、フレームワークへの過度の依存と柔軟性の制限という 5 つの誤解があります。フレームワークの規則に従わない場合、コードの保守が困難になります。古いライブラリを使用すると、セキュリティと互換性の問題が発生する可能性があります。パッケージを過度に使用すると、コード構造が難読化されます。エラー処理を無視すると、予期しない動作やクラッシュが発生します。
