目次
実験結果
ゼロショット ビデオ テキストの検索と分類
ゼロサンプルビデオ字幕と品質チェック
アブレーション研究
参考:
ホームページ テクノロジー周辺機器 AI Google AIビデオがまたすごい!オールインワンのユニバーサル ビジュアル エンコーダーである VideoPrism が 30 の SOTA パフォーマンス機能を更新

Google AIビデオがまたすごい!オールインワンのユニバーサル ビジュアル エンコーダーである VideoPrism が 30 の SOTA パフォーマンス機能を更新

Feb 26, 2024 am 09:58 AM
グーグル ai データセット

AI ビデオ モデル Sora が人気を博した後、Meta や Google などの大手企業は研究を行って OpenAI に追いつくために手を引いています。

最近、Google チームの研究者は、ユニバーサル ビデオ エンコーダ VideoPrism を提案しました。

単一のフリーズされたモデルを通じて、さまざまなビデオ理解タスクを処理できます。

Google AIビデオがまたすごい!オールインワンのユニバーサル ビジュアル エンコーダーである VideoPrism が 30 の SOTA パフォーマンス機能を更新写真

論文アドレス: https://arxiv.org/pdf/2402.13217.pdf

たとえば、VideoPrism は次のように変換できます。以下のビデオ内でろうそくを吹き飛ばしている人々が分類され、位置が特定されています。

Google AIビデオがまたすごい!オールインワンのユニバーサル ビジュアル エンコーダーである VideoPrism が 30 の SOTA パフォーマンス機能を更新画像

ビデオテキスト検索では、テキストコンテンツに従って、ビデオ内の対応するコンテンツを取得できます。

Google AIビデオがまたすごい!オールインワンのユニバーサル ビジュアル エンコーダーである VideoPrism が 30 の SOTA パフォーマンス機能を更新写真

別の例として、下のビデオについて説明します。小さな女の子が積み木で遊んでいます。

QA の質問と回答を行うこともできます。

#--彼女が緑のブロックの上に置いたブロックは何色ですか? ######- 紫。

写真

Google AIビデオがまたすごい!オールインワンのユニバーサル ビジュアル エンコーダーである VideoPrism が 30 の SOTA パフォーマンス機能を更新研究者らは、3,600 万の高品質ビデオ字幕ペアと 5 億 8,200 万のビデオ クリップを含む異種コーパスで VideoPrism を事前トレーニングしました。ノイズの多い並列テキスト (ASR 転写テキストなど)。

VideoPrism が 33 のビデオ理解ベンチマーク テストで 30 SOTA を更新したことは言及する価値があります。

写真

Google AIビデオがまたすごい!オールインワンのユニバーサル ビジュアル エンコーダーである VideoPrism が 30 の SOTA パフォーマンス機能を更新Universal Visual Encoder VideoPrism

現在、Video Fundamental Model (ViFM) は巨大なロック解除に使用できる大きな可能性を秘めています。コーパス内の新しい能力。

これまでの研究により、一般的なビデオの理解は大幅に進歩しましたが、真の「基本的なビデオ モデル」を構築することは依然としてとらえどころのない目標です。

これに応えて、Google は、分類、ローカリゼーション、検索、字幕、質問応答 (QA) など、幅広いビデオ理解タスクを解決するために設計された汎用ビジュアル エンコーダである VideoPrism を発売しました。

VideoPrism は、CV データセットだけでなく、神経科学や生態学などの科学分野の CV タスクでも幅広く評価されています。

単一の凍結モデルを使用することで、最小限のフィットネスで最先端のパフォーマンスを実現します。

さらに、Googleの研究者らは、この凍結されたエンコーダ設定は先行研究を踏襲しており、実際の実用性と、高い計算コストとビデオモデルの微調整を考慮していると述べています。

写真

Google AIビデオがまたすごい!オールインワンのユニバーサル ビジュアル エンコーダーである VideoPrism が 30 の SOTA パフォーマンス機能を更新設計アーキテクチャ、2 段階のトレーニング方法

VideoPrism の設計コンセプトは次のとおりです。

事前トレーニング データは基本モデル (FM) の基礎です。ViFM の理想的な事前トレーニング データは、世界中のすべてのビデオの代表的なサンプルです。

このサンプルでは、​​ほとんどのビデオにコンテンツを説明する並行テキストがありません。

ただし、そのようなテキストでトレーニングすると、ビデオ空間に関する貴重な意味論的な手がかりが得られる可能性があります。

したがって、Google の事前トレーニング戦略は、利用可能なビデオとテキストのペアを最大限に活用しながら、主にビデオ モードに焦点を当てる必要があります。

データ面では、Google の研究者は、3,600 万の高品質ビデオ字幕ペアと、ノイズの多い並列テキスト (ASR 転写、生成された字幕、取得されたテキストなど) を含む 5 億 8,200 万のビデオ クリップを組み立てることによってこれを近似しました。 -トレーニングコーパス。 ############写真######

Google AIビデオがまたすごい!オールインワンのユニバーサル ビジュアル エンコーダーである VideoPrism が 30 の SOTA パフォーマンス機能を更新写真

モデリングの観点から、著者はまず、さまざまな品質のすべてのビデオとテキストのペアから意味論的なビデオ埋め込みを比較学習します。

次に、以下で説明するマスクされたビデオ モデリングは、広範囲の純粋なビデオ データを使用したセマンティック埋め込みのグローバルおよびラベルの洗練によって改善されます。

自然言語での成功にもかかわらず、元の視覚信号にはセマンティクスが欠如しているため、マスクされたデータ モデリングは依然として CV にとって課題です。

既存の研究では、間接的なセマンティクス (モデルやトークナイザーをガイドするための CLIP の使用、または暗黙的なセマンティクスなど) を借用するか、それらを暗黙的に一般化する (ビジュアル パッチのラベル​​付けなど) ことでこの課題に対処しています。軽量デコーダ。

上記の考えに基づいて、Google チームは事前トレーニング データに基づく 2 段階のアプローチを採用しました。

Google AIビデオがまたすごい!オールインワンのユニバーサル ビジュアル エンコーダーである VideoPrism が 30 の SOTA パフォーマンス機能を更新画像

最初の段階では、すべてのビデオとテキストのペアを使用して、ビデオ エンコーダーとテキスト エンコーダーを調整するために対照学習が実行されます。

以前の調査に基づいて、Google チームはバッチ内のすべてのビデオとテキストのペアの類似性スコアを最小化し、対称クロスエントロピー損失の最小化を実行しました。

そして、CoCa の画像モデルを使用して空間コーディング モジュールを初期化し、WebLI を事前トレーニングに組み込みます。

損失を計算する前に、ビデオ エンコーダの機能がマルチヘッド アテンション プーリング (MAP) を通じて集約されます。

この段階では、ビデオ エンコーダーが言語監視から豊富な視覚的セマンティクスを学習できるようになり、結果として得られるモデルは、第 2 段階のトレーニング用のセマンティック ビデオ埋め込みを提供します。

Google AIビデオがまたすごい!オールインワンのユニバーサル ビジュアル エンコーダーである VideoPrism が 30 の SOTA パフォーマンス機能を更新

第 2 段階では、エンコーダーのトレーニングが継続され、2 つの改善が行われます。

-モデルは次のことを行う必要があります。コードの入力ビデオ パッチは、最初の段階でビデオ レベルのグローバル エンベディングとトークン エンベディングを予測するために使用されます。

- エンコーダーの出力トークンは、エンコーダーに渡される前にランダムにシャッフルされます。デコーダを使用してショートカットの学習を回避します。

注目すべきことに、研究者らの事前トレーニングでは、ビデオのテキストによる説明と状況に応じた自己監視という 2 つの監視信号が活用され、VideoPrism が外観とアクション中心のタスクで適切に実行できるようになりました。

実際、これまでの研究では、ビデオのキャプションは主に外観の手がかりを明らかにし、状況に応じた監視は行動の学習に役立つことが示されています。

Google AIビデオがまたすごい!オールインワンのユニバーサル ビジュアル エンコーダーである VideoPrism が 30 の SOTA パフォーマンス機能を更新写真

実験結果

次に、研究者らはビデオ中心の理解タスクの幅広い範囲で VideoPrism を評価し、その機能を示しました。そして多用途性。

主に次の 4 つのカテゴリに分類されます。

(1) 一般に、分類と時空間位置決めを含むビデオ理解のみ

(2) ゼロサンプルのビデオ テキスト検索

(3) ゼロサンプルビデオ字幕と品質チェック

(4) 科学における CV タスク

分類と時空間位置特定

表 2 はフリーズを示していますVideoGLUE バックボーンの結果について。

VideoPrism は、すべてのデータセットでベースラインを大幅に上回っています。さらに、VideoPrism の基礎となるモデル サイズを ViT-B から ViT-g に増やすと、パフォーマンスが大幅に向上します。

すべてのベンチマークで 2 番目に良い結果を達成したベースライン手法がないことは注目に値します。これは、以前の手法がビデオ理解の特定の側面を対象として開発された可能性があることを示唆しています。

そして、VideoPrism はこの広範なタスクを改善し続けています。

この結果は、VideoPrism がさまざまなビデオ信号を 1 つのエンコーダーに統合していることを示しています。つまり、複数の粒度でのセマンティクス、外観と動きのキュー、時空間情報、およびさまざまなビデオ ソース (オンライン ビデオやスクリプト化されたパフォーマンスなど) を解釈する機能です。堅牢性。

Google AIビデオがまたすごい!オールインワンのユニバーサル ビジュアル エンコーダーである VideoPrism が 30 の SOTA パフォーマンス機能を更新写真

ゼロショット ビデオ テキストの検索と分類

表 3 と 4 は、それぞれビデオ テキストの検索とビデオ分類の結果をまとめたものです。

VideoPrism のパフォーマンスは複数のベンチマークを更新し、困難なデータセットにおいて、VideoPrism は以前のテクノロジーと比較して非常に大幅な改善を達成しました。

Google AIビデオがまたすごい!オールインワンのユニバーサル ビジュアル エンコーダーである VideoPrism が 30 の SOTA パフォーマンス機能を更新写真

基本モデル VideoPrism-B のほとんどの結果は、実際に既存の大規模モデルよりも優れています。

さらに、VideoPrism は、ドメイン内データと追加のモダリティ (オーディオなど) を使用して事前トレーニングされた表 4 のモデルと同等か、それ以上です。ゼロショット検索および分類タスクにおけるこれらの改善は、VideoPrism の強力な一般化機能を反映しています。

Google AIビデオがまたすごい!オールインワンのユニバーサル ビジュアル エンコーダーである VideoPrism が 30 の SOTA パフォーマンス機能を更新画像

ゼロサンプルビデオ字幕と品質チェック

表 5 と表 6 に、それぞれゼロサンプルビデオ字幕を示します。とQAの結果です。

シンプルなモデル アーキテクチャと少数のアダプター パラメーターにもかかわらず、最新のモデルは依然として競争力があり、VATEX を除いて、ビジュアル モデルと言語モデルをフリーズするためのトップ メソッドの 1 つにランクされています。

結果は、VideoPrism エンコーダがビデオから言語への生成タスクにうまく一般化できることを示しています。

Google AIビデオがまたすごい!オールインワンのユニバーサル ビジュアル エンコーダーである VideoPrism が 30 の SOTA パフォーマンス機能を更新写真

科学における CV タスク

汎用 ViFM は、すべての評価で共有フリーズ エンコーダーを使用しており、そのパフォーマンスは、単一タスクに特化したドメイン固有のモデル。

特に、VideoPrism は最高のパフォーマンスを発揮することが多く、ベース スケール モデルを備えたドメイン エキスパート モデルを上回ります。

大規模モデルにスケーリングすると、すべてのデータセットのパフォーマンスがさらに向上します。これらの結果は、ViFM がさまざまな分野でビデオ分析を大幅に加速する可能性があることを示しています。

Google AIビデオがまたすごい!オールインワンのユニバーサル ビジュアル エンコーダーである VideoPrism が 30 の SOTA パフォーマンス機能を更新

アブレーション研究

図 4 はアブレーションの結果を示しています。特に、SSv2 における VideoPrism の継続的な改善は、ビデオにおけるモーションの理解を促進する際のデータ管理とモデル設計の取り組みの有効性を実証しています。

比較ベースラインはすでに K400 で競合する結果を達成していますが、提案されているグローバル蒸留とトークン シャッフルにより精度がさらに向上しました。

Google AIビデオがまたすごい!オールインワンのユニバーサル ビジュアル エンコーダーである VideoPrism が 30 の SOTA パフォーマンス機能を更新写真

参考:

https://arxiv.org/pdf/2402.13217.pdf

https://blog.research.google/2024/02/videoprism-foundational-visual-encoder.html

以上がGoogle AIビデオがまたすごい!オールインワンのユニバーサル ビジュアル エンコーダーである VideoPrism が 30 の SOTA パフォーマンス機能を更新の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

WorldCoin(WLD)価格予測2025-2031:WLDは2031年までに4ドルに達しますか? WorldCoin(WLD)価格予測2025-2031:WLDは2031年までに4ドルに達しますか? Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)は、独自の生体認証とプライバシー保護メカニズムを備えた暗号通貨市場で際立っており、多くの投資家の注目を集めています。 WLDは、特にOpenai人工知能技術と組み合わせて、革新的なテクノロジーを備えたAltcoinsの間で驚くほど演奏​​しています。しかし、デジタル資産は今後数年間でどのように振る舞いますか? WLDの将来の価格を一緒に予測しましょう。 2025年のWLD価格予測は、2025年にWLDで大幅に増加すると予想されています。市場分析は、平均WLD価格が1.31ドルに達する可能性があり、最大1.36ドルであることを示しています。ただし、クマ市場では、価格は約0.55ドルに低下する可能性があります。この成長の期待は、主にWorldCoin2によるものです。

クロスチェーントランザクションとはどういう意味ですか?クロスチェーントランザクションとは何ですか? クロスチェーントランザクションとはどういう意味ですか?クロスチェーントランザクションとは何ですか? Apr 21, 2025 pm 11:39 PM

クロスチェーントランザクションをサポートする交換:1。Binance、2。Uniswap、3。Sushiswap、4。CurveFinance、5。Thorchain、6。1inchExchange、7。DLNTrade、これらのプラットフォームはさまざまな技術を通じてマルチチェーン資産トランザクションをサポートします。

カーネルエアドロップ報酬を獲得する方法バイナンスフルプロセス戦略 カーネルエアドロップ報酬を獲得する方法バイナンスフルプロセス戦略 Apr 21, 2025 pm 01:03 PM

暗号通貨の賑やかな世界では、新しい機会が常に現れます。現在、Kerneldao(Kernel)Airdropアクティビティは多くの注目を集め、多くの投資家の注目を集めています。それで、このプロジェクトの起源は何ですか? BNBホルダーはそれからどのような利点を得ることができますか?心配しないでください、以下はあなたのためにそれを一つ一つ明らかにします。

通貨サークルでのレバレッジされた交換のランキングは 通貨サークルでのレバレッジされた交換のランキングは Apr 21, 2025 pm 11:24 PM

2025年のレバレッジド取引、セキュリティ、ユーザーエクスペリエンスで優れたパフォーマンスを持つプラットフォームは次のとおりです。1。OKX、高周波トレーダーに適しており、最大100倍のレバレッジを提供します。 2。世界中の多通貨トレーダーに適したバイナンス、125倍の高いレバレッジを提供します。 3。Gate.io、プロのデリバティブプレーヤーに適し、100倍のレバレッジを提供します。 4。ビットゲットは、初心者やソーシャルトレーダーに適しており、最大100倍のレバレッジを提供します。 5。Kraken、安定した投資家に適しており、5倍のレバレッジを提供します。 6。Altcoinエクスプローラーに適したBybit。20倍のレバレッジを提供します。 7。低コストのトレーダーに適したKucoinは、10倍のレバレッジを提供します。 8。ビットフィネックス、シニアプレイに適しています

Aavenomicsは、Aaveプロトコルトークンを変更し、Tokenの買戻しを導入するための推奨事項です。 Aavenomicsは、Aaveプロトコルトークンを変更し、Tokenの買戻しを導入するための推奨事項です。 Apr 21, 2025 pm 06:24 PM

Aavenomicsは、Aaveプロトコルトークンを変更し、Aavedaoの定足数を実装したToken Reposを導入する提案です。 Aave Project Chain(ACI)の創設者であるMarc Zellerは、これをXで発表し、契約の新しい時代をマークしていることに注目しました。 Aave Chain Initiative(ACI)の創設者であるMarc Zellerは、Aavenomicsの提案にAave Protocolトークンの変更とトークンリポジトリの導入が含まれていると発表しました。 Zellerによると、これは契約の新しい時代を告げています。 Aavedaoのメンバーは、水曜日の週に100でした。

「ブラックマンデーセル」は、暗号通貨業界にとって厳しい日です 「ブラックマンデーセル」は、暗号通貨業界にとって厳しい日です Apr 21, 2025 pm 02:48 PM

暗号通貨市場での突入は投資家の間でパニックを引き起こし、Dogecoin(Doge)は最も困難なヒット分野の1つになりました。その価格は急激に下落し、分散財務財務(DEFI)(TVL)の総価値が激しく減少しました。 「ブラックマンデー」の販売波が暗号通貨市場を席巻し、ドゲコインが最初にヒットしました。そのdefitVLは2023レベルに低下し、通貨価格は過去1か月で23.78%下落しました。 DogecoinのDefitVLは、主にSOSO値指数が26.37%減少したため、272万ドルの安値に低下しました。退屈なDAOやThorchainなどの他の主要なDefiプラットフォームも、それぞれ24.04%と20減少しました。

ハイブリッドブロックチェーン取引プラットフォームとは何ですか? ハイブリッドブロックチェーン取引プラットフォームとは何ですか? Apr 21, 2025 pm 11:36 PM

暗号通貨交換を選択するための提案:1。流動性の要件については、優先度は、その順序の深さと強力なボラティリティ抵抗のため、Binance、gate.ioまたはokxです。 2。コンプライアンスとセキュリティ、Coinbase、Kraken、Geminiには厳格な規制の承認があります。 3.革新的な機能、Kucoinのソフトステーキング、Bybitのデリバティブデザインは、上級ユーザーに適しています。

1つの記事を理解する:Binance Kernel Airdropプロセス 1つの記事を理解する:Binance Kernel Airdropプロセス Apr 21, 2025 pm 01:09 PM

暗号通貨の世界では、新しい機会が常に現れます。最近、Binanceによって開始されたKerneldao(Kernel)Megadropプロジェクトは、広範囲にわたる注目を集めています。このプロジェクトは、投資家に新しい投資オプションをもたらすだけでなく、BNB保有者に独自の利点を提供します。それで、カーネルダオとは正確には何ですか?このエアドロップはどのように実行されますか? 1つの記事で理解しましょう。

See all articles