ICLR 2024 口頭: 長いビデオでのノイズ相関学習、シングルカードのトレーニングにかかる時間はわずか 1 日-AI-php.cn

ホームページ

テクノロジー周辺機器

ICLR 2024 口頭: 長いビデオでのノイズ相関学習、シングルカードのトレーニングにかかる時間はわずか 1 日

王林

Mar 05, 2024 pm 10:58 PM

業界ビデオ表現学習

2024 年世界経済フォーラムでの講演で、チューリング賞受賞者のヤンルカン氏は、ビデオの処理に使用されるモデルは、特定のピクセル空間ではなく、抽象表現空間で予測を行うことを学習する必要があると提案しました [1]。テキスト情報の助けを借りたマルチモーダルビデオ表現学習は、ビデオ理解やコンテンツ生成に有益な特徴を抽出できます。これは、このプロセスを促進するための重要なテクノロジーです。

# しかしながら、現在のビデオとテキストの説明の間に蔓延するノイズ相関現象は、ビデオ表現の学習を著しく妨げています。したがって、この記事では、研究者らは、この課題に対処するために、最適伝送理論に基づいた堅牢な長時間ビデオ学習ソリューションを提案します。この論文は、機械学習のトップカンファレンスである ICLR 2024 に口頭で採択されました。

ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

論文タイトル: 長期間のノイズの多いビデオからの多粒度通信学習
論文アドレス: https://openreview.net/pdf?id=9Cu8MRmhq2
プロジェクトアドレス: https://lin-yijie.github.io/projects/Norton
コードアドレス: https://github.com/XLearning-SCU/2024-ICLR-Norton

バックグラウンドの課題

#ビデオ表現学習は、マルチモーダル研究において最も注目されている問題の 1 つです。大規模なビデオ言語の事前トレーニングは、ビデオの検索、視覚的な質問応答、セグメントのセグメンテーションとローカリゼーションなど、さまざまなビデオ理解タスクで目覚ましい成果を上げています。現在、ほとんどのビデオ言語の事前トレーニング作業は主に短いビデオのセグメントの理解に焦点を当てており、長いビデオに存在する長期的な関係や依存関係は無視されています。

#下の図 1 に示すように、長いビデオ学習の主な問題は、ビデオ内の時間的ダイナミクスをエンコードする方法です。現在のソリューションは主に、カスタマイズされたビデオの設計に焦点を当てています。ネットワークエンコーダ長期的な依存関係をキャプチャするため [2] ですが、通常は大きなリソースオーバーヘッドに直面します。

ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

#図 1: 長いビデオデータの例 [2]。このビデオには、複雑なストーリーラインと豊かな時間的ダイナミクスが含まれています。各文は短い断片しか説明できず、ビデオ全体を理解するには長期的な相関推論能力が必要です。

長いビデオは通常、自動言語認識 (ASR) を使用して対応するテキスト字幕を取得するため、ビデオ全体に対応するテキスト段落 (Paragraph) は、 ASR テキストタイムスタンプは複数の短いテキストタイトル (Caption) に分割され、長いビデオ (Video) はそれに応じて複数のビデオクリップ (Clip) に分割できます。ビデオクリップとタイトルの後期段階での融合または位置合わせの戦略は、ビデオ全体を直接エンコードするより効率的であり、長期的な時間的関連学習に最適なソリューションです。

ただし、

ノイズ対応 [3-4]、NC)

はビデオクリップとテキスト文、つまりビデオコンテンツとテキストの間に広く存在します。コーパスが相互に誤ってマッピング/関連付けられています。以下の図 2 に示すように、ビデオとテキストの間には多重粒度のノイズ相関問題が発生します。

^{図 2: 多粒度ノイズ相関。この例では、ビデオコンテンツがテキストタイトルに基づいて 6 つの部分に分割されます。 (左) 緑色のタイムラインはテキストをビデオのコンテンツと一致させることができることを示し、赤色のタイムラインはテキストをビデオ全体のコンテンツと一致させることができないことを示します。 t5 内の緑色の文字は、ビデオコンテンツ v5 に関連する部分を示します。 (右の図) 点線は元々与えられた配置関係を示し、赤は元の配置における誤った配置関係を示し、緑は真の配置関係を示します。実線は、動的タイムラッピングアルゴリズムによる再調整の結果を表していますが、これもノイズ相関の課題をうまく処理できません。}

粗粒度 NC (クリップとキャプションの間)。粗粒度 NC には、非同期 (Asynchronous) と無関係 (Irrelevant) の 2 つのカテゴリがあり、その違いは、ビデオクリップまたはタイトルが既存のタイトルまたはビデオクリップに対応できるかどうかにあります。「非同期」とは、図 2 の t1 など、ビデオクリップとタイトルの間のタイミングのずれを指します。これにより、アクションが実際に実行される前後でナレーターが説明するため、一連のステートメントとアクションの間に不一致が生じます。「無関係」とは、ビデオクリップと一致しない意味のないタイトル（t2 や t6 など）、または無関係なビデオクリップを指します。 Oxford Visual Geometry Group [5] による関連調査によると、HowTo100M データセット内のビデオクリップとタイトルの約 30% のみが視覚的に位置合わせされており、15% のみが元々位置合わせされています。
##ファイングレイン NC (フレームワード)

#方法

この論文では、ノイズに強い方法を提案します。

Timing Optimal Transport (NOise Robust Temporal Optimal Transport、Norton)

は、ビデオ段落レベルのコントラスト学習とフラグメントタイトルレベルのコントラスト学習を通じて、ポストフュージョン方式で複数の粒度からビデオ表現を学習します。トレーニング時間のオーバーヘッドを節約します。

# 図 3 ビデオ - 段落比較アルゴリズムの図。 ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

1) ビデオ - 段落の比較

。図 3 に示すように、研究者は、細かい粒度から粗い粒度までの戦略を使用して、多粒度の関連学習を実行します。まず、フレームと単語の相関を使用してセグメントとタイトルの相関を取得し、さらに集計を使用してビデオと段落の相関を取得し、最後にビデオレベルの対照学習を通じて長期相関を取得します。多粒度ノイズ相関チャレンジの場合、具体的な応答は次のとおりです:

粒度の細かい NC

を対象としています。研究者らは、log-sum-exp近似をソフト最大値演算子として使用して、フレームと単語および単語とフレームの位置合わせでキーワードとキーフレームを特定し、きめの細かいインタラクティブな方法で重要な情報の抽出を実現し、セグメントとタイトルの類似性を蓄積します。セックス。

粗粒度の非同期 NC
の場合。研究者らは、ビデオクリップとタイトル間の距離の指標として最適な伝送距離を使用しました。ビデオクリップとテキストのタイトルの類似性行列
はクリップとタイトルの数を表します) が与えられた場合、最適な送信目標は、全体的な配置の類似性を最大化することです。これにより、タイミングを非同期または 1 対多で自然に処理できます ( t3 など、v4、v5) の複雑なアライメント状況に対応します。
ここで、は各セグメントとタイトルに等しい重みを与える一様分布であり、は送信割り当てまたは再調整の瞬間であり、Sinkhorn アルゴリズムによって解決できます。
- 粗粒度で無関係な NC を対象としています。特徴マッチングにおける SuperGlue [6] からインスピレーションを得て、無関係なセグメントやタイトルをフィルタリングするために、適応性のある位置合わせ可能なヒントバケットを設計しました。プロンプトバケットは、類似度行列上で結合された 1 行 1 列の同じ値のベクトルであり、その値は位置合わせできるかどうかの類似度のしきい値を表します。チップバケットは、Optimal Transport Sinkhorn ソルバーにシームレスに統合されます。
長いビデオを直接モデリングするのではなく、最適な伝送を通じてシーケンス距離を測定すると、計算量を大幅に削減できます。最終的なビデオ段落の損失関数は次のとおりです。ここで、は、番目の長いビデオと番目のテキスト段落の間の類似性行列を表します。

#2) スニペット - タイトルと 。この損失により、ビデオ段落の比較におけるセグメントとタイトルの位置合わせの精度が保証されます。自己教師あり対比学習では、意味的に類似したサンプルが誤って陰性サンプルとして最適化されるため、最適転送を使用して、潜在的な偽陰性サンプルを特定して修正します。

は、トレーニングバッチ内のすべてのビデオクリップとタイトルの数、単位行列は対比学習クロスエントロピー損失における標準的なアライメントターゲットを表し、は最適な送信補正ターゲットを組み込んだ後の再アライメントターゲットを表します。は重み係数です。

実験

この記事は、ノイズ相関を克服してモデルの精度を向上させることを目的としています。長いビデオの理解。ビデオ検索、質疑応答、アクション分割などの具体的なタスクを通じて検証したところ、以下のような実験結果が得られました。

1) 長いビデオの取得

このタスクの目標は、指定されたテキストです。段落、対応する長いビデオを取得します。研究者らは、YouCookII データセットで、テキストに依存しないビデオクリップを保持するかどうかに応じて、背景保持と背景削除の 2 つのシナリオをテストしました。彼らは、Caption Average、DTW、OTAM という 3 つの類似性測定基準を使用します。 Caption Average は、テキスト段落内のタイトルごとに最適なビデオクリップを照合し、最後に一致数が最も多い長いビデオを呼び出します。 DTW と OTAM は、ビデオとテキストの段落間の距離を時系列に累積します。結果を以下の表１および表２に示す。

^{表1、2 YouCookIIデータセットで見られる長時間ビデオ検索パフォーマンスの比較}

# #2）ノイズ相関ロバストネス分析

Oxford Visual Geometry Group は、HowTo100M のビデオに手動で再注釈を付け、各テキストタイトルに正しいタイムスタンプを再注釈付けしました。結果として得られる HTM-Align データセット [5] には、80 個のビデオと 49K のテキストが含まれています。このデータセットのビデオ検索では、主にモデルがノイズ相関を過適合するかどうかを検証します。結果を以下の表 9 に示します。

## 9 9 ノイズ関連性の HTM-Align データセット分析に関する表 9

概要と展望

この記事はノイズ相関学習 [3][4] - データの不一致/エラー相関関係を徹底的に継続し、マルチモーダルビデオテキスト事前トレーニングが直面する多粒度ノイズ相関問題を研究することで、提案された長時間ビデオ学習方法を、より低いリソースオーバーヘッドでより広範囲のビデオデータに拡張できます。

将来に目を向けると、研究者は複数のモダリティ間の相関関係をさらに調査できます。たとえば、ビデオには視覚信号、テキスト信号、音声信号が含まれることが多く、外部の大きな信号を組み合わせることを試みることができます。言語モデル (LLM) またはマルチモーダルモデル (BLIP-2) を使用してテキストコーパスをクリーンアップおよび再構成し、ノイズの悪影響を抑制するだけでなく、モデルトレーニングのプラスの刺激としてノイズを使用する可能性を探ります。

参考文献:
^{1. このサイト「Yann LeCun :生成モデルはビデオの処理には適していません。AI は抽象空間で予測を行う必要があります。」、2024-01-23.}
^{2.Sun, Y., Xue , H.、Song, R.、Liu, B.、Yang, H.、& Fu, J. (2022). マルチモーダル時間対比学習による長編ビデオ言語の事前トレーニング. 神経情報処理システムの進歩、35、38032-38045。}
^{3.Huang、Z.、Niu、G.、Liu、X.、Ding、W.、Xiao、X . , Wu, H., & Peng, X. (2021). クロスモーダルマッチングのためのノイズを含む対応による学習. Advances in Neural Information Processing Systems, 34, 29406-29419.}
##4.Lin, Y., Yang, M., Yu, J., Hu, P., Zhang, C., & Peng, X. (2023). バイレベルノイズ対応によるグラフマッチング. コンピュータビジョンに関する IEEE/CVF 国際会議議事録.
##5. Han, T.、Xie, W.、Zisserman, A. ( 2022 ). 長期ビデオ用の時間的アラインメントネットワーク. コンピュータービジョンとパターン認識に関する IEEE/CVF 会議議事録 (pp. 2906-2916).
6.Sarlin, P. E.、DeTone, D.、Malisiewicz, T.、& Rabinovich, A. (2020). スーパーグルー: グラフニューラルネットワークによる学習特徴マッチング. コンピュータービジョンとパターン認識に関する IEEE/CVF 会議の議事録(pp. 4938-4947).

以上がICLR 2024 口頭: 長いビデオでのノイズ相関学習、シングルカードのトレーニングにかかる時間はわずか 1 日の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1663

CakePHP チュートリアル

1420

Laravel チュートリアル

1313

PHP チュートリアル

1266

C# チュートリアル

1239

Related knowledge

DeepMind ロボットが卓球をすると、フォアハンドとバックハンドが空中に滑り出し、人間の初心者を完全に打ち負かしました Aug 09, 2024 pm 04:01 PM

でももしかしたら公園の老人には勝てないかもしれない？パリオリンピックの真っ最中で、卓球が注目を集めています。同時に、ロボットは卓球のプレーにも新たな進歩をもたらしました。先ほど、DeepMind は、卓球競技において人間のアマチュア選手のレベルに到達できる初の学習ロボットエージェントを提案しました。論文のアドレス: https://arxiv.org/pdf/2408.03906 DeepMind ロボットは卓球でどれくらい優れていますか?おそらく人間のアマチュアプレーヤーと同等です: フォアハンドとバックハンドの両方: 相手はさまざまなプレースタイルを使用しますが、ロボットもそれに耐えることができます: さまざまなスピンでサーブを受ける: ただし、ゲームの激しさはそれほど激しくないようです公園の老人。ロボット、卓球用

初のメカニカルクロー！元羅宝は2024年の世界ロボット会議に登場し、家庭に入ることができる初のチェスロボットを発表した Aug 21, 2024 pm 07:33 PM

8月21日、2024年世界ロボット会議が北京で盛大に開催された。 SenseTimeのホームロボットブランド「Yuanluobot SenseRobot」は、全製品ファミリーを発表し、最近、世界初の家庭用チェスロボットとなるYuanluobot AIチェスプレイロボット - Chess Professional Edition（以下、「Yuanluobot SenseRobot」という）をリリースした。家。 Yuanluobo の 3 番目のチェス対局ロボット製品である新しい Guxiang ロボットは、AI およびエンジニアリング機械において多くの特別な技術アップグレードと革新を経て、初めて 3 次元のチェスの駒を拾う機能を実現しました。家庭用ロボットの機械的な爪を通して、チェスの対局、全員でのチェスの対局、記譜のレビューなどの人間と機械の機能を実行します。

クロードも怠け者になってしまった！ネチズン: 自分に休日を与える方法を学びましょう Sep 02, 2024 pm 01:56 PM

もうすぐ学校が始まり、新学期を迎える生徒だけでなく、大型AIモデルも気を付けなければなりません。少し前、レディットはクロードが怠け者になったと不満を漏らすネチズンでいっぱいだった。「レベルが大幅に低下し、頻繁に停止し、出力も非常に短くなりました。リリースの最初の週は、4 ページの文書全体を一度に翻訳できましたが、今では 0.5 ページの出力さえできません」 !」 https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ というタイトルの投稿で、「クロードには完全に失望しました」という内容でいっぱいだった。

世界ロボット会議で「未来の高齢者介護の希望」を担う家庭用ロボットを囲みました Aug 22, 2024 pm 10:35 PM

北京で開催中の世界ロボット会議では、人型ロボットの展示が絶対的な注目となっているスターダストインテリジェントのブースでは、AIロボットアシスタントS1がダルシマー、武道、書道の3大パフォーマンスを披露した。文武両道を備えた 1 つの展示エリアには、多くの専門的な聴衆とメディアが集まりました。弾性ストリングのエレガントな演奏により、S1 は、スピード、強さ、正確さを備えた繊細な操作と絶対的なコントロールを発揮します。 CCTVニュースは、「書道」の背後にある模倣学習とインテリジェント制御に関する特別レポートを実施し、同社の創設者ライ・ジエ氏は、滑らかな動きの背後にあるハードウェア側が最高の力制御と最も人間らしい身体指標（速度、負荷）を追求していると説明した。など）、AI側では人の実際の動きのデータが収集され、強い状況に遭遇したときにロボットがより強くなり、急速に進化することを学習することができます。そしてアジャイル

ACL 2024 賞の発表: HuaTech による Oracle 解読に関する最優秀論文の 1 つ、GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

貢献者はこの ACL カンファレンスから多くのことを学びました。 6日間のACL2024がタイのバンコクで開催されています。 ACL は、計算言語学と自然言語処理の分野におけるトップの国際会議で、国際計算言語学協会が主催し、毎年開催されます。 ACL は NLP 分野における学術的影響力において常に第一位にランクされており、CCF-A 推奨会議でもあります。今年の ACL カンファレンスは 62 回目であり、NLP 分野における 400 以上の最先端の作品が寄せられました。昨日の午後、カンファレンスは最優秀論文およびその他の賞を発表しました。今回の優秀論文賞は7件（未発表2件）、最優秀テーマ論文賞1件、優秀論文賞35件です。このカンファレンスでは、3 つの Resource Paper Award (ResourceAward) と Social Impact Award (

Li Feifei 氏のチームは、ロボットに空間知能を与え、GPT-4o を統合する ReKep を提案しました Sep 03, 2024 pm 05:18 PM

ビジョンとロボット学習の緊密な統合。最近話題の1X人型ロボットNEOと合わせて、2つのロボットハンドがスムーズに連携して服をたたむ、お茶を入れる、靴を詰めるといった動作をしていると、いよいよロボットの時代が到来するのではないかと感じられるかもしれません。実際、これらの滑らかな動きは、高度なロボット技術 + 精緻なフレーム設計 + マルチモーダル大型モデルの成果です。有用なロボットは多くの場合、環境との複雑かつ絶妙な相互作用を必要とし、環境は空間領域および時間領域の制約として表現できることがわかっています。たとえば、ロボットにお茶を注いでもらいたい場合、ロボットはまずティーポットのハンドルを掴んで、お茶をこぼさないように垂直に保ち、次にポットの口がカップの口と揃うまでスムーズに動かす必要があります。、そしてティーポットを一定の角度に傾けます。これ

宏蒙スマートトラベルS9とフルシナリオ新製品発売カンファレンス、多数の大ヒット新製品が一緒にリリースされました Aug 08, 2024 am 07:02 AM

今日の午後、Hongmeng Zhixingは新しいブランドと新車を正式に歓迎しました。 8月6日、ファーウェイはHongmeng Smart Xingxing S9およびファーウェイのフルシナリオ新製品発表カンファレンスを開催し、パノラマスマートフラッグシップセダンXiangjie S9、新しいM7ProおよびHuawei novaFlip、MatePad Pro 12.2インチ、新しいMatePad Air、Huawei Bisheng Withを発表しました。レーザープリンタ X1 シリーズ、FreeBuds6i、WATCHFIT3、スマートスクリーン S5Pro など、スマートトラベル、スマートオフィスからスマートウェアに至るまで、多くの新しいオールシナリオスマート製品を開発し、ファーウェイは消費者にスマートな体験を提供するフルシナリオのスマートエコシステムを構築し続けています。すべてのインターネット。宏孟志興氏：スマートカー業界のアップグレードを促進するための徹底的な権限付与ファーウェイは中国の自動車業界パートナーと提携して、

分散型人工知能カンファレンス DAI 2024 論文募集: エージェントデイ、強化学習の父であるリチャードサットン氏が出席します。 Yan Shuicheng、Sergey Levine、DeepMind の科学者が基調講演を行います Aug 22, 2024 pm 08:02 PM

会議の紹介科学技術の急速な発展に伴い、人工知能は社会の進歩を促進する重要な力となっています。この時代に、分散型人工知能 (DAI) の革新と応用を目撃し、参加できることは幸運です。分散型人工知能は人工知能分野の重要な分野であり、近年ますます注目を集めています。大規模言語モデル (LLM) に基づくエージェントは、大規模モデルの強力な言語理解機能と生成機能を組み合わせることで、自然言語対話、知識推論、タスク計画などにおいて大きな可能性を示しました。 AIAgent は大きな言語モデルを引き継ぎ、現在の AI 界隈で話題になっています。アウ

See all articles

ICLR 2024 口頭: 長いビデオでのノイズ相関学習、シングルカードのトレーニングにかかる​​時間はわずか 1 日