目次
実験
ホームページ テクノロジー周辺機器 AI 固定パラメータ モデルにはどの程度の可能性があるのでしょうか?香港中国人、上海AIラボなどが効率的なビデオ理解フレームワークEVLを提案

固定パラメータ モデルにはどの程度の可能性があるのでしょうか?香港中国人、上海AIラボなどが効率的なビデオ理解フレームワークEVLを提案

Apr 12, 2023 pm 08:58 PM
フレーム モデル

Visual Basic モデルは、過去 2 年間で目覚ましい発展を遂げました。大規模なインターネット データに基づく事前トレーニングでは、モデルに多数の意味概念が事前設定されているため、汎化性能が優れていますが、その一方で、もたらされたモデル サイズを最大限に活用するために、大規模なデータセットによる成長により、関連モデルは、特に複数のフレームを処理する必要があるビデオ理解モデルの場合、下流のタスクに移行するときに非効率の問題に直面するようになります。

固定パラメータ モデルにはどの程度の可能性があるのでしょうか?香港中国人、上海AIラボなどが効率的なビデオ理解フレームワークEVLを提案

  • 論文リンク: https://arxiv.org/abs/2208.03550
  • コードリンク: https://github.com/OpenGVLab/efficient-video-recognition

上記の 2 つに基づく香港中文大学、上海人工知能研究所などの研究者らは、バックボーンの基本モデルの重みを固定することで、学習計算とメモリ消費を節約すると同時に、効率的なビデオ理解転移学習フレームワークEVLを提案した。 、マルチレベルのきめ細かい中間機能を利用することで、従来のエンドツーエンドの微調整の柔軟性を可能な限り維持します。

下の図 1 は、ビデオ理解データセット Kinetics-400 に対する EVL メソッドの結果を示しています。実験によれば、この方法はトレーニングのオーバーヘッドを節約しながら、ビデオ理解タスクにおける基本的な視覚モデルの可能性を十分に探求できます。

固定パラメータ モデルにはどの程度の可能性があるのでしょうか?香港中国人、上海AIラボなどが効率的なビデオ理解フレームワークEVLを提案

# 図 1: Kinetics-400 の認識精度の比較、横軸は推論計算量、縦軸は推論計算量軸は精度です。 #方法

アルゴリズムの全体的な概略図を図 2(a) に示します。ビデオサンプルの場合、T フレームを取得し、画像認識ネットワーク (CLIP を例として) に入力し、特徴を抽出します。従来の方法と比較して、画像認識ネットワークの最後の数層から多層のプールされていない特徴を抽出して、より豊富でよりきめの細かい画像情報を取得し、画像認識ネットワークのパラメータの重みはビデオ学習において常に一貫しています。修理済み。続いて、多層特徴マップは、ビデオレベルの情報集約のために Transformer デコーダに順次入力されます。マルチレイヤ デコードされた [CLS] 特徴は、最終的な分類予測を生成するために使用されます。

図 2(b) に示すように、Transformer デコーダが特徴を集約する際の障害のため、位置関連の詳細な抽出を改善するために、追加の時間情報モデリング モジュールをネットワークに追加しました。粒度の細かいタイミング情報。具体的には、3 つのタイプの位置関連のタイミング情報を追加します。1 つ目は時間的位置エンベディング (Position Embeddings)、2 つ目は時間次元の深さ分離可能な畳み込み (Depthwise Convolution)、3 つ目は隣接するフレーム間のアテンションです。情報を強制します。フレーム間のアテンション情報については、画像認識ネットワークから対応するレイヤーのクエリとキー特徴を抽出し、隣接するフレーム間のアテンションマップを計算します(画像認識ネットワークとは異なり、アテンションマップは、画像認識ネットワークからのクエリから構成されます)同じフレームと主要な特徴が得られます)。結果として得られるアテンション マップは、隣接するフレーム間のオブジェクトの位置の変化を明示的に反映できます。線形投影の後、アテンション マップはオブジェクトの変位特性を反映したベクトル群を取得し、要素ごとに加算する形で画像特徴に統合されます。

固定パラメータ モデルにはどの程度の可能性があるのでしょうか?香港中国人、上海AIラボなどが効率的なビデオ理解フレームワークEVLを提案

#図 2: EVL アルゴリズムの構造図。 (a) 全体構造、(b) 逐次情報モデリングモジュール。

固定パラメータ モデルにはどの程度の可能性があるのでしょうか?香港中国人、上海AIラボなどが効率的なビデオ理解フレームワークEVLを提案

固定パラメータ モデルにはどの程度の可能性があるのでしょうか?香港中国人、上海AIラボなどが効率的なビデオ理解フレームワークEVLを提案

図 3: フレーム間注意の数学的特徴表現。

実験

図 1 と表 1 では、これまでのビデオを理解する上で重要な方法をいくつか引用しました。トレーニングのオーバーヘッドを削減することに重点を置いているにもかかわらず、私たちの方法は依然として精度の点で既存の方法を上回っています(同じ計算量でも)。

表 2 に、固定バックボーン ネットワークによってもたらされるトレーニング オーバーヘッドの削減を示します。メモリの点では、V100 16GB GPU では、固定バックボーン ネットワークによりシングル カードのバッチ サイズが最大 64 に達することができますが、エンドツーエンドのトレーニングでは最大 8 に達することができます。時間の点では、固定バックボーンネットワークによりトレーニング時間を 3 ~ 4 倍節約できます。

表 3 では、きめ細かい特徴マップによる認識パフォーマンスの向上を示しています。マルチレイヤの非プール機能により、バックボーン ネットワークの重みを固定する際にかなりの柔軟性を維持できます。非プール機能の使用が最も大幅な改善 (約 3%) をもたらし、次にマルチレイヤ デコーダと中間レイヤ機能の使用がそれぞれ約 1% のパフォーマンス向上をもたらします。

最後に、表 4 に詳細なタイミング情報モジュールの効果を示します。詳細なタイミング情報は、Kinetics-400 のパフォーマンスに限定的な影響を与えますが、Something-Something-v2 のパフォーマンスにとって非常に重要です。3 つの詳細なタイミング情報モジュールは、合計で約 0.5%、約 14% のパフォーマンスをもたらします。 % のパフォーマンスの向上。

固定パラメータ モデルにはどの程度の可能性があるのでしょうか?香港中国人、上海AIラボなどが効率的なビデオ理解フレームワークEVLを提案

#表 1: Kinetics-400 ## での既存の手法との比較結果

固定パラメータ モデルにはどの程度の可能性があるのでしょうか?香港中国人、上海AIラボなどが効率的なビデオ理解フレームワークEVLを提案

#表 2: バックボーン ネットワークの重みの固定によるトレーニング オーバーヘッドの削減

固定パラメータ モデルにはどの程度の可能性があるのでしょうか?香港中国人、上海AIラボなどが効率的なビデオ理解フレームワークEVLを提案

#表 3: 精度に対するきめ細かい特徴マップの影響

固定パラメータ モデルにはどの程度の可能性があるのでしょうか?香港中国人、上海AIラボなどが効率的なビデオ理解フレームワークEVLを提案

#表 4: さまざまなデータセットに対するきめの細かい時系列情報モデリングの効果

概要

この記事は、EVL ビデオ理解学習フレームワークを提案します。これは、ビデオ理解の問題における固定画像バックボーン ネットワークの大きな可能性を初めて実証し、また、高性能ビデオ理解を、制限された研究グループにとってより使いやすいものにします。コンピューティングリソース。また、ビジュアルベーシックモデルの品質とスケールが向上するにつれて、私たちの方法は軽量転移学習アルゴリズムに関するその後の研究の参考になると信じています。

以上が固定パラメータ モデルにはどの程度の可能性があるのでしょうか?香港中国人、上海AIラボなどが効率的なビデオ理解フレームワークEVLを提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

OpenAI データは必要ありません。大規模なコード モデルのリストに加わりましょう。 UIUC が StarCoder-15B-Instruct をリリース OpenAI データは必要ありません。大規模なコード モデルのリストに加わりましょう。 UIUC が StarCoder-15B-Instruct をリリース Jun 13, 2024 pm 01:59 PM

ソフトウェア テクノロジの最前線に立つ UIUC Zhang Lingming のグループは、BigCode 組織の研究者とともに、最近 StarCoder2-15B-Instruct 大規模コード モデルを発表しました。この革新的な成果により、コード生成タスクにおいて大きな進歩が達成され、CodeLlama-70B-Instruct を上回り、コード生成パフォーマンス リストのトップに到達しました。 StarCoder2-15B-Instruct のユニークな特徴は、その純粋な自己調整戦略であり、トレーニング プロセス全体がオープンで透過的で、完全に自律的で制御可能です。このモデルは、高価な手動アノテーションに頼ることなく、StarCoder-15B 基本モデルの微調整に応じて、StarCoder2-15B を介して数千の命令を生成します。

Yolov10: 詳細な説明、展開、アプリケーションがすべて 1 か所にまとめられています。 Yolov10: 詳細な説明、展開、アプリケーションがすべて 1 か所にまとめられています。 Jun 07, 2024 pm 12:05 PM

1. はじめに ここ数年、YOLO は、計算コストと検出パフォーマンスの効果的なバランスにより、リアルタイム物体検出の分野で主流のパラダイムとなっています。研究者たちは、YOLO のアーキテクチャ設計、最適化目標、データ拡張戦略などを調査し、大きな進歩を遂げました。同時に、後処理に非最大抑制 (NMS) に依存すると、YOLO のエンドツーエンドの展開が妨げられ、推論レイテンシに悪影響を及ぼします。 YOLO では、さまざまなコンポーネントの設計に包括的かつ徹底的な検査が欠けており、その結果、大幅な計算冗長性が生じ、モデルの機能が制限されます。効率は最適ではありませんが、パフォーマンス向上の可能性は比較的大きくなります。この作業の目標は、後処理とモデル アーキテクチャの両方から YOLO のパフォーマンス効率の境界をさらに改善することです。この目的を達成するために

清華大学が引き継ぎ、YOLOv10 が登場しました。パフォーマンスが大幅に向上し、GitHub のホット リストに掲載されました。 清華大学が引き継ぎ、YOLOv10 が登場しました。パフォーマンスが大幅に向上し、GitHub のホット リストに掲載されました。 Jun 06, 2024 pm 12:20 PM

ターゲット検出システムのベンチマークである YOLO シリーズが再び大幅にアップグレードされました。今年 2 月の YOLOv9 のリリース以来、YOLO (YouOnlyLookOnce) シリーズのバトンは清華大学の研究者の手に渡されました。先週末、YOLOv10 のリリースのニュースが AI コミュニティの注目を集めました。これは、コンピュータ ビジョンの分野における画期的なフレームワークと考えられており、リアルタイムのエンドツーエンドの物体検出機能で知られており、効率と精度を組み合わせた強力なソリューションを提供することで YOLO シリーズの伝統を継承しています。論文アドレス: https://arxiv.org/pdf/2405.14458 プロジェクトアドレス: https://github.com/THU-MIG/yo

Java フレームワークの商用サポートの費用対効果を評価する方法 Java フレームワークの商用サポートの費用対効果を評価する方法 Jun 05, 2024 pm 05:25 PM

Java フレームワークの商用サポートのコスト/パフォーマンスを評価するには、次の手順が必要です。 必要な保証レベルとサービス レベル アグリーメント (SLA) 保証を決定します。研究サポートチームの経験と専門知識。アップグレード、トラブルシューティング、パフォーマンスの最適化などの追加サービスを検討してください。ビジネス サポートのコストと、リスクの軽減と効率の向上を比較検討します。

Google Gemini 1.5 テクニカル レポート: 数学オリンピックの問題を簡単に証明、Flash バージョンは GPT-4 Turbo より 5 倍高速 Google Gemini 1.5 テクニカル レポート: 数学オリンピックの問題を簡単に証明、Flash バージョンは GPT-4 Turbo より 5 倍高速 Jun 13, 2024 pm 01:52 PM

今年 2 月、Google はマルチモーダル大型モデル Gemini 1.5 を発表しました。これは、エンジニアリングとインフラストラクチャの最適化、MoE アーキテクチャ、その他の戦略を通じてパフォーマンスと速度を大幅に向上させました。より長いコンテキスト、より強力な推論機能、およびクロスモーダル コンテンツのより適切な処理が可能になります。今週金曜日、Google DeepMind は Gemini 1.5 の技術レポートを正式にリリースしました。このレポートには Flash バージョンとその他の最近のアップグレードが含まれています。このドキュメントは 153 ページあります。技術レポートのリンク: https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf このレポートでは、Google が Gemini1 を紹介しています。

レビュー!自動運転推進におけるベーシックモデルの重要な役割を総まとめ レビュー!自動運転推進におけるベーシックモデルの重要な役割を総まとめ Jun 11, 2024 pm 05:29 PM

上記および著者の個人的な理解: 最近、ディープラーニング技術の発展と進歩により、大規模な基盤モデル (Foundation Model) が自然言語処理とコンピューター ビジョンの分野で大きな成果を上げています。自動運転における基本モデルの応用にも大きな発展の可能性があり、シナリオの理解と推論を向上させることができます。豊富な言語と視覚データの事前トレーニングを通じて、基本モデルは自動運転シナリオのさまざまな要素を理解して解釈し、推論を実行して、運転の意思決定と計画のための言語とアクションのコマンドを提供します。基本モデルは、運転シナリオを理解してデータを拡張することで、日常的な運転やデータ収集では遭遇する可能性が低い、ロングテール分布におけるまれな実現可能な機能を提供できます。

PHP フレームワークの学習曲線は他の言語フレームワークと比較してどうですか? PHP フレームワークの学習曲線は他の言語フレームワークと比較してどうですか? Jun 06, 2024 pm 12:41 PM

PHP フレームワークの学習曲線は、言語熟練度、フレームワークの複雑さ、ドキュメントの品質、コミュニティのサポートによって異なります。 PHP フレームワークの学習曲線は、Python フレームワークと比較すると高く、Ruby フレームワークと比較すると低くなります。 Java フレームワークと比較すると、PHP フレームワークの学習曲線は中程度ですが、開始までの時間は短くなります。

PHP フレームワークの軽量オプションはアプリケーションのパフォーマンスにどのような影響を与えますか? PHP フレームワークの軽量オプションはアプリケーションのパフォーマンスにどのような影響を与えますか? Jun 06, 2024 am 10:53 AM

軽量の PHP フレームワークは、サイズが小さくリソース消費が少ないため、アプリケーションのパフォーマンスが向上します。その特徴には、小型、高速起動、低メモリ使用量、改善された応答速度とスループット、および削減されたリソース消費が含まれます。 実際のケース: SlimFramework は、わずか 500 KB、高い応答性と高スループットの REST API を作成します。

See all articles