目次
Transframer アーキテクチャ
マルチビジョン タスクの強力な拠点
ホームページ テクノロジー周辺機器 AI 写真を送って 30 秒のビデオを生成してください。

写真を送って 30 秒のビデオを生成してください。

Apr 13, 2023 am 08:43 AM
フレーム ビジョン

AIはまた進歩したのか?

#そして、1枚の写真から連続30秒の動画を生成するタイプです。

写真を送って 30 秒のビデオを生成してください。

えっと…ちょっと画質がぼやけすぎませんか

これは 1 つの画像 (最初のフレーム) からのみ生成され、ジオメトリ情報は表示されないことに注意してください。

これは、DeepMind - Transframer によって最近提案された、確率的フレーム予測に基づく画像モデリングとビジョン タスクのための一般的なフレームワークです。

#簡単に言えば、Transframer は任意のフレームの確率を予測するために使用されます。

これらのフレームは、前のビデオ フレーム、タイムスタンプ、またはカメラタグ付きビュー シーンなど、1 つ以上の注釈付きコンテキスト フレームに基づいて条件付けできます。

Transframer アーキテクチャ

まず、この魔法のような Transframer アーキテクチャがどのように機能するかを見てみましょう。

写真を送って 30 秒のビデオを生成してください。

論文のアドレスは以下に掲載されています。興味のあるお子様はご覧ください ~ https://arxiv.org /abs /2203.09494

ターゲット画像上の予測分布を推定するには、多様で高品質の出力を生成できる式生成モデルが必要です。

単一画像ドメイン上の DC Transformer の結果はニーズを満たすことができますが、複数画像のテキスト セット {(In,an) には含まれていません。 }n が条件として必要です。

# したがって、画像と注釈の条件付き予測を可能にするために DC Transformer を拡張しました。

DC Transformer を、マルチフレーム U-Net アーキテクチャを使用して単一の DCT 画像を操作する Vision-Transformer スタイルのエンコーダに置き換えます。注釈付きフレームと部分的に隠されたターゲット DCT イメージのセット。

#Transframer アーキテクチャがどのように機能するかを見てみましょう。

(a) Transframer は、DCT 画像 (a1 および a2) だけでなく、部分的に隠されたターゲット DCT 画像 (aT) および追加の注釈も入力として受け取ります。フレーム U-Net エンコーダ。次に、U-Net 出力はクロス アテンションを通じて DC-Transformer デコーダに渡され、自動的に後退して、ターゲット イメージの隠れた部分に対応する DCT トークン シーケンス (緑色の文字) が生成されます。 (b) マルチフレーム U-Net ブロックは、NF-Net 畳み込みブロックとマルチフレーム セルフ アテンション ブロックで構成され、入力フレームとトランスフォーマー スタイルの残差 MLP の間で情報を交換します。

写真を送って 30 秒のビデオを生成してください。

画像入力を処理するマルチフレーム U-Net を見てみましょう。

U-Net への入力は、N 個の DCT フレームと部分的に隠されたターゲット DCT フレームで構成されるシーケンスです。注釈付きの情報は各入力フレームに関連付けられています。ベクトルで提供されます。形状。

U-Net のコア コンポーネントは、最初に共有 NF-ResNet 畳み込みブロックを各入力フレームに適用し、次に Transformer スタイルを適用する計算ブロックです。フレーム全体の情報を集約するためのセルフ アテンション ブロック。 (図 2 b)

NF-ResNet ブロックは、TPU のパフォーマンス向上を目的として、グループ化された畳み込み層、スクイーズ層、励起層で構成されています。

以下の図 (a) は、RoboNet (128x128) ビデオと KITTI ビデオの絶対および残差 DCT 表現のスパース性を比較しています。

RoboNet は少数の動く要素のみを含む静的ビデオで構成されているため、残留フレーム表現のスパース性が大幅に増加します。

そして、KITTI ビデオには多くの場合カメラが移動するため、連続するフレームのほぼすべての場所で違いが生じます。

#しかし、この場合、小規模なスパース性の利点も弱まります。

写真を送って 30 秒のビデオを生成してください。

マルチビジョン タスクの強力な拠点

データ セットとタスクに関する一連のテストを通じて、結果は、Transframer が幅広いタスクに適用できることを示しています。

これには、ビデオ モデリング、新しいビュー合成、セマンティック セグメンテーション、オブジェクト認識、深度推定、オプティカル フロー予測などが含まれます。

写真を送って 30 秒のビデオを生成してください。

ビデオ モデリング

Transframer による予測入力ビデオ フレームのシーケンスが指定された場合の次のフレーム。

研究者らは、KITTI データセットと RoboNet データセットでそれぞれビデオ生成における Transframer のパフォーマンスをトレーニングしました。

写真を送って 30 秒のビデオを生成してください。

KITTI の場合、5 つのコンテキスト フレームと 25 のサンプル フレームが与えられた場合、結果は、Transframer モデルがすべてのフレームでより優れたパフォーマンスを示すことを示しています。メトリクス LPIPS と FVD のパフォーマンスが向上しましたが、その中でも LPIPS と FVD の向上が最も顕著です。

写真を送って 30 秒のビデオを生成してください。

RoboNet では、研究者には 2 つのコンテキスト フレームと 10 のサンプリング フレーム (それぞれ 64x64 と 128x128) が与えられました。一定の解像度で実行され、最終的に非常に良い結果が得られました。

写真を送って 30 秒のビデオを生成してください。写真を送って 30 秒のビデオを生成してください。

#構成を見る

ビューの合成に関しては、表 1 (3 行目) で説明されているように、カメラ ビューをコンテキストおよびターゲットの注釈として提供し、指定された最大値まで複数のコンテキスト ビューを均一にサンプリングすることで作業します。

1 ~ 2 つのコンテキスト ビューを提供することにより、モデル Transframer は ShapeNet ベンチマークで評価され、PixelNeRF および SRN を大幅に上回りました。

写真を送って 30 秒のビデオを生成してください。

さらに、データセット Objectron の評価後、単一の入力ビューが与えられると、モデルが次の結果を生成することがわかります。一貫した出力ですが、椅子の脚を交差させるなどのいくつかの機能がありません。

#1 つのコンテキスト ビューが指定された場合、128×128 の解像度で合成されたビューは次のようになります。

写真を送って 30 秒のビデオを生成してください。写真を送って 30 秒のビデオを生成してください。

さらに 2 つのコンテキスト ビューが指定された場合、128×128 の解像度で合成されたビューは次のようになります:

写真を送って 30 秒のビデオを生成してください。写真を送って 30 秒のビデオを生成してください。

#複数のビジョン タスク

さまざまなコンピューター ビジョン タスクでは、複雑なアーキテクチャが使用されることがよくあります。および処理する損失関数。

ここでは、研究者らは共同で、同じ損失関数を使用して 8 つの異なるタスクとデータセットで Transframer モデルをトレーニングしました。

8 つのタスクは次のとおりです: 単一画像のオプティカル フロー予測、オブジェクト分類、検出とセグメンテーション、セマンティック セグメンテーション (2 つのデータ セット上)、将来のフレーム予測そして深さの推定。

写真を送って 30 秒のビデオを生成してください。

#結果は、Transframer がまったく異なるタスクで異なるサンプルを生成することを学習していることを示しています。モデルは高品質の出力を生成します。

ただし、将来のフレーム予測や境界ボックス検出などのタスクにおけるモデル出力の品質は変動しており、この設定でのモデリングはより困難であることが示唆されています。 。

以上が写真を送って 30 秒のビデオを生成してください。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Java フレームワークの商用サポートの費用対効果を評価する方法 Java フレームワークの商用サポートの費用対効果を評価する方法 Jun 05, 2024 pm 05:25 PM

Java フレームワークの商用サポートのコスト/パフォーマンスを評価するには、次の手順が必要です。 必要な保証レベルとサービス レベル アグリーメント (SLA) 保証を決定します。研究サポートチームの経験と専門知識。アップグレード、トラブルシューティング、パフォーマンスの最適化などの追加サービスを検討してください。ビジネス サポートのコストと、リスクの軽減と効率の向上を比較検討します。

PHP フレームワークの軽量オプションはアプリケーションのパフォーマンスにどのような影響を与えますか? PHP フレームワークの軽量オプションはアプリケーションのパフォーマンスにどのような影響を与えますか? Jun 06, 2024 am 10:53 AM

軽量の PHP フレームワークは、サイズが小さくリソース消費が少ないため、アプリケーションのパフォーマンスが向上します。その特徴には、小型、高速起動、低メモリ使用量、改善された応答速度とスループット、および削減されたリソース消費が含まれます。 実際のケース: SlimFramework は、わずか 500 KB、高い応答性と高スループットの REST API を作成します。

Golang フレームワークのドキュメントのベスト プラクティス Golang フレームワークのドキュメントのベスト プラクティス Jun 04, 2024 pm 05:00 PM

明確で包括的なドキュメントを作成することは、Golang フレームワークにとって非常に重要です。ベスト プラクティスには、Google の Go コーディング スタイル ガイドなど、確立されたドキュメント スタイルに従うことが含まれます。見出し、小見出し、リストなどの明確な組織構造を使用し、ナビゲーションを提供します。スタート ガイド、API リファレンス、概念など、包括的で正確な情報を提供します。コード例を使用して、概念と使用法を説明します。ドキュメントを常に最新の状態に保ち、変更を追跡し、新機能を文書化します。 GitHub の問題やフォーラムなどのサポートとコミュニティ リソースを提供します。 API ドキュメントなどの実践的なサンプルを作成します。

さまざまなアプリケーションシナリオに最適な Golang フレームワークを選択する方法 さまざまなアプリケーションシナリオに最適な Golang フレームワークを選択する方法 Jun 05, 2024 pm 04:05 PM

アプリケーションのシナリオに基づいて最適な Go フレームワークを選択します。アプリケーションの種類、言語機能、パフォーマンス要件、エコシステムを考慮します。一般的な Go フレームワーク: Jin (Web アプリケーション)、Echo (Web サービス)、Fiber (高スループット)、gorm (ORM)、fasthttp (速度)。実際のケース: REST API (Fiber) の構築とデータベース (gorm) との対話。フレームワークを選択します。主要なパフォーマンスには fasthttp、柔軟な Web アプリケーションには Jin/Echo、データベース インタラクションには gorm を選択してください。

PHP フレームワークの学習曲線は他の言語フレームワークと比較してどうですか? PHP フレームワークの学習曲線は他の言語フレームワークと比較してどうですか? Jun 06, 2024 pm 12:41 PM

PHP フレームワークの学習曲線は、言語熟練度、フレームワークの複雑さ、ドキュメントの品質、コミュニティのサポートによって異なります。 PHP フレームワークの学習曲線は、Python フレームワークと比較すると高く、Ruby フレームワークと比較すると低くなります。 Java フレームワークと比較すると、PHP フレームワークの学習曲線は中程度ですが、開始までの時間は短くなります。

再び OpenAI に傍受された Google は、オープンソースのビジュアル言語モデルである PaliGemma を立ち上げました。 再び OpenAI に傍受された Google は、オープンソースのビジュアル言語モデルである PaliGemma を立ち上げました。 Jun 09, 2024 am 09:17 AM

はじめに このモデルは、SigLIP 視覚モデルと Gemma 言語モデルを組み合わせたもので、どちらもオープン コンポーネントであり、PaliGemma は視覚と言語を組み合わせたタスクの処理に優れています。 PaliGemma の使用シナリオには、画像字幕、画像タグ、視覚的な質問応答が含まれます。これらのアプリケーション シナリオでは、画像コンテンツを理解して主要な特徴を抽出し、この情報を言語出力に変換する PaliGemma の機能を利用して、ユーザーとの対話やコンテンツの自動生成を可能にします。この柔軟性により、PaliGemma は研究開発環境だけでなく、顧客サービス、コンテンツ推奨システムなどの商用アプリケーションにも適しています。 PaliGemma では何ができるのでしょうか? プロンプトが表示された場合、写真を使用できます。

Java フレームワークのパフォーマンス比較 Java フレームワークのパフォーマンス比較 Jun 04, 2024 pm 03:56 PM

ベンチマークによると、小規模で高性能なアプリケーションの場合、Quarkus (高速起動、低メモリ) または Micronaut (TechEmpower に優れた) が理想的な選択肢です。 SpringBoot は大規模なフルスタック アプリケーションに適していますが、起動時間とメモリ使用量が若干遅くなります。

golang フレームワーク開発の実践的な詳細な説明: 質疑応答 golang フレームワーク開発の実践的な詳細な説明: 質疑応答 Jun 06, 2024 am 10:57 AM

Go フレームワーク開発における一般的な課題とその解決策は次のとおりです。 エラー処理: 管理にはエラー パッケージを使用し、エラーを一元的に処理するにはミドルウェアを使用します。認証と認可: サードパーティのライブラリを統合し、資格情報を確認するためのカスタム ミドルウェアを作成します。同時処理: ゴルーチン、ミューテックス、チャネルを使用してリソース アクセスを制御します。単体テスト: 分離のために getest パッケージ、モック、スタブを使用し、十分性を確保するためにコード カバレッジ ツールを使用します。デプロイメントとモニタリング: Docker コンテナを使用してデプロイメントをパッケージ化し、データのバックアップをセットアップし、ログ記録およびモニタリング ツールでパフォーマンスとエラーを追跡します。

See all articles