写真を送って 30 秒のビデオを生成してください。
AIはまた進歩したのか?
#そして、1枚の写真から連続30秒の動画を生成するタイプです。
えっと…ちょっと画質がぼやけすぎませんか
これは 1 つの画像 (最初のフレーム) からのみ生成され、ジオメトリ情報は表示されないことに注意してください。
これは、DeepMind - Transframer によって最近提案された、確率的フレーム予測に基づく画像モデリングとビジョン タスクのための一般的なフレームワークです。
#簡単に言えば、Transframer は任意のフレームの確率を予測するために使用されます。
これらのフレームは、前のビデオ フレーム、タイムスタンプ、またはカメラタグ付きビュー シーンなど、1 つ以上の注釈付きコンテキスト フレームに基づいて条件付けできます。
Transframer アーキテクチャ
まず、この魔法のような Transframer アーキテクチャがどのように機能するかを見てみましょう。
論文のアドレスは以下に掲載されています。興味のあるお子様はご覧ください ~ https://arxiv.org /abs /2203.09494
ターゲット画像上の予測分布を推定するには、多様で高品質の出力を生成できる式生成モデルが必要です。
単一画像ドメイン上の DC Transformer の結果はニーズを満たすことができますが、複数画像のテキスト セット {(In,an) には含まれていません。 }n が条件として必要です。
# したがって、画像と注釈の条件付き予測を可能にするために DC Transformer を拡張しました。
DC Transformer を、マルチフレーム U-Net アーキテクチャを使用して単一の DCT 画像を操作する Vision-Transformer スタイルのエンコーダに置き換えます。注釈付きフレームと部分的に隠されたターゲット DCT イメージのセット。
#Transframer アーキテクチャがどのように機能するかを見てみましょう。
(a) Transframer は、DCT 画像 (a1 および a2) だけでなく、部分的に隠されたターゲット DCT 画像 (aT) および追加の注釈も入力として受け取ります。フレーム U-Net エンコーダ。次に、U-Net 出力はクロス アテンションを通じて DC-Transformer デコーダに渡され、自動的に後退して、ターゲット イメージの隠れた部分に対応する DCT トークン シーケンス (緑色の文字) が生成されます。 (b) マルチフレーム U-Net ブロックは、NF-Net 畳み込みブロックとマルチフレーム セルフ アテンション ブロックで構成され、入力フレームとトランスフォーマー スタイルの残差 MLP の間で情報を交換します。
画像入力を処理するマルチフレーム U-Net を見てみましょう。
U-Net への入力は、N 個の DCT フレームと部分的に隠されたターゲット DCT フレームで構成されるシーケンスです。注釈付きの情報は各入力フレームに関連付けられています。ベクトルで提供されます。形状。
U-Net のコア コンポーネントは、最初に共有 NF-ResNet 畳み込みブロックを各入力フレームに適用し、次に Transformer スタイルを適用する計算ブロックです。フレーム全体の情報を集約するためのセルフ アテンション ブロック。 (図 2 b)
NF-ResNet ブロックは、TPU のパフォーマンス向上を目的として、グループ化された畳み込み層、スクイーズ層、励起層で構成されています。
以下の図 (a) は、RoboNet (128x128) ビデオと KITTI ビデオの絶対および残差 DCT 表現のスパース性を比較しています。
RoboNet は少数の動く要素のみを含む静的ビデオで構成されているため、残留フレーム表現のスパース性が大幅に増加します。
そして、KITTI ビデオには多くの場合カメラが移動するため、連続するフレームのほぼすべての場所で違いが生じます。
#しかし、この場合、小規模なスパース性の利点も弱まります。
マルチビジョン タスクの強力な拠点
データ セットとタスクに関する一連のテストを通じて、結果は、Transframer が幅広いタスクに適用できることを示しています。
これには、ビデオ モデリング、新しいビュー合成、セマンティック セグメンテーション、オブジェクト認識、深度推定、オプティカル フロー予測などが含まれます。
ビデオ モデリング
Transframer による予測入力ビデオ フレームのシーケンスが指定された場合の次のフレーム。
研究者らは、KITTI データセットと RoboNet データセットでそれぞれビデオ生成における Transframer のパフォーマンスをトレーニングしました。
KITTI の場合、5 つのコンテキスト フレームと 25 のサンプル フレームが与えられた場合、結果は、Transframer モデルがすべてのフレームでより優れたパフォーマンスを示すことを示しています。メトリクス LPIPS と FVD のパフォーマンスが向上しましたが、その中でも LPIPS と FVD の向上が最も顕著です。
RoboNet では、研究者には 2 つのコンテキスト フレームと 10 のサンプリング フレーム (それぞれ 64x64 と 128x128) が与えられました。一定の解像度で実行され、最終的に非常に良い結果が得られました。
#構成を見る
ビューの合成に関しては、表 1 (3 行目) で説明されているように、カメラ ビューをコンテキストおよびターゲットの注釈として提供し、指定された最大値まで複数のコンテキスト ビューを均一にサンプリングすることで作業します。
1 ~ 2 つのコンテキスト ビューを提供することにより、モデル Transframer は ShapeNet ベンチマークで評価され、PixelNeRF および SRN を大幅に上回りました。
さらに、データセット Objectron の評価後、単一の入力ビューが与えられると、モデルが次の結果を生成することがわかります。一貫した出力ですが、椅子の脚を交差させるなどのいくつかの機能がありません。
#1 つのコンテキスト ビューが指定された場合、128×128 の解像度で合成されたビューは次のようになります。
さらに 2 つのコンテキスト ビューが指定された場合、128×128 の解像度で合成されたビューは次のようになります: #複数のビジョン タスク さまざまなコンピューター ビジョン タスクでは、複雑なアーキテクチャが使用されることがよくあります。および処理する損失関数。 ここでは、研究者らは共同で、同じ損失関数を使用して 8 つの異なるタスクとデータセットで Transframer モデルをトレーニングしました。 8 つのタスクは次のとおりです: 単一画像のオプティカル フロー予測、オブジェクト分類、検出とセグメンテーション、セマンティック セグメンテーション (2 つのデータ セット上)、将来のフレーム予測そして深さの推定。 #結果は、Transframer がまったく異なるタスクで異なるサンプルを生成することを学習していることを示しています。モデルは高品質の出力を生成します。 ただし、将来のフレーム予測や境界ボックス検出などのタスクにおけるモデル出力の品質は変動しており、この設定でのモデリングはより困難であることが示唆されています。 。
以上が写真を送って 30 秒のビデオを生成してください。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











Java フレームワークの商用サポートのコスト/パフォーマンスを評価するには、次の手順が必要です。 必要な保証レベルとサービス レベル アグリーメント (SLA) 保証を決定します。研究サポートチームの経験と専門知識。アップグレード、トラブルシューティング、パフォーマンスの最適化などの追加サービスを検討してください。ビジネス サポートのコストと、リスクの軽減と効率の向上を比較検討します。

軽量の PHP フレームワークは、サイズが小さくリソース消費が少ないため、アプリケーションのパフォーマンスが向上します。その特徴には、小型、高速起動、低メモリ使用量、改善された応答速度とスループット、および削減されたリソース消費が含まれます。 実際のケース: SlimFramework は、わずか 500 KB、高い応答性と高スループットの REST API を作成します。

明確で包括的なドキュメントを作成することは、Golang フレームワークにとって非常に重要です。ベスト プラクティスには、Google の Go コーディング スタイル ガイドなど、確立されたドキュメント スタイルに従うことが含まれます。見出し、小見出し、リストなどの明確な組織構造を使用し、ナビゲーションを提供します。スタート ガイド、API リファレンス、概念など、包括的で正確な情報を提供します。コード例を使用して、概念と使用法を説明します。ドキュメントを常に最新の状態に保ち、変更を追跡し、新機能を文書化します。 GitHub の問題やフォーラムなどのサポートとコミュニティ リソースを提供します。 API ドキュメントなどの実践的なサンプルを作成します。

アプリケーションのシナリオに基づいて最適な Go フレームワークを選択します。アプリケーションの種類、言語機能、パフォーマンス要件、エコシステムを考慮します。一般的な Go フレームワーク: Jin (Web アプリケーション)、Echo (Web サービス)、Fiber (高スループット)、gorm (ORM)、fasthttp (速度)。実際のケース: REST API (Fiber) の構築とデータベース (gorm) との対話。フレームワークを選択します。主要なパフォーマンスには fasthttp、柔軟な Web アプリケーションには Jin/Echo、データベース インタラクションには gorm を選択してください。

PHP フレームワークの学習曲線は、言語熟練度、フレームワークの複雑さ、ドキュメントの品質、コミュニティのサポートによって異なります。 PHP フレームワークの学習曲線は、Python フレームワークと比較すると高く、Ruby フレームワークと比較すると低くなります。 Java フレームワークと比較すると、PHP フレームワークの学習曲線は中程度ですが、開始までの時間は短くなります。

はじめに このモデルは、SigLIP 視覚モデルと Gemma 言語モデルを組み合わせたもので、どちらもオープン コンポーネントであり、PaliGemma は視覚と言語を組み合わせたタスクの処理に優れています。 PaliGemma の使用シナリオには、画像字幕、画像タグ、視覚的な質問応答が含まれます。これらのアプリケーション シナリオでは、画像コンテンツを理解して主要な特徴を抽出し、この情報を言語出力に変換する PaliGemma の機能を利用して、ユーザーとの対話やコンテンツの自動生成を可能にします。この柔軟性により、PaliGemma は研究開発環境だけでなく、顧客サービス、コンテンツ推奨システムなどの商用アプリケーションにも適しています。 PaliGemma では何ができるのでしょうか? プロンプトが表示された場合、写真を使用できます。

ベンチマークによると、小規模で高性能なアプリケーションの場合、Quarkus (高速起動、低メモリ) または Micronaut (TechEmpower に優れた) が理想的な選択肢です。 SpringBoot は大規模なフルスタック アプリケーションに適していますが、起動時間とメモリ使用量が若干遅くなります。

Go フレームワーク開発における一般的な課題とその解決策は次のとおりです。 エラー処理: 管理にはエラー パッケージを使用し、エラーを一元的に処理するにはミドルウェアを使用します。認証と認可: サードパーティのライブラリを統合し、資格情報を確認するためのカスタム ミドルウェアを作成します。同時処理: ゴルーチン、ミューテックス、チャネルを使用してリソース アクセスを制御します。単体テスト: 分離のために getest パッケージ、モック、スタブを使用し、十分性を確保するためにコード カバレッジ ツールを使用します。デプロイメントとモニタリング: Docker コンテナを使用してデプロイメントをパッケージ化し、データのバックアップをセットアップし、ログ記録およびモニタリング ツールでパフォーマンスとエラーを追跡します。
