テクノロジーが進化するにつれて、研究者は人工知能と機械学習機能を活用する新しい方法を模索し続けています。今週初め、Google の科学者たちは、単一の画像入力から短いビデオを生成する新しいフレームワークである Transframer の作成を発表しました。この新しいテクノロジーは、いつか従来のレンダリング ソリューションを強化し、開発者が機械学習機能に基づいて仮想環境を作成できるようにする可能性があります。
この新しいフレームワークの名前 (そしてある意味ではその概念) は、別の AI ベースのモデルである Transformer に敬意を表しています。もともと 2017 年に発表された Transformer は、文内の他の単語をモデル化して比較することでテキストを生成する機能を備えた新しいニューラル ネットワーク アーキテクチャです。その後、このモデルは TensorFlow や PyTorch などの標準的な深層学習フレームワークに組み込まれました。
Transframer は、同様の属性を持つ背景画像をクエリの注釈と組み合わせて使用し、短いビデオを作成していると報告されています。生の画像入力には幾何学的データが提供されていませんが、結果として得られるビデオはターゲット画像の周りを動き、正確な遠近感を視覚化します。
新しいテクノロジーは、分析機能を備えた Google の DeepMind 人工知能プラットフォームを使用して実証されました 1 枚の写真の背景image は、主要な画像データをキャプチャし、追加の画像を生成するために使用されます。この分析中に、システムは画像のフレームを決定します。これは、システムが画像の周囲を予測するのに役立ちます。
コンテキスト イメージを使用して、画像がさまざまな角度からどのように見えるかをさらに予測します。予測は、コンテキスト フレーム内のデータ、注釈、その他の情報に基づいて、追加の画像フレームの確率をモデル化します。
このフレームワークは、非常に限られたデータセットに基づいてかなり正確なビデオを生成する機能を提供することにより、ビデオテクノロジーの大きな進歩を示します。 Transframer タスクは、セマンティック セグメンテーション、画像分類、オプティカル フロー予測などの他のビデオ関連タスクやベンチマークでも有望な結果を示しています。
ゲーム開発などのビデオベースの業界に大きな影響を与える可能性があります。現在のゲーム開発環境は、シェーディング、テクスチャ マッピング、被写界深度、レイ トレーシングなどのコア レンダリング テクノロジに依存しています。 Transframer のようなテクノロジーは、人工知能と機械学習を使用して環境を構築すると同時に、環境の作成に必要な時間、リソース、労力を削減することで、開発者に新しい開発パスを提供する可能性があります。
以上がGoogleの人工知能技術「Transframer」は写真をもとに短い動画を作成できるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。