社群

學習

工具庫

AI工具

休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > 給我一張圖，生成30秒影片！

給我一張圖，生成30秒影片！

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

發布： 2023-04-13 08:43:12

轉載

1828 人瀏覽過

AI又進階了？

而且是一張圖產生連貫30秒影片的那種。

給我一張圖，生成30秒影片！

emm....這品質是不是有點太糊了

要知道這只是從單一影像（第一幀）產生的，而且沒有任何顯示的幾何資訊。

這是DeepMind最近提出的一個基於機率幀預測的圖像建模和視覺任務的通用框架——Transframer。

簡單講，就是用Transframer來預測任一幀的機率。

這些影格可以以一個或多個標註的上下文影格為條件，既可以是先前的視訊影格、時間標記或攝影機標記的視圖場景。

Transframer架構

先來看看這個神奇的Transframer的架構是怎麼運作的。

給我一張圖，生成30秒影片！

論文地址就貼在下面了，有興趣的童鞋可以看看~https://arxiv.org /abs/2203.09494

為了估計目標影像上的預測分佈，我們需要一個能夠生產多樣化、高品質輸出的表達生成模型。

儘管DC Transformer在單一圖像域上的結果可以滿足需求，但並非以我們需要的多圖像文字集{(In,an)}n為條件。

因此，我們對DC Transformer進行了擴展，以啟用圖像和註解條件預測。

我們取代了DC Transformer 的Vision-Transformer風格的編碼器，該編碼器使用多幀U-Net 架構對單一DCT影像進行操作，用於處理一組註解的影格以及部分隱藏的目標DCT影像。

下面來看看Transframer架構是如何運作的。

（a）Transframer將DCT影像（a1和a2）以及部分隱藏的目標DCT影像（aT）和附加註解作為輸入，並由多幀U-Net編碼器處理。接下來，U-Net輸出透過交叉注意力傳遞給DC-Transformer解碼器，該解碼器則會自動回歸產生與目標影像的隱藏部分對應的DCT Token序列（綠色字母）。（b）多幀U-Net block由NF-Net卷積塊、多幀自註意力塊組成，它們在輸入幀之間交換資訊和 Transformer式的殘差MLP。

給我一張圖，生成30秒影片！

再來看看處理映像輸入的Multi-Frame U-Net。

U-Net的輸入是由N個DCT幀和部分隱藏目標DCT幀組成的序列，註釋資訊以與每個輸入幀相關聯的向量的形式提供。

U-Net的核心元件是一個計算區塊，它首先將一個共享的NF-ResNet 卷積塊應用於每個輸入幀，然後應用一個Transformer樣式的自我注意區塊來聚合跨幀的資訊。（圖2 b）

NF-ResNet區塊由分組卷積和擠壓和激發層組成，旨在提高TPU的效能。

下面，圖(a)比較了RoboNet (128x128) 和KITTI影片的絕對和殘差DCT表徵的稀疏性。

由於RoboNet由只有少數運動元素的靜態影片組成，因此殘差幀表徵的稀疏性顯著增加。

#

而KITTI視訊通常具有移動攝像頭，導致連續幀中幾乎所有地方都存在差異。

但在這種情況下，稀疏性小帶來的好處也隨之弱化。

給我一張圖，生成30秒影片！

多視覺任務強者

#透過一系列資料集和任務的測試，結果顯示Transframer可以應用於多個廣泛任務。

其中就包含影片建模、新視圖合成、語意分割、物件辨識、深度估計、光流預測等等。

給我一張圖，生成30秒影片！

影片建模

##透過Transframer在給定一系列輸入視訊幀的情況下預測下一幀。

給我一張圖，生成30秒影片！

研究人員分別在KITTI和RoboNet兩個資料集上，訓練了Transframer在影片產生上的表現如何。

給我一張圖，生成30秒影片！

對於KITTI，給定5個上下文幀和25取樣幀，結果顯示，Transframer模型在所有指標上的性能都有所提高，其中LPIPS和FVD的改進是最顯而易見的。

給我一張圖，生成30秒影片！

在RoboNet上，研究人員給定2個上下文幀和10個採樣幀，分別以64x64 和128x128的解析度進行訓練，最終也取得了非常好的結果。

「檢視合成

給我一張圖，生成30秒影片！

##在視圖合成方面，研究者透過提供相機視圖作為表1（第3 行）中所述的上下文和目標註釋，以及統一採樣多個上下文視圖，直到指定的最大值。

透過提供1-2個上下文視圖，在ShapeNet 基準上評估模型Transframer，明顯優於PixelNeRF和SRN。

給我一張圖，生成30秒影片！

此外在資料集Objectron進行評估後，可以看出當給定單一輸入視圖時，模型會產生連貫的輸出，但會遺漏一些特徵，例如交叉的椅子腿。

############當給出1個上下文視圖，以128×128解析度合成的視圖如下：############ #################當再給予2個上下文視圖，以128×128解析度合成的視圖如下：#########

給我一張圖，生成30秒影片！

多視覺任務

#不同的電腦視覺任務通常使用複雜的架構和損失函數來處理。

這裡，研究人員在8個不同的任務和資料集上使用相同的損失函數聯合訓練了Transframer模型。

這8個任務分別是：單一影像的光流預測、物件分類、偵測與分割、語意分割（在2個資料集上）、未來幀預測和深度估計。

給我一張圖，生成30秒影片！

結果顯示，Transframer學會在完全不同的任務中產生不同的樣本，在某些任務中，例如Cityscapes，該模型產生了品質上好的輸出。

但是，在未來幀預測和邊界框檢測等任務上的模型輸出品質參差不齊，這表明在此設定中建模更具挑戰性。

#

以上是給我一張圖，生成30秒影片！的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

框架視覺

上一篇：照片也能時光旅行？「穿越時空的人臉」新模型化身AI時光機下一篇：一行程式碼，煉丹2倍速！ PyTorch 2.0驚喜問世，LeCun激情轉發

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

什麼是 NullPointerException，如何修復它？

2024-10-22 09:46:29
從新手到程式設計師：您的旅程從 C 基礎知識開始

2024-10-13 13:53:41
使用 PHP 解鎖 Web 開發：初學者指南

2024-10-12 12:15:51
揭秘 C：為新程式設計師提供一條清晰簡單的道路

2024-10-11 22:47:31
釋放您的編碼潛力：絕對初學者的 C 編程

2024-10-11 19:36:51
釋放你內心的程式設計師：C 絕對初學者

2024-10-11 15:50:41
使用 C 自動化您的生活：適合初學者的腳本和工具

2024-10-11 15:07:41
PHP 變得簡單：Web 開發的第一步

2024-10-11 14:21:21
使用 Python 建立任何東西：釋放創造力的初學者指南

2024-10-11 12:59:11
編碼的關鍵：為初學者釋放 Python 的力量

2024-10-11 12:17:31

最新問題

框架

來自於 1970-01-01 08:00:00

0

0

0

框架

來自於 1970-01-01 08:00:00

0

0

0

什麼框架？

來自於 1970-01-01 08:00:00

0

0

0

框架學習 - Android 介面框架！

來自於 1970-01-01 08:00:00

0

0

0

javascript - layui框架怎麼樣？

來自於 1970-01-01 08:00:00

0

0

0

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1432385
php入門教程之一週學會PHP

4287577
JAVA 初級入門影片教學

2622883
小甲魚零基礎入門學習Python影片教學

513606
PHP 零基礎入門教學

872721

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板