影片生成可以無限長？谷歌VideoPoet大模型上線，網友：革命性技術-人工智慧-PHP中文網

蒙娜麗莎打哈欠，小雞學會舉鐵…GoogleVideoPoet大模型表現很亮眼。

2023 年底，科技公司都在衝擊生成式 AI 的最後一個關卡 —— 影片產生。

本週二，Google提出的影片產生大模型上線，立刻獲得了人們的關注。這款名為 VideoPoet 的大語言模型，被人們認為是革命性的 zero-shot 視訊生成工具。

VideoPoet 既可以文生視頻、圖像生視頻，又能風格遷移，視訊轉語音。從效果來看，它可以建立多樣化且流暢的運動。

影片生成可以無限長？谷歌VideoPoet大模型上線，網友：革命性技術

消息一出，有很多人表示歡迎：看看目前的幾個成品效果不錯，大模型技術發展的速度也太快了。

影片生成可以無限長？谷歌VideoPoet大模型上線，網友：革命性技術

有人對於這個大模型產生影片的長度表示驚訝：

影片生成可以無限長？谷歌VideoPoet大模型上線，網友：革命性技術

^{來源：https://twitter.com/cybersphere_ai/status/1737257729167966353}

也有人表示這是一場革命性的大語言模型。

影片生成可以無限長？谷歌VideoPoet大模型上線，網友：革命性技術

也有人呼籲，Google要趕緊把 VideoPoet 開源了，大趨勢不等人。

隨著生成式 AI 的發展，最近出現了一波新的影片生成模型，這些模型展示了令人驚嘆的畫面品質。目前影片產生的瓶頸之一是產生連貫的大動作。但在許多情況下，即使是領先的模型也只能產生較小的運動，或者當產生較大的運動時，會表現出明顯的偽影。

為了探索語言模型在視訊生成中的應用，來自Google的研究者引入了一種大語言模型（LLM）VideoPoet，能夠執行各種視訊生成任務，包括文字到視訊、圖像到視訊、視訊風格化、視訊修復和擴展，以及視訊轉音訊。

VideoPoet 效果展示

文字產生影片

提示：一隻狗戴著耳機聽音樂，細節豐富，8k。

影片生成可以無限長？谷歌VideoPoet大模型上線，網友：革命性技術

提示（從左到右）：一條從嘴裡射出激光束的鯊魚；泰迪熊手牽著手走在雨天的第五大道上；舉鐵的小雞。

影片生成可以無限長？谷歌VideoPoet大模型上線，網友：革命性技術

提示（從左到右）：黃色蒲公英花瓣製成的獅子在咆哮；地球表面發生大規模爆炸；一匹馬在梵谷的星夜中馳騁；穿著盔甲的松鼠騎著鵝；熊貓在自拍。

影片生成可以無限長？谷歌VideoPoet大模型上線，網友：革命性技術

圖像生成視頻

#對於圖像到視頻，VideoPoet 可以獲取輸入圖像並透過提示將其動畫化。

蒙娜麗莎開始打哈欠，只要輸入一張圖片，外加一句提示：一個女人打哈欠。就會得到下面的效果。

影片生成可以無限長？谷歌VideoPoet大模型上線，網友：革命性技術

提示（從左到右）：一艘船在波濤洶湧的大海上航行，有雷暴和閃電，油畫風格；飛過有許多閃爍星星的星雲；大風天，一個拄著拐杖站在懸崖上的流浪者，俯視著底下浮動的雲海。

影片生成可以無限長？谷歌VideoPoet大模型上線，網友：革命性技術

將視訊風格化

#VideoPoet 也能夠根據文字提示對輸入視訊進行風格化。

提示（從左到右）：泰迪熊在乾淨的冰湖上滑冰；一隻金屬色的獅子在熔爐的光芒下咆哮。

影片生成可以無限長？谷歌VideoPoet大模型上線，網友：革命性技術

產生音訊

#VideoPoet 也能夠產生音訊。首先讓模型產生 2 秒的剪輯，然後嘗試在沒有任何文字指導的情況下預測畫面的音訊。這樣一來，VideoPoet 能夠從單一模型產生視訊和音訊。

長視頻

#VideoPoet 還能產生長視頻，預設是 2 秒。透過調節影片的最後 1 秒並預測接下來的 1 秒，這個過程可以無限地重複，以產生任意時長的影片。以下是 VideoPoet 從文字輸入產生長影片的範例展示。提示：FPV 鏡頭展示了叢林中非常鋒利的精靈石城，有明亮的藍色河流、瀑布和大而陡峭的垂直懸崖面。

影片生成可以無限長？谷歌VideoPoet大模型上線，網友：革命性技術

擴充影片

#使用者可以改變提示，進而擴充影片。原始影片是兩隻浣熊騎著摩托車在松樹環繞的山路上行駛，8k。擴展後的影片是兩隻浣熊騎著摩托車，浣熊身後落下流星，流星撞擊地球並爆炸。

影片生成可以無限長？谷歌VideoPoet大模型上線，網友：革命性技術

互動式影片編輯

#對於提供的輸入影片（最左邊），使用者可以改變物體的運動來執行不同的動作。如下所示，中間三個沒有文字提示，最後一個文字提示為：煙霧背景下啟動。

影片生成可以無限長？谷歌VideoPoet大模型上線，網友：革命性技術

影片修正

#VideoPoet 可以在影片被遮住的部分加入細節，也可以選擇透過文字引導進行修復。

影片生成可以無限長？谷歌VideoPoet大模型上線，網友：革命性技術

為了展示 VideoPoet 的功能，Google也製作了一部由 VideoPoet 產生的多個短片組成的小短片。劇本是 Bard 編寫的，是關於一隻旅行浣熊的短篇故事，並附有逐個場景的分解和附帶的提示列表。然後，谷歌為每個提示生成視訊剪輯，並將所有生成的剪輯拼接在一起以產生下面的最終影片。

方法簡介

#如下圖所示，VideoPoet 可以將輸入影像動畫化以產生一段視頻，並且可以編輯視頻或擴展視頻。

影片生成可以無限長？谷歌VideoPoet大模型上線，網友：革命性技術

在風格化方面，該模型接收表徵深度和光流的視頻，以文字指導的風格繪製內容。

影片產生器

#使用LLM 進行訓練的一個關鍵優勢是，可以重複使用現有LLM 訓練基礎設施中引入的許多可擴展的效率改進。然而，LLM 是在離散 token 上運行的，這使得視訊生成具有挑戰性。而視訊和音訊 tokenizer 可以用來將視訊和音訊剪輯編碼為離散 token 序列，並且也可以轉換回原始表徵形式。

透過使用多個tokenizer（用於視訊和圖像的MAGVIT V2 和用於音訊的SoundStream），VideoPoet 訓練自回歸語言模型來學習跨視訊、圖像、音訊和文字的多個模態。一旦模型產生以某些上下文為條件的 token，就可以使用 tokenizer 解碼器將它們轉換回視覺化的表徵形式。

影片生成可以無限長？谷歌VideoPoet大模型上線，網友：革命性技術