Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！-人工智慧-PHP中文網

視覺效果超炫

作者介紹

網友大受震撼

首頁

科技週邊

人工智慧

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 23, 2023 am 09:22 AM

影片 ai

給你一段話，讓你做個視頻，你能做到嗎？

Meta表示，我可以啊。

你沒聽錯：使用AI，你也可以變成電影人了！

近日，Meta推出了新的AI模型，名字起得也是非常直接：做個影片（Make-A-Video）。

這個模型強大到什麼程度？

一句話，就能實現「三馬奔騰」的場景。

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

就連LeCun都說，該來的總是會來的。

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

視覺效果超炫

話不多說，咱們直接看效果。

兩個袋鼠在廚房忙著做菜（做出來能不能吃另說）

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

近景：畫家在畫布上作畫

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

#大雨中漫步的二人世界（步伐整齊劃一）

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

馬在喝水

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

#芭蕾舞女孩在摩天大樓跳舞

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

#美麗的夏日熱帶海灘上，一隻金毛在吃冰淇淋（爪子已進化）

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

貓主子拿著遙控器在看電視（爪子已進化）

#一隻泰迪熊給自己畫自畫像

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

意料之外但情理之中的是，狗拿冰淇淋、貓拿遙控器以及泰迪熊畫畫的“手」，果然都「進化」得和人一樣啊！（戰術後仰）

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

當然，Make-A-Video除了可以把文字變成影片之外，也可以把靜態圖變成Gif。 ############輸入：###################### 輸出：############################################ ##

輸入：

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

輸出：（亮的似乎有點不是地方）

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

2張靜圖變成GIF，輸入隕石圖

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

輸出：

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

##以及，把視頻，變成視頻？

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！輸入：

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！ # 輸出：

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

#輸入：

## 輸出：

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

#技術原理

今天，Meta放出了自己的最新研究MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA。

論文網址：https://makeavideo.studio/Make-A-Video.pdf

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！在這個模型出現之前，我們已經有了Stable Diffusion。

#########聰明的科學家已經讓AI用一句話生成圖像了，下一步他們會做什麼呢？ ############很顯然，是生成影片。 #########################一隻穿著紅色斗篷的超級英雄狗在天空中飛翔############# ##比起生成影像來，產生影片可難多了。我們不僅需要產生相同主題和場景的多個幀，還必須讓它們及時、連貫。 ############這增加了影像產生任務的複雜度－我們不可能就簡單地使用DALLE產生60張影像，然後把它們拼成一個影片。它的效果會很差，很不真實。 ############因此，我們需要一個能夠以更強大的方式理解世界的模型，並且讓它按照這種理解水平來產生一系列連貫的圖像。只有這樣，這些影像才可以天衣無縫地融合在一起。 ############也就是說，我們的訴求是模擬一個世界，然後再模擬它的記錄。該怎麼做呢？ ################

按照先前的思路，研究人員會用大量的文字-影片對來訓練模型，但在現在的這種情況下，這種處理方法並不現實。因為這些數據很難取得，而且訓練成本非常昂貴。

因此，研究人員開了腦洞，採用了一種全新的方式。

他們選擇開發一個文字到圖像的模型，然後把它應用於影片。

巧了，前段時間，Meta就曾開發過這麼一個從文字到圖像的模型Make-A-Scene。

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

Make-A-Scene的方法概述

這個模型產生的契機是，Meta希望推動創意表達，將這種文字到圖像的趨勢與先前的草圖到圖像模型相結合，從而產生文字和以草圖為條件的圖像生成之間的奇妙融合。

這意味著我們可以快速勾勒出一隻貓，寫出自己想要什麼樣的圖像。遵循草圖和文字的指導，這個模型會在幾秒鐘內，產生我們想要的完美插圖。

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

你可以把這種多模態產生AI方法看成是一個對產生有更多控制的Dall-E模型，因為它也可以將快速草圖作為輸入。

之所以稱它為多模態，是因為它可以將多種模態作為輸入，例如文字和圖像。相較之下，Dall-E只能從文字生成圖像。

為了產生視頻，就需要加入時間的維度，因此研究人員在Make-A-Scene模型中添加了時空管道。

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

加入時間維度後，這個模型就不是只產生一張圖片，而是產生16張低解析度的圖片，以創建一個連貫的短視頻。

這個方法其實與文字到圖像模型類似，但不同之處在於：在常規的二維卷積的基礎上，它增加一維卷積。

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

只是簡單地增加了一維卷積，研究人員就能保持預先訓練的二維卷積不變的同時，增加一個時間維度。然後，研究人員可以從頭開始訓練，重新使用Make-A-Scene影像模型的大部分程式碼和參數。

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

同時，研究人員也想用文字輸入來指導這個模型，這將與使用CLIP嵌入的圖像模型非常相似。

在這種情況下，研究人員是在將文字特徵與圖像特徵混合時，增加空間維度，方法同上：保留Make-A-Scene模型中的注意力模組，並為時間增加一個一維注意力模組－複製貼上影像產生器模型，為多一個維度重複產生模組，來獲得16個初始影格。

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

但只靠這16個初始幀，還不能產生影片。

研究人員需要從這16個主幀中，製作一個高清晰度的影片。他們採用的方法是：訪問之前和未來的幀，並同時在時間和空間維度上對它們進行迭代插值。

就這樣，他們在這16個初始幀之間，根據前後的幀生成了新的、更大的幀，這樣就使運動變得連貫，整體視頻變得流暢了。

這是透過一個幀插值網路完成的，它可以採取現有的圖像來填補空白，產生中間的資訊。在空間維度上，它會做同樣的事情：放大影像，填補像素的空白，使影像更加高清。

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

總而言之，為了生成視頻，研究人員微調了一個文本到圖像的模型。他們採用了一個已經訓練好的強大模型，對它進行調整和訓練，讓它適應影片。

因為增加了空間和時間模組，只要簡單地讓模型適應這些新資料就可以了，而不必重新訓練它，這就節省了大量的成本。

這種重新訓練使用的是未標記的視頻，只需要教模型理解視頻和視頻幀的一致性就可以了，這就可以更簡單地建立資料集。

最後，研究人員再次使用了圖像優化模型，提高了空間分辨率，並使用了幀插值組件增加了更多的幀，使視訊變得流暢。

當然，目前Make-A-Video的結果仍有缺點，就如同文字到圖像的模型一樣。但我們都知道，AI領域的進展是多麼神速。

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

如果你想進一步了解，可以參考連結中Meta AI的論文。社群也正在開發一個PyTorch的實現，如果你想自己實現它，請繼續關注。

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

作者介紹

這篇論文中有多位華人研究者參與：殷希、安捷、張宋揚、Qiyuan Hu。

殷希，FAIR研究科學家。先前曾任職微軟，擔任Microsoft Cloud and AI 的高級應用科學家。在密西根州立大學電腦科學與工程系獲博士學位，2013年畢業於武漢大學電機工程專業，獲學士學位。主要研究領域為多模態理解、大規模目標偵測、人臉推理等。

安捷，羅徹斯特大學電腦科學系博士生。師從羅傑波教授。此前於 2016 年和 2019 年在北京大學獲得學士和碩士學位。研究興趣包括電腦視覺、深度生成模型和AI 藝術。作為實習生參與了Make-A-Video研究。

張宋揚，羅徹斯特大學電腦科學系博士生，師從羅傑波教授。在東南大學獲得學士學位，在浙江大學獲得碩士學位。研究興趣包括自然語言矩定位、無監督語法歸納、基於骨架的動作辨識等。作為實習生參與了Make-A-Video研究。

Qiyuan Hu，當時FAIR的AI Resident，從事提升人類創造力的多模態生成模式的研究。她在芝加哥大學獲得醫學物理學博士學位，並從事AI輔助的醫學影像分析工作。現已任職Tempus Labs，任機器學習科學家。

網友大受震撼

前段時間，Google等大廠紛紛放出自家的文字到圖像模型，如Parti，等等。

有人甚至認為文字到影片生成模型還有一段時間才能到來。

沒想到，Meta這次投了一顆重磅炸彈。

其實，同在今天，還有一個文字到影片產生模型Phenaki，目前已提交到ICLR 2023，由於還處於盲審階段，作者機構還是未知。

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

網友稱，從DALLE到Stable Diffuson再到Make-A-Video，一切來得太快。

Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！

以上是Meta公司創新SOTA模型，能夠根據一句話生成驚人視頻，引爆網絡熱潮！的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1665

CakePHP 教程

1424

Laravel 教程

1321

PHP教程

1269

C# 教程

1249

Related knowledge

C 中的chrono庫如何使用？ Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔，讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分，它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說，chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性，還提供了更高的精度和靈活性。讓我們從基礎開始，chrono庫主要包括以下幾個關鍵組件：std::chrono::system_clock：表示系統時鐘，用於獲取當前時間。 std::chron

如何理解C 中的DMA操作？ Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess，直接內存訪問技術，允許硬件設備直接與內存進行數據傳輸，不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序，實現方式因係統而異。 2)直接訪問內存可能帶來安全風險，需確保代碼的正確性和安全性。 3)DMA可提高性能，但使用不當可能導致系統性能下降。通過實踐和學習，可以掌握DMA的使用技巧，在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

怎樣在C 中處理高DPI顯示？ Apr 28, 2025 pm 09:57 PM

在C 中處理高DPI顯示可以通過以下步驟實現：1)理解DPI和縮放，使用操作系統API獲取DPI信息並調整圖形輸出；2)處理跨平台兼容性，使用如SDL或Qt的跨平台圖形庫；3)進行性能優化，通過緩存、硬件加速和動態調整細節級別來提升性能；4)解決常見問題，如模糊文本和界面元素過小，通過正確應用DPI縮放來解決。

C 中的實時操作系統編程是什麼？ Apr 28, 2025 pm 10:15 PM

C 在實時操作系統（RTOS）編程中表現出色，提供了高效的執行效率和精確的時間管理。 1）C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2）利用面向對象特性，C 可以設計靈活的任務調度系統。 3）C 支持高效的中斷處理，但需避免動態內存分配和異常處理以保證實時性。 4）模板編程和內聯函數有助於性能優化。 5）實際應用中，C 可用於實現高效的日誌系統。

怎樣在C 中測量線程性能？ Apr 28, 2025 pm 10:21 PM

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析，步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析，步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能，並優化代碼。

量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 Apr 30, 2025 pm 07:24 PM

交易所內置量化工具包括：1. Binance（幣安）：提供Binance Futures量化模塊，低手續費，支持AI輔助交易。 2. OKX（歐易）：支持多賬戶管理和智能訂單路由，提供機構級風控。獨立量化策略平台有：3. 3Commas：拖拽式策略生成器，適用於多平台對沖套利。 4. Quadency：專業級算法策略庫，支持自定義風險閾值。 5. Pionex：內置16 預設策略，低交易手續費。垂直領域工具包括：6. Cryptohopper：雲端量化平台，支持150 技術指標。 7. Bitsgap：

給MySQL表添加和刪除字段的操作步驟 Apr 29, 2025 pm 04:15 PM

在MySQL中，添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column，刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時，需指定位置以優化查詢性能和數據結構；刪除字段前需確認操作不可逆；使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。