目錄
視覺效果超炫
作者介紹
網友大受震撼
首頁 科技週邊 人工智慧 Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

Apr 23, 2023 am 09:22 AM
影片 ai

給你一段話,讓你做個視頻,你能做到嗎?

Meta表示,我可以啊。

你沒聽錯:使用AI,你也可以變成電影人了!

近日,Meta推出了新的AI模型,名字起得也是非常直接:做個影片(Make-A-Video)。

這個模型強大到什麼程度?

一句話,就能實現「三馬奔騰」的場景。

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

就連LeCun都說,該來的總是會來的。

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

視覺效果超炫

話不多說,咱們直接看效果。

兩個袋鼠在廚房忙著做菜(做出來能不能吃另說)

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

近景:畫家在畫布上作畫

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

#大雨中漫步的二人世界(步伐整齊劃一)

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

馬在喝水

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

#芭蕾舞女孩在摩天大樓跳舞

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

#美麗的夏日熱帶海灘上,一隻金毛在吃冰淇淋(爪子已進化)

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

貓主子拿著遙控器在看電視(爪子已進化)

#一隻泰迪熊給自己畫自畫像

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

意料之外但情理之中的是,狗拿冰淇淋、貓拿遙控器以及泰迪熊畫畫的“手」,果然都「進化」得和人一樣啊! (戰術後仰)

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

當然,Make-A-Video除了可以把文字變成影片之外,也可以把靜態圖變成Gif。 ############輸入:###################### 輸出:############################################ ##

輸入:

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

輸出:(亮的似乎有點不是地方)

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

2張靜圖變成GIF,輸入隕石圖

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

輸出:

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

##以及,把視頻,變成視頻?

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!輸入:

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!# 輸出:

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

#輸入:

## 輸出:

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

#技術原理

今天,Meta放出了自己的最新研究MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA。

論文網址:https://makeavideo.studio/Make-A-Video.pdf

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!在這個模型出現之前,我們已經有了Stable Diffusion。

#########聰明的科學家已經讓AI用一句話生成圖像了,下一步他們會做什麼呢? ############很顯然,是生成影片。 #########################一隻穿著紅色斗篷的超級英雄狗在天空中飛翔############# ##比起生成影像來,產生影片可難多了。我們不僅需要產生相同主題和場景的多個幀,還必須讓它們及時、連貫。 ############這增加了影像產生任務的複雜度-我們不可能就簡單地使用DALLE產生60張影像,然後把它們拼成一個影片。它的效果會很差,很不真實。 ############因此,我們需要一個能夠以更強大的方式理解世界的模型,並且讓它按照這種理解水平來產生一系列連貫的圖像。只有這樣,這些影像才可以天衣無縫地融合在一起。 ############也就是說,我們的訴求是模擬一個世界,然後再模擬它的記錄。該怎麼做呢? ################

按照先前的思路,研究人員會用大量的文字-影片對來訓練模型,但在現在的這種情況下,這種處理方法並不現實。因為這些數據很難取得,而且訓練成本非常昂貴。

因此,研究人員開了腦洞,採用了一種全新的方式。

他們選擇開發一個文字到圖像的模型,然後把它應用於影片。

巧了,前段時間,Meta就曾開發過這麼一個從文字到圖像的模型Make-A-Scene。

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

Make-A-Scene的方法概述

這個模型產生的契機是,Meta希望推動創意表達,將這種文字到圖像的趨勢與先前的草圖到圖像模型相結合,從而產生文字和以草圖為條件的圖像生成之間的奇妙融合。

這意味著我們可以快速勾勒出一隻貓,寫出自己想要什麼樣的圖像。遵循草圖和文字的指導,這個模型會在幾秒鐘內,產生我們想要的完美插圖。

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

你可以把這種多模態產生AI方法看成是一個對產生有更多控制的Dall-E模型,因為它也可以將快速草圖作為輸入。

之所以稱它為多模態,是因為它可以將多種模態作為輸入,例如文字和圖像。相較之下,Dall-E只能從文字生成圖像。

為了產生視頻,就需要加入時間的維度,因此研究人員在Make-A-Scene模型中添加了時空管道。

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

加入時間維度後,這個模型就不是只產生一張圖片,而是產生16張低解析度的圖片,以創建一個連貫的短視頻。

這個方法其實與文字到圖像模型類似,但不同之處在於:在常規的二維卷積的基礎上,它增加一維卷積。

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

只是簡單地增加了一維卷積,研究人員就能保持預先訓練的二維卷積不變的同時,增加一個時間維度。然後,研究人員可以從頭開始訓練,重新使用Make-A-Scene影像模型的大部分程式碼和參數。

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

同時,研究人員也想用文字輸入來指導這個模型,這將與使用CLIP嵌入的圖像模型非常相似。

在這種情況下,研究人員是在將文字特徵與圖像特徵混合時,增加空間維度,方法同上:保留Make-A-Scene模型中的注意力模組,並為時間增加一個一維注意力模組-複製貼上影像產生器模型,為多一個維度重複產生模組,來獲得16個初始影格。

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

但只靠這16個初始幀,還不能產生影片。

研究人員需要從這16個主幀中,製作一個高清晰度的影片。他們採用的方法是:訪問之前和未來的幀,並同時在時間和空間維度上對它們進行迭代插值。

就這樣,他們在這16個初始幀之間,根據前後的幀生成了新的、更大的幀,這樣就使運動變得連貫,整體視頻變得流暢了。

這是透過一個幀插值網路完成的,它可以採取現有的圖像來填補空白,產生中間的資訊。在空間維度上,它會做同樣的事情:放大影像,填補像素的空白,使影像更加高清。

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

總而言之,為了生成視頻,研究人員微調了一個文本到圖像的模型。他們採用了一個已經訓練好的強大模型,對它進行調整和訓練,讓它適應影片。

因為增加了空間和時間模組,只要簡單地讓模型適應這些新資料就可以了,而不必重新訓練它,這就節省了大量的成本。

這種重新訓練使用的是未標記的視頻,只需要教模型理解視頻和視頻幀的一致性就可以了,這就可以更簡單地建立資料集。

最後,研究人員再次使用了圖像優化模型,提高了空間分辨率,並使用了幀插值組件增加了更多的幀,使視訊變得流暢。

當然,目前Make-A-Video的結果仍有缺點,就如同文字到圖像的模型一樣。但我們都知道,AI領域的進展是多麼神速。

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

如果你想進一步了解,可以參考連結中Meta AI的論文。社群也正在開發一個PyTorch的實現,如果你想自己實現它,請繼續關注。

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

作者介紹

這篇論文中有多位華人研究者參與:殷希、安捷、張宋揚、Qiyuan Hu。

殷希,FAIR研究科學家。先前曾任職微軟,擔任Microsoft Cloud and AI 的高級應用科學家。在密西根州立大學電腦科學與工程系獲博士學位,2013年畢業於武漢大學電機工程專業,獲學士學位。主要研究領域為多模態理解、大規模目標偵測、人臉推理等。

安捷,羅徹斯特大學電腦科學系博士生。師從羅傑波教授。此前於 2016 年和 2019 年在北京大學獲得學士和碩士學位。研究興趣包括電腦視覺、深度生成模型和AI 藝術。作為實習生參與了Make-A-Video研究。

張宋揚,羅徹斯特大學電腦科學系博士生,師從羅傑波教授。在東南大學獲得學士學位,在浙江大學獲得碩士學位。研究興趣包括自然語言矩定位、無監督語法歸納、基於骨架的動作辨識等。作為實習生參與了Make-A-Video研究。

Qiyuan Hu,當時FAIR的AI Resident,從事提升人類創造力的多模態生成模式的研究。她在芝加哥大學獲得醫學物理學博士學位,並從事AI輔助的醫學影像分析工作。現已任職Tempus Labs,任機器學習科學家。

網友大受震撼

前段時間,Google等大廠紛紛放出自家的文字到圖像模型,如Parti,等等。

有人甚至認為文字到影片生成模型還有一段時間才能到來。

沒想到,Meta這次投了一顆重磅炸彈。

其實,同在今天,還有一個文字到影片產生模型Phenaki,目前已提交到ICLR 2023,由於還處於盲審階段,作者機構還是未知。

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

網友稱,從DALLE到Stable Diffuson再到Make-A-Video,一切來得太快。

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!

#

以上是Meta公司創新SOTA模型,能夠根據一句話生成驚人視頻,引爆網絡熱潮!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1665
14
CakePHP 教程
1424
52
Laravel 教程
1321
25
PHP教程
1269
29
C# 教程
1249
24
C  中的chrono庫如何使用? C 中的chrono庫如何使用? Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

如何理解C  中的DMA操作? 如何理解C 中的DMA操作? Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

怎樣在C  中處理高DPI顯示? 怎樣在C 中處理高DPI顯示? Apr 28, 2025 pm 09:57 PM

在C 中處理高DPI顯示可以通過以下步驟實現:1)理解DPI和縮放,使用操作系統API獲取DPI信息並調整圖形輸出;2)處理跨平台兼容性,使用如SDL或Qt的跨平台圖形庫;3)進行性能優化,通過緩存、硬件加速和動態調整細節級別來提升性能;4)解決常見問題,如模糊文本和界面元素過小,通過正確應用DPI縮放來解決。

C  中的實時操作系統編程是什麼? C 中的實時操作系統編程是什麼? Apr 28, 2025 pm 10:15 PM

C 在實時操作系統(RTOS)編程中表現出色,提供了高效的執行效率和精確的時間管理。 1)C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2)利用面向對象特性,C 可以設計靈活的任務調度系統。 3)C 支持高效的中斷處理,但需避免動態內存分配和異常處理以保證實時性。 4)模板編程和內聯函數有助於性能優化。 5)實際應用中,C 可用於實現高效的日誌系統。

怎樣在C  中測量線程性能? 怎樣在C 中測量線程性能? Apr 28, 2025 pm 10:21 PM

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 Apr 30, 2025 pm 07:24 PM

交易所內置量化工具包括:1. Binance(幣安):提供Binance Futures量化模塊,低手續費,支持AI輔助交易。 2. OKX(歐易):支持多賬戶管理和智能訂單路由,提供機構級風控。獨立量化策略平台有:3. 3Commas:拖拽式策略生成器,適用於多平台對沖套利。 4. Quadency:專業級算法策略庫,支持自定義風險閾值。 5. Pionex:內置16 預設策略,低交易手續費。垂直領域工具包括:6. Cryptohopper:雲端量化平台,支持150 技術指標。 7. Bitsgap:

給MySQL表添加和刪除字段的操作步驟 給MySQL表添加和刪除字段的操作步驟 Apr 29, 2025 pm 04:15 PM

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時,需指定位置以優化查詢性能和數據結構;刪除字段前需確認操作不可逆;使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

deepseek官網是如何實現鼠標滾動事件穿透效果的? deepseek官網是如何實現鼠標滾動事件穿透效果的? Apr 30, 2025 pm 03:21 PM

如何實現鼠標滾動事件穿透效果?在我們瀏覽網頁時,經常會遇到一些特別的交互設計。比如在deepseek官網上,�...

See all articles