SD社群的I2V-Adapter：無需配置，即插即用，完美相容於圖生視訊插件-人工智慧-PHP中文網

方法介紹

#實驗結果

總結

首頁

科技週邊

人工智慧

SD社群的I2V-Adapter：無需配置，即插即用，完美相容於圖生視訊插件

王林

Jan 15, 2024 pm 07:48 PM

影片研究

圖像到視訊生成（I2V）任務是電腦視覺領域的一項挑戰，旨在將靜態圖像轉化為動態視訊。這個任務的困難在於從單張影像中提取並產生時間維度的動態訊息，同時保持影像內容的真實性和視覺上的連貫性。現有的I2V方法通常需要複雜的模型架構和大量的訓練資料來實現這一目標。

近期，快手主導的一項新研究成果《I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models》發布。該研究引入了一種創新的影像到視訊轉換方法，提出了一種輕量級適配器模組，即I2V-Adapter。此適配器模組能夠在不改變現有文字到視訊生成（T2V）模型原始結構和預訓練參數的情況下，將靜態影像轉換成動態視訊。此方法在影像到影片轉換領域具有廣泛的應用前景，能夠為影片創作、媒體傳播等領域帶來更多可能性。這項研究結果的發布對於推動影像和視訊技術的發展具有重要意義，為相關領域的研究者提供了一種有效的工具和方法。

SD社群的I2V-Adapter：無需配置，即插即用，完美相容於圖生視訊插件

#論文網址：https://arxiv.org/pdf/2312.16693 .pdf
專案首頁：https://i2v-adapter.github.io/index.html
程式碼位址：https://github.com/I2V-Adapter/I2V-Adapter-repo

相對於現有方法而言，I2V-Adapter在可訓練參數方面取得了巨大的改進，其參數數量最低可達到22M，僅為主流方案Stable Video Diffusion的1%。同時，此適配器也具備與Stable Diffusion社群開發的客製化T2I模型（如DreamBooth、Lora）和控制工具（如ControlNet）的兼容性。透過實驗，研究者證明了I2V-Adapter在產生高品質視訊內容方面的有效性，為I2V領域的創意應用開啟了新的可能性。

SD社群的I2V-Adapter：無需配置，即插即用，完美相容於圖生視訊插件

方法介紹

Temporal modeling with Stable Diffusion

相較於影像生成，影片生成面臨獨特的挑戰，即建模視訊影格之間的時序連貫性。目前大多數的方法都是基於預先訓練的T2I模型，例如Stable Diffusion和SDXL，透過引入時序模組對影片中的時序資訊進行建模。受到AnimateDiff的啟發，這是一個最初設計用於定制T2V任務的模型，它通過引入與T2I模型解耦的時序模組來建模時序信息，並保留了原始T2I模型的能力，能夠生成流暢的視頻。因此，研究者認為預先訓練的時序模組可以被視為通用的時序表徵，並可以應用於其他視訊生成場景，如I2V生成，而無需進行任何微調。因此，研究者直接使用預先訓練的AnimateDiff時序模組，並保持其參數固定。

Adapter for attention layers

#I2V任務中的另一個挑戰是保持輸入影像的ID資訊。目前的解決方案主要有兩種：一種是使用預先訓練的影像編碼器對輸入影像進行編碼，並透過交叉關注機制將編碼後的特徵注入到模型中以指導去噪過程；另一種是將影像與有雜訊的輸入在通道維度上進行拼接，然後一起輸入到後續的網路中。然而，前一種方法由於影像編碼器難以捕捉底層訊息，可能導致產生的視訊ID發生變化；而後一種方法往往需要改變T2I模型的結構和參數，訓練代價高且相容性較差。

為了解決上述問題，研究者提出了 I2V-Adapter。具體來說，研究者將輸入圖像與noised input 並行輸入給網絡，在模型的spatial block 中，所有幀都會額外查詢一次首幀信息，即key，value 特徵都來自於不加噪的首幀，輸出結果與原始模型的self attention 相加。此模組中的輸出映射矩陣使用零初始化並且只訓練輸出映射矩陣與 query 映射矩陣。為了進一步加強模型對輸入影像語意資訊的理解，研究者引入了預先訓練的 content adapter（本文使用的是 IP-Adapter [8]）注入影像的語意特徵。

SD社群的I2V-Adapter：無需配置，即插即用，完美相容於圖生視訊插件

Frame Similarity Prior

#為了進一步增強產生結果的穩定性，研究者提出了幀間相似性先驗，用於在生成影片的穩定性和運動強度之間取得平衡。其關鍵假設是，在相對較低的高斯雜訊水準上，具有雜訊的第一幀和帶雜訊的後續幀足夠接近，如下圖所示：

SD社群的I2V-Adapter：無需配置，即插即用，完美相容於圖生視訊插件

於是，研究者假設所有幀結構相似，並在加入一定量的高斯雜訊後變得難以區分，因此可以把加噪後的輸入影像作為後續影格的先驗輸入。為了排除高頻資訊的誤導，研究者還使用了高斯模糊算子和隨機遮罩混合。具體來說，運算由下式給出：

SD社群的I2V-Adapter：無需配置，即插即用，完美相容於圖生視訊插件

#實驗結果

定量結果

本文計算了四種定量指標分別是DoverVQA (美學評分)、CLIPTemp (首幀一致性)、FlowScore (運動幅度) 以及WarppingError (運動誤差)用於評價生成影片的品質。表 1 顯示 I2V-Adapter 得到了最高的美學評分，在首幀一致性上也超過了所有對比方案。此外，I2V-Adapter 產生的影片有著最大的運動幅度，並且相對較低的運動誤差，表明此模型的能夠產生更動態的影片並且同時保持時序運動的準確性。

SD社群的I2V-Adapter：無需配置，即插即用，完美相容於圖生視訊插件

定性結果

#Image Animation（左為輸入，右為輸出）：

SD社群的I2V-Adapter：無需配置，即插即用，完美相容於圖生視訊插件

w/ Personalized T2Is（左為輸入，右為輸出）：

SD社群的I2V-Adapter：無需配置，即插即用，完美相容於圖生視訊插件

##w/ ControlNet（左為輸入，右為輸出）：

SD社群的I2V-Adapter：無需配置，即插即用，完美相容於圖生視訊插件

總結

本文提出了 I2V-Adapter，一個即插即用的輕量級模組，用於圖像到視訊生成任務。此方法保留原始T2V 模型的spatial block 與motion block 結構與參數固定，並行輸入不加噪的第一幀與加噪的後續幀，透過注意力機制允許所有幀與無雜訊的第一幀交互，從而產生時序連貫且與首格一致的影片。研究者透過定量與定性實驗證明了該方法在 I2V 任務上的有效性。此外，其解耦設計使得該方案能夠直接結合 DreamBooth、Lora 與 ControlNet 等模組，證明了該方案的兼容性，也促進了定制與可控圖像到視頻生成的研究。

以上是SD社群的I2V-Adapter：無需配置，即插即用，完美相容於圖生視訊插件的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7818

Java教學

1647

CakePHP 教程

1402

Laravel 教程

1300

PHP教程

1238

Related knowledge

視訊檔案儲存在瀏覽器快取中的位置在哪裡？ Feb 19, 2024 pm 05:09 PM

瀏覽器快取影片在哪個資料夾在日常使用網路瀏覽器時，我們經常會觀看各種線上視頻，例如在YouTube上看音樂影片或在Netflix上觀看電影等。而這些影片在載入過程中會被瀏覽器快取下來，以便日後再次播放時能夠快速載入。那麼問題來了，這些快取的影片實際上儲存在哪個資料夾中呢？不同瀏覽器的快取視訊資料夾保存位置是不同的。以下我們將分別介紹幾種常見的瀏覽器以及它們

抖音發布他人影片侵權嗎？它怎麼剪輯影片不算侵權？ Mar 21, 2024 pm 05:57 PM

隨著短影片平台的興起，抖音成為了大家日常生活中不可或缺的一部分。在抖音上，我們可以看到來自世界各地的有趣影片。有些人喜歡發布他人的視頻，這就引發了一個問題：抖音發布他人視頻侵權嗎？本文將圍繞這個問題展開討論，告訴大家怎樣剪輯影片不算侵權，以及如何避免侵權問題。一、抖音發布他人影片侵權嗎？根據我國《著作權法》的規定，未經著作權人許可，擅自使用其作品，屬於侵權行為。因此，在抖音上發布他人視頻，如果未經原作者或著作權人許可，就屬於侵權行為。二、怎樣剪輯影片不算侵權？ 1.使用公共領域或授權的內容：公共

Wink如何去影片浮水印 Feb 23, 2024 pm 07:22 PM

Wink如何去視訊浮水印?winkAPP中是有去除掉視訊浮水印的工具，但是多數的小伙伴不知道wink中如何去除掉視頻中的水印，接下來就是小編為玩家帶來的Wink視頻去水印方法圖文教程，有興趣的用戶快來一起看看吧！ Wink如何去視訊浮水印1、先開啟winkAPP，在首頁面專區中選擇【去浮水印】功能;2、然後在相簿中選擇你需要去除水印的影片;3、接著選擇影片之後，剪輯影片之後點擊右上角【√】;4、最後點選如下圖的【一鍵去印】之後點選【處理】即可。

從 iPhone 上的影片中刪除慢動作的 2 種方法 Mar 04, 2024 am 10:46 AM

在iOS設備上，「相機」應用程式可讓您拍攝慢動作視頻，如果您使用的是最新的iPhone，甚至可以以每秒240幀的速度錄製視頻。此功能讓您能夠捕捉到豐富細節的高速動作。但有時候，您可能希望將慢動作影片以正常速度播放，這樣可以更好地欣賞影片中的細節和動作。在這篇文章中，我們將解釋從iPhone上的現有影片中刪除慢動作的所有方法。如何從iPhone上的影片中刪除慢動作[2種方法]您可以使用「照片」App或iMovie剪輯App從裝置上的影片中刪除慢動作。方法1：使用「照片」應用程式在iPhone上開啟

抖音發布影片如何賺收益？新手小白怎麼在抖音上賺錢啊？ Mar 21, 2024 pm 08:17 PM

抖音，這個全民短視頻平台，不僅讓我們在閒暇時間享受到各種有趣、新奇的短視頻，同時也給了我們一個展示自我、實現價值的舞台。那麼，如何在抖音發布影片中賺取收益呢？本文將詳細解答這個問題，幫助你在抖音上賺取更多的收益。一、抖音發布影片如何賺收益？發布影片在抖音上獲得一定的播放量後，可以有機會參與廣告分成計畫。這項收益方式是抖音用戶最熟悉的之一，也是許多創作者主要的收入來源。抖音根據帳號權重、影片內容以及觀眾回饋等多種因素來決定是否提供廣告分成的機會。抖音平台允許觀眾透過發送禮物來支持自己喜歡的創作者，

如何發布小紅書影片作品？發影片要注意什麼？ Mar 23, 2024 pm 08:50 PM

隨著短影片平台的興起，小紅書成為了許多人分享生活、表達自我、獲取流量的平台。在這個平台上，發布影片作品是一種非常受歡迎的互動方式。那麼，如何發布小紅書影片作品呢？一、如何發布小紅書影片作品？首先，確保準備好一段適合分享的影片內容。你可以利用手機或其他攝影設備拍攝，需要注意畫質和聲音的清晰度。 2.剪輯影片：為了讓作品更具吸引力，可以剪輯影片。可使用專業的影片剪輯軟體，如抖音、快手等，加入濾鏡、音樂、字幕等元素。 3.選擇封面：封面是吸引用戶點擊的關鍵，選擇一張清晰、有趣的圖片作為封面，讓

uc瀏覽器下載的視頻怎麼變成本地視頻 Feb 29, 2024 pm 10:19 PM

uc瀏覽器下載的影片怎麼變成本機影片？許多手機用戶都喜歡使用UC瀏覽器，不僅可用它進行網頁瀏覽，還可在線上觀看各種影片和電視節目，並將喜愛的影片下載至手機。實際上，我們可以將下載的視頻轉換為本地視頻，但很多人不清楚如何操作。因此，小編特地為大家帶來了將uc瀏覽器快取的影片轉為本地影片方法，希望可以幫助到各位。將uc瀏覽器快取的影片轉為本機影片方法1、開啟uc瀏覽器，點選「選單」選項。 2、點選「下載/影片」。 3、點選「已快取影片」。 4.長按任意一個視頻，彈出選項後，點選「開啟目錄」。 5.勾選要下載的