DeepFake從未如此真實!英偉達最新提出的「隱式扭曲」到底有多強?
近年來,電腦視覺領域的生成技術越來越強,對應「偽造」技術也越來越成熟,從DeepFake換臉到動作模擬,讓人難辨真假。
最近英偉達又整了個大的,在NeurIPS 2022會議上發表了一個新的隱式扭曲(Implicit Warping)框架,使用一組來源圖像和驅動影片的運動來製作目標動畫。
論文連結:https://arxiv.org/pdf/2210.01794.pdf
#從效果來看,就是生成的影像更逼真了,人物在影片裡動,背景也不會改變。
輸入的多個來源圖片通常都會提供不同的外觀資訊,減少了產生器「幻想」的空間# ,例如下面這兩張作為模型輸入。
可以發現,和其他模型相比,隱式扭曲不會產生類似美顏效果的「空間扭曲」之術。
因為人物遮蔽的關係,多張來源影像還可以提供更完善的背景。
從下面的影片可以看到,如果只有左邊的一張圖片,背景後面的是「BD」還是「 ED」很難猜測出來,就會導致背景的失真,而兩張圖片就會產生更穩定的影像。
在比較其他模型時,只有一張來源影像的效果也要更好。
神奇的隱式扭曲
#學術界對於視訊模仿最早可以追溯到2005年,許多專案面部再現的實時表情傳輸、Face2Face、合成歐巴馬、Recycle-GAN、ReenactGAN、動態神經輻射場等等多樣化地利用當時有限的幾種技術,如生成對抗網路(GAN) 、神經輻射場(NeRF)和自編碼器。
並不是所有方法都在嘗試從單一幀圖像中生成視頻,也有一些研究對視頻中的每個幀進行複雜的計算,這實際上也正是Deepfake所走的模仿路線。
但由於DeepFake模型獲取的資訊較少,這種方法需要對每個視訊片段進行訓練,相比DeepFaceLab或FaceSwap的開源方法相比性能有所下降,這兩個模型能夠將一個身分強加到任意數量的影片片段。
2019年發布的FOMM模型讓角色們隨著影片動起來,為影片模仿任務再次注入了一針強心劑。
隨後其他研究人員試圖從單一的臉孔圖像或全身表現中獲得多個姿勢和表情;但是這種方法通常只適用於那些相對沒有表情和不能動的主體,例如相對靜止的“說話的頭”,因為在面部表情或姿勢中沒有網絡必須解釋的“行為突然變化”。
雖然其中一些技術和方法在深度偽造技術和潛在的擴散影像合成方法大火之前獲得了公眾的關注,但適用範圍有限,多功能性受到質疑。
而英偉達這次著重處理的隱式扭曲,則是在多幀之間甚至只有兩幀之間獲取信息,而不是從一幀中獲得所有必要的姿勢信息,這種設置在其他的競爭模型中都不存在,或者處理得非常糟糕。
例如迪士尼的工作流程就是由高級動畫師繪製主框架和關鍵幀,其他初級動畫師負責繪製中間幀。
透過對先前版本的測試,英偉達的研究人員發現,先前方法的結果品質會隨著額外的「關鍵影格」而惡化,而新方法與動畫製作的邏輯一致,隨著關鍵影格數量的增加,效能也會以線性的方式提高。
如果clip的中間發生了一些突然的轉變,例如一個事件或表情在起始幀或結束幀中都沒有表現出來,隱式扭曲可以在這中間點添加一幀,額外的資訊會回饋到整個clip的注意機制。
模型結構
先前的方法,如FOMM,Monkey-Net 和face-vid2vid等使用明確扭曲繪製一個時間序列,從來源人臉和控制運動中提取的資訊必須適應且符合這個時間序列。
在這種模型設計下,關鍵點的最終映射是相當嚴格的。
相較之下,隱式扭曲使用一個跨模態注意層,其工作流程包含較少的預定義bootstrapping,可以適應來自多個框架的輸入。
工作流程也不需要在每個關鍵點的基礎上扭曲,系統可以從一系列影像中選擇最合適的特性。
隱含扭曲也復用了一些FOMM框架中的關鍵點預測元件,最後用一個簡單的U-net對衍生的空間驅動關鍵點表示進行編碼。另外一個單獨的U-net則用來與衍生的空間表示一起對來源影像進行編碼,兩個網路都可以在64px (256px 平方輸出)到384x384px 的解析度範圍內運作。
因為這種機制不能自動解釋任何給定影片中姿勢和運動的所有可能變化,所以額外的關鍵影格是必要的,可以臨時添加。如果沒有這種幹預能力,與目標運動點相似度不足的key將自動uprate,從而導致輸出品質的下降。
研究人員對此的解釋是,雖然它是一組給定的關鍵影格中與query最相似的key,但可能不足以產生一個好的輸出。
例如,假設來源影像有一張嘴唇閉合的臉,而驅動影像則有一張嘴唇張開、牙齒暴露的臉。在這種情況下,來源影像中沒有適合驅動影像嘴部區域的key(和value)。
該方法透過學習額外的與圖像無關的key-value pairs來克服這個問題,可以應對來源圖像中缺少資訊的情況。
儘管目前的實現速度相當快,在512x512px 的圖像上大約10 FPS,研究人員認為,在未來的版本中,pipeline可以透過一個因子化的I-D 注意力層或空間降低注意力(SRA)層(即金字塔視覺Transformer)來優化。
由於隱式扭曲使用的是全域注意力而不是局部注意力,因此它可以預測先前模型無法預測的因素。
實驗結果
研究人員在VoxCeleb2資料集,更具挑戰性的TED Talk 資料集和TalkingHead-1KH 資料集上測試了該系統,比較了256x256px 和完整的512x512px 解析度之間的基線,所使用的指標包括FID、基於AlexNet的LPIPS和峰值信噪比(pSNR)。
用於測試的對比框架包括FOMM和face-vid2vid,以及AA-PCA,由於以前的方法很少或根本沒有能力使用多個關鍵幀,這也是隱式扭曲的主要創新,研究人員也設計了相似測試方法。
隱含扭曲在大多數指標上表現優於大多數對比方法。
在多關鍵幀重建測試中,研究人員使用最多180幀序列,並選擇間隙幀,隱式扭曲這次獲得了全面勝利。
隨著來源影像數量的增加,此方法可以獲得更好的重建結果,所有指標的得分都有所提高。
而隨著來源影像數量的增加,先前工作的重建效果變差,與預期相反。
透過AMT的工作人員進行質性研究後,也認為隱式變形的生成結果強於其他方法。
如果能夠使用這種框架,用戶將能夠製作出更連貫、更長的視頻模擬和全身深度假視頻,所有這些都能夠展現出比該系統已經試驗過的任何框架都要大得多的運動範圍。
不過更逼真的圖像合成研究也帶來了擔憂,因為這些技術可以輕易地用於偽造,論文中也有標準的免責聲明。
如果我們的方法被用來製造DeepFake產品,就有可能產生負面影響。惡意語音合成透過跨身分轉移及傳送虛假資料,製作人物的虛假影像,導致身分被盜用或散播假新聞。但在受控設定中,同樣的技術也可以用於娛樂目的。
論文也指出了該系統在神經視訊重建方面的潛力,例如Google的Project Starline,在這個框架中,重建工作主要集中在客戶端,利用來自另一端的人的稀疏運動訊息。
這個方案越來越引起研究界的興趣,也有公司打算透過發送純運動數據或稀疏間隔的關鍵影格來實現低頻寬的電話會議,這些關鍵影格將在到達目標客戶端時被解釋和插入到完整的高清視頻中。
以上是DeepFake從未如此真實!英偉達最新提出的「隱式扭曲」到底有多強?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

StableDiffusion3的论文终于来了!这个模型于两周前发布,采用了与Sora相同的DiT(DiffusionTransformer)架构,一经发布就引起了不小的轰动。与之前版本相比,StableDiffusion3生成的图质量有了显著提升,现在支持多主题提示,并且文字书写效果也得到了改善,不再出现乱码情况。StabilityAI指出,StableDiffusion3是一个系列模型,其参数量从800M到8B不等。这一参数范围意味着该模型可以在许多便携设备上直接运行,从而显著降低了使用AI

一先導與重點文章主要介紹自動駕駛技術中幾種常用的座標系統,以及他們之間如何完成關聯與轉換,最終建構出統一的環境模型。這裡重點理解自車到相機剛體轉換(外參),相機到影像轉換(內參),影像到像素有單位轉換。 3d向2d轉換會有對應的畸變,平移等。重點:自車座標系相機機體座標系需要被重寫的是:平面座標系像素座標系難點:要考慮影像畸變,去畸變和加畸變都是在像平面上去補償二簡介視覺系統一共有四個座標系:像素平面座標系(u,v)、影像座標系(x,y)、相機座標系()與世界座標系()。每種座標系之間均有聯繫,

軌跡預測在自動駕駛中承擔著重要的角色,自動駕駛軌跡預測是指透過分析車輛行駛過程中的各種數據,預測車輛未來的行駛軌跡。作為自動駕駛的核心模組,軌跡預測的品質對於下游的規劃控制至關重要。軌跡預測任務技術堆疊豐富,需熟悉自動駕駛動/靜態感知、高精地圖、車道線、神經網路架構(CNN&GNN&Transformer)技能等,入門難度很高!許多粉絲期望能夠盡快上手軌跡預測,少踩坑,今天就為大家盤點下軌跡預測常見的一些問題和入門學習方法!入門相關知識1.預習的論文有沒有切入順序? A:先看survey,p

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特徵,這一轉換是透過視覺轉換(VT)模組實施的。現有的方法大致分為兩種策略:2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵,但深度預測的固有不確定性,尤其是在遠處區域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學習3D和2D特徵之間對應關係的注意力權重,這增加了計算和部署的

作者的一些個人思考在自動駕駛領域,隨著BEV-based子任務/端到端方案的發展,高品質的多視圖訓練資料和相應的模擬場景建立愈發重要。針對當下任務的痛點,「高品質」可以解耦成三個面向:不同維度上的長尾場景:如障礙物資料中近距離的車輛以及切車過程中精準的朝向角,以及車道線資料中不同曲率的彎道或較難收集的匝道/匯入/合流等場景。這些往往靠大量的資料收集和複雜的資料探勘策略,成本高昂。 3D真值-影像的高度一致:當下的BEV資料取得往往受到感測器安裝/標定,高精地圖以及重建演算法本身的誤差影響。這導致了我

突然發現了一篇19年的論文GSLAM:AGeneralSLAMFrameworkandBenchmark開源程式碼:https://github.com/zdzhaoyong/GSLAM直接上全文,感受這項工作的品質吧~1摘要SLAM技術最近取得了許多成功,並吸引了高科技公司的關注。然而,如何同一現有或新興演算法的介面,一級有效地進行關於速度、穩健性和可移植性的基準測試仍然是問題。本文,提出了一個名為GSLAM的新型SLAM平台,它不僅提供評估功能,還為研究人員提供了快速開發自己的SLAM系統的有用

請留意,這個方塊人正在緊鎖眉頭,思考著面前幾位「不速之客」的身份。原來她陷入了危險境地,意識到這一點後,她迅速展開腦力搜索,尋找解決問題的策略。最終,她決定先逃離現場,然後儘快尋求幫助,並立即採取行動。同時,對面的人也在進行著與她相同的思考……在《我的世界》中出現了這樣一個場景,所有的角色都由人工智慧控制。他們每個人都有著獨特的身份設定,例如之前提到的女孩就是一個年僅17歲但聰明又勇敢的快遞員。他們擁有記憶和思考能力,在這個以《我的世界》為背景的小鎮中像人類一樣生活。驅動他們的,是一款全新的、

23年9月國防科大、京東和北理工的論文「DeepModelFusion:ASurvey」。深度模型整合/合併是一種新興技術,它將多個深度學習模型的參數或預測合併為一個模型。它結合了不同模型的能力來彌補單一模型的偏差和錯誤,以獲得更好的性能。而大規模深度學習模型(例如LLM和基礎模型)上的深度模型整合面臨一些挑戰,包括高運算成本、高維度參數空間、不同異質模型之間的干擾等。本文將現有的深度模型融合方法分為四類:(1)“模式連接”,透過一條損失減少的路徑將權重空間中的解連接起來,以獲得更好的模型融合初
