首頁 科技週邊 人工智慧 ICCV 2023 | 重塑人體動作生成,融合擴散模型與檢索策略的新範式ReMoDiffuse來了

ICCV 2023 | 重塑人體動作生成,融合擴散模型與檢索策略的新範式ReMoDiffuse來了

Sep 27, 2023 pm 09:29 PM
入門

人體動作生成任務旨在產生逼真的人體動作序列,以滿足娛樂、虛擬實境、機器人技術等領域的需求。傳統的生成方法包括3D 角色創建、關鍵幀動畫和動作捕捉等步驟,其存在許多限制,如耗時較長,需要專業技術知識,涉及昂貴的系統和軟體,不同軟硬體系統之間可能存在兼容性問題等。隨著深度學習的發展,人們開始嘗試使用生成模型來實現人體動作序列的自動生成,例如透過輸入文字描述,要求模型生成與文字要求相符的動作序列。隨著擴散模型被引入這個領域,生成動作與給定文字的一致性不斷提高。

然而,儘管生成動作的自然程度已經有所提升,但與使用需求仍有較大差距。為了進一步提升人體動作生成演算法的能力,本文在MotionDiffuse [1]的基礎上提出了ReMoDiffuse演算法(圖1)。透過利用檢索策略,找到高相關性的參考樣本,並提供細微的參考特徵,從而產生更高品質的動作序列

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了

  • 論文連結:https://arxiv.org/pdf/2304.01116.pdf

  • GitHub連結:https://github.com/mingyuan-zhang/ReMoDiffuse

  • 專案首頁:https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

透過巧妙地將擴散模型和創新的檢索策略融合,ReMoDiffuse 為文本指導的人體動作生成注入了新的生命力。經過精心構思的模型結構,ReMoDiffuse 不僅能夠創造出豐富多樣、真實度高的動作序列,還能有效地滿足各種長度和多粒度的動作需求。實驗證明,ReMoDiffuse 在動作生成領域的多個關鍵指標上表現出色,顯著地超越了現有演算法。

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了圖1. ReMoDiffuse 概覽

方法介紹

ReMoDiffuse的主要流程分為兩個階段:檢索和擴散。在檢索階段,ReMoDiffuse利用混合檢索技術,根據使用者輸入文字和預期的動作序列長度,從外部的多模態資料庫中檢索出資訊豐富的樣本,為動作生成提供強大的指導。在擴散階段,ReMoDiffuse利用檢索階段獲取的信息,透過高效的模型結構產生與用戶輸入語義一致的運動序列

為了確保高效的檢索,ReMoDiffuse 為檢索階段精心設計了以下數據流(圖2):

共有三種資料參與檢索過程,分別是使用者輸入文字、預期動作序列長度,以及一個外部的、包含多個 對的多模態資料庫。在檢索最相關的樣本時,ReMoDiffuse 利用公式ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了計算每個資料庫中的樣本與使用者輸入的相似度。這裡的第一項是利用預先訓練的CLIP [2] 模型的文字編碼器對使用者輸入文字和資料庫實體的文字計算餘弦相似度,第二項計算預期動作序列長度和資料庫實體的動作序列長度之間的相對差異作為運動學相似度。計算相似度分數後,ReMoDiffuse 選擇相似度排名前 k 的樣本作為檢索到的樣本,並提取出文字特徵ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了,和動作特徵ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了。這兩者和從使用者輸入的文字中提取的特徵ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了 一同作為輸入給擴散階段的訊號,指導動作產生。

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了圖 2:ReMoDiffuse 的檢索階段

擴散過程(圖3.c)由正向過程和逆向過程兩個部分組成。在正向過程中,ReMoDiffuse會逐步將高斯雜訊加入原始動作資料中,並最終將其轉換為隨機雜訊。逆向過程則專注於去除雜訊並產生逼真的動作樣本。從一個隨機高斯雜訊開始,ReMoDiffuse在逆向過程的每一步都使用語意調變模組(SMT)(圖3.a)來估測真實分佈,並根據條件訊號逐步去除雜訊。這裡的SMT中的SMA模組將會將所有的條件資訊融入產生的序列特徵中,是本文提出的核心模組

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了圖3:ReMoDiffuse 的擴散階段

對於SMA 層(圖3.b),我們使用了高效率的注意力機制(Efficient Attention)[3] 來加速注意力模組的計算,並創造了一個更強調全局資訊的全局特徵圖。此特徵圖為動作序列提供了更全面的語意線索,從而提升了模型的表現。 SMA 層的核心目標是透過聚合條件資訊來優化動作序列ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了的生成。在這個框架下:

1.Q 向量具體地代表了我們期望基於條件資訊產生的預期動作序列ICCV 2023 | 重塑人體動作生成,融合擴散模型與檢索策略的新範式ReMoDiffuse來了

2.K 向量作為一種索引機制綜合考慮了多個要素,包括當前動作序列特徵ICCV 2023 | 重塑人體動作生成,融合擴散模型與檢索策略的新範式ReMoDiffuse來了、使用者輸入的語義特徵ICCV 2023 | 重塑人體動作生成,融合擴散模型與檢索策略的新範式ReMoDiffuse來了,以及從檢索樣本中獲取的特徵ICCV 2023 | 重塑人體動作生成,融合擴散模型與檢索策略的新範式ReMoDiffuse來了ICCV 2023 | 重塑人體動作生成,融合擴散模型與檢索策略的新範式ReMoDiffuse來了。其中,ICCV 2023 | 重塑人體動作生成,融合擴散模型與檢索策略的新範式ReMoDiffuse來了表示從檢索樣本中取得的動作序列特徵,ICCV 2023 | 重塑人體動作生成,融合擴散模型與檢索策略的新範式ReMoDiffuse來了表示從檢索樣本中取得的文字描述特徵。這種綜合性的建構方式保證了 K 向量在索引過程中的有效性。

3.V 向量提供了產生動作所需的實際特徵。與 K 向量類似,V 向量綜合考慮了檢索樣本、使用者輸入和當前動作序列。由於檢索樣本的文字描述特徵與產生的動作之間沒有直接關聯,因此在計算 V 向量時,我們選擇不使用此特徵,以避免不必要的資訊幹擾

結合Efficient Attention 的全局注意力模板機制,SMA 層利用來自檢索樣本的輔助信息、用戶文本的語義信息以及待去噪序列的特徵信息,建立起一系列綜合性的全局模板,使得所有條件資訊能夠被待生成序列充分吸收。

為了實現內容的重寫,需要將原文轉換成中文。以下是重寫後的內容: 研究設計與實驗結果

我們對ReMoDiffuse進行了HumanML3D [4]和KIT-ML [5]兩個資料集的評估。實驗結果(表1、2)從文字一致性和動作品質兩個角度展示了我們提出的ReMoDiffuse框架的強大性能和優勢

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了表1. 不同方法在HumanML3D 測試集上的表現

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了表2. 不同方法在KIT-ML 測試集上的表現

以下是一些展示ReMoDiffuse 強大效能的範例(圖4)。與先前的方法相比,例如,在給定文字「一個人在圓圈裡跳躍」時,只有 ReMoDiffuse 能夠準確捕捉到「跳躍」動作和「圓圈」路徑。這表明ReMoDiffuse 能夠有效地捕捉文字細節,並將內容與給定的運動持續時間對齊

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了圖4. ReMoDiffuse 產生的動作序列與其他方法產生的動作序列的比較

我們對Guo 等人的方法[4]、MotionDiffuse [1]、MDM [6] 以及ReMoDiffuse 所產生的相應動作序列進行了可視化展示,並以問卷形式收集測試參與者的意見。結果的分佈情形如圖 5 所示。從結果中可以清楚看出,在大多數情況下,參與測試者認為我們的方法 —— 即 ReMoDiffuse 所產生的動作序列在四個演算法中最貼合所給的文字描述,也最自然流暢。

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了圖5:使用者研究的結果分佈

引用

明源張、蔡忠剛、潘亮、洪方舟、郭欣穎、楊磊和劉子偉。 Motiondiffuse: 基於擴散模型的文本驅動人體動作生成。 arXiv預印本arXiv:2208.15001, 2022年

[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pam Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021.

#\ Yi, and Hongsheng Li. Efficient attention: Attention with linear complexities. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 3531–3539, 2021.

[4 ] Chuan Guo, Shihao Zou, Xinxin Zuo, Sen Wang, Wei Ji, Xingyu Li, and Li Cheng. Generating diverse and natural 3d human motions from text. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages –5161, 2022.

#需要重寫的內容是:[5] Matthias Plappert, Christian Mandery和Tamim Asfour。 《運動語言資料集》。大數據,4(4):236-252,2016年

[6] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano . Human motion diffusion model. In The Eleventh International Conference on Learning Representations, 2022.

以上是ICCV 2023 | 重塑人體動作生成,融合擴散模型與檢索策略的新範式ReMoDiffuse來了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

值得你花時間看的擴散模型教程,來自普渡大學 值得你花時間看的擴散模型教程,來自普渡大學 Apr 07, 2024 am 09:01 AM

Diffusion不僅可以更好地模仿,而且可以進行「創作」。擴散模型(DiffusionModel)是一種影像生成模型。與先前AI領域大名鼎鼎的GAN、VAE等演算法,擴散模型另闢蹊徑,其主要想法是先對影像增加噪聲,再逐步去噪的過程。其中如何去噪還原原影像是演算法的核心部分。最終演算法能夠從一張隨機的雜訊影像中產生影像。近年來,生成式AI的驚人成長將文字轉換為圖像生成、視訊生成等領域的許多令人興奮的應用提供了支援。這些生成工具背後的基本原理是擴散的概念,這是一種特殊的取樣機制,克服了先前的方法中被

一鍵生成PPT! Kimi :讓「PPT民工」先浪起來 一鍵生成PPT! Kimi :讓「PPT民工」先浪起來 Aug 01, 2024 pm 03:28 PM

Kimi:一句話,十幾秒鐘,一份PPT就新鮮出爐了。 PPT這玩意兒,可太招人煩了!開個碰頭會,要有PPT;寫個週報,要做PPT;拉個投資,要展示PPT;就連控訴出軌,都得發個PPT。大學比較像是學了個PPT專業,上課看PPT,下課做PPT。或許,37年前丹尼斯・奧斯汀發明PPT時也沒想到,有一天PPT竟然如此氾濫成災。嗎嘍們做PPT的苦逼經歷,說起來都是淚。 「一份二十多頁的PPT花了三個月,改了幾十遍,看到PPT都想吐」;「最巔峰的時候,一天做了五個PPT,連呼吸都是PPT」;「臨時開個會,都要做個

CVPR 2024全部獎項公佈!近萬人線下參會,Google華人研究員獲最佳論文獎 CVPR 2024全部獎項公佈!近萬人線下參會,Google華人研究員獲最佳論文獎 Jun 20, 2024 pm 05:43 PM

北京時間6月20日凌晨,在西雅圖舉辦的國際電腦視覺頂會CVPR2024正式公佈了最佳論文等獎項。今年共有10篇論文獲獎,其中2篇最佳論文,2篇最佳學生論文,另外還有2篇最佳論文提名和4篇最佳學生論文提名。電腦視覺(CV)領域的頂級會議是CVPR,每年都會吸引大量研究機構和高校參會。根據統計,今年共提交了11532份論文,2719篇被接收,錄取率為23.6%。根據佐治亞理工學院對CVPR2024的數據統計分析,從研究主題來看,論文數量最多的是圖像和視頻合成與生成(Imageandvideosyn

從裸機到700億參數大模型,這裡有一個教程,還有現成可用的腳本 從裸機到700億參數大模型,這裡有一個教程,還有現成可用的腳本 Jul 24, 2024 pm 08:13 PM

我們知道LLM是在大規模電腦叢集上使用海量資料訓練得到的,本站曾介紹過不少用於輔助和改進LLM訓練流程的方法和技術。而今天,我們要分享的是一篇深入技術底層的文章,介紹如何將一堆連作業系統也沒有的「裸機」變成用來訓練LLM的電腦叢集。這篇文章來自於AI新創公司Imbue,該公司致力於透過理解機器的思維方式來實現通用智慧。當然,將一堆連作業系統也沒有的「裸機」變成用於訓練LLM的電腦叢集並不是一個輕鬆的過程,充滿了探索和試錯,但Imbue最終成功訓練了一個700億參數的LLM,並在此過程中積累

入門學習C語言的五款程式設計軟體 入門學習C語言的五款程式設計軟體 Feb 19, 2024 pm 04:51 PM

C語言作為一門廣泛應用的程式語言,對於想從事電腦程式設計的人來說是必學的基礎語言之一。然而,對於初學者來說,學習新的程式語言可能會有些困難,尤其是缺乏相關的學習工具和教材。在本文中,我將介紹五款幫助初學者入門C語言的程式設計軟體,幫助你快速上手。第一款程式軟體是Code::Blocks。 Code::Blocks是一個免費的開源整合開發環境(IDE),適用於

PyCharm社群版安裝指南:快速掌握全部步驟 PyCharm社群版安裝指南:快速掌握全部步驟 Jan 27, 2024 am 09:10 AM

快速入門PyCharm社群版:詳細安裝教學全解析導言:PyCharm是一個功能強大的Python整合開發環境(IDE),它提供了一套全面的工具,可以幫助開發人員更有效率地編寫Python程式碼。本文將詳細介紹如何安裝PyCharm社群版,並提供具體的程式碼範例,幫助初學者快速入門。第一步:下載和安裝PyCharm社群版要使用PyCharm,首先需要從其官方網站上下

AI在用 | AI製作獨居女孩生活Vlog,3天狂攬萬點讚量 AI在用 | AI製作獨居女孩生活Vlog,3天狂攬萬點讚量 Aug 07, 2024 pm 10:53 PM

機器之能報道編輯:楊文以大模型、AIGC為代表的人工智慧浪潮已經在悄悄改變我們生活及工作方式,但絕大部分人依然不知道該如何使用。因此,我們推出了「AI在用」專欄,透過直覺、有趣且簡潔的人工智慧使用案例,來具體介紹AI使用方法,並激發大家思考。我們也歡迎讀者投稿親自實踐的創新用例。影片連結:https://mp.weixin.qq.com/s/2hX_i7li3RqdE4u016yGhQ最近,獨居女孩的生活Vlog在小紅書上走紅。一個插畫風格的動畫,再配上幾句治癒系文案,短短幾天就能輕鬆狂攬上

技術入門者必看:C語言和Python難易度解析 技術入門者必看:C語言和Python難易度解析 Mar 22, 2024 am 10:21 AM

標題:技術入門者必看:C語言和Python難易度解析,需要具體程式碼範例在當今數位化時代,程式設計技術已成為一項越來越重要的能力。無論是想要從事軟體開發、數據分析、人工智慧等領域,還是僅僅出於興趣學習編程,選擇一門合適的程式語言是第一步。而在眾多程式語言中,C語言和Python作為兩種廣泛應用的程式語言,各有其特色。本文將對C語言和Python的難易度進行解析

See all articles