


ICCV 2023 |. ReMoDiffuse, paradigma baharu yang membentuk semula penjanaan tindakan manusia dan menyepadukan model resapan dan strategi pengambilan semula, ada di sini
Tugas penjanaan tindakan manusia bertujuan untuk menjana urutan tindakan manusia yang realistik untuk memenuhi keperluan hiburan, realiti maya, robotik dan bidang lain. Kaedah penjanaan tradisional termasuk langkah-langkah seperti penciptaan aksara 3D, animasi bingkai kunci dan tangkapan gerakan, yang mempunyai banyak batasan, seperti memakan masa, memerlukan pengetahuan teknikal profesional, melibatkan sistem dan perisian yang mahal, dan kemungkinan keserasian antara sistem perisian dan perkakasan yang berbeza. Isu seksual dsb. Dengan perkembangan pembelajaran mendalam, orang ramai mula cuba menggunakan model generatif untuk mencapai penjanaan automatik urutan tindakan manusia, contohnya, dengan memasukkan penerangan teks dan memerlukan model menjana urutan tindakan yang sepadan dengan keperluan teks. Apabila model resapan diperkenalkan ke dalam medan, ketekalan tindakan yang dihasilkan dengan teks yang diberikan terus bertambah baik.
Namun, walaupun sifat semula jadi tindakan yang dihasilkan telah dipertingkatkan, masih terdapat jurang yang besar di antaranya dan keperluan penggunaan. Untuk meningkatkan lagi keupayaan algoritma penjanaan gerakan manusia, kertas kerja ini mencadangkan algoritma ReMoDiffuse (Rajah 1) berdasarkan MotionDiffuse [1]. Dengan menggunakan strategi perolehan semula, kami menemui sampel rujukan yang sangat relevan dan menyediakan ciri rujukan yang terperinci untuk menjana urutan tindakan berkualiti tinggi
Pautan kertas: https://arxiv.org/pdf/2304.01116 .pdf
Pautan GitHub: https://github.com/mingyuan-zhang/ReMoDiffuse
Laman utama projek: https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html
Rajah 1. Gambaran Keseluruhan ReMoDiffuse
Pengenalan kaedah
Proses utama ReMoDiffuse.proses utama ReMoDiffuse. Dalam peringkat perolehan semula, ReMoDiffuse menggunakan teknologi perolehan semula hibrid untuk mendapatkan semula sampel yang kaya dengan maklumat daripada pangkalan data berbilang modal luaran berdasarkan teks input pengguna dan jangkaan panjang jujukan tindakan, memberikan panduan yang berkuasa untuk penjanaan tindakan. Dalam peringkat penyebaran, ReMoDiffuse menggunakan maklumat yang diperoleh dalam peringkat perolehan semula untuk menjana urutan gerakan yang konsisten secara semantik dengan input pengguna melalui struktur model yang cekapUntuk memastikan perolehan semula yang cekap, ReMoDiffuse mereka bentuk aliran data berikut dengan teliti untuk peringkat perolehan semula (Rajah 2):Terdapat tiga jenis data yang terlibat dalam proses mendapatkan semula, iaitu teks input pengguna, jangkaan panjang urutan tindakan dan pangkalan data berbilang modal luaran yang mengandungi berbilang pasangan
. Apabila mendapatkan semula sampel yang paling berkaitan, ReMoDiffuse menggunakan formula untuk mengira persamaan antara sampel dalam setiap pangkalan data dan input pengguna. Item pertama di sini adalah untuk mengira persamaan kosinus antara teks input pengguna dan teks entiti pangkalan data menggunakan pengekod teks model CLIP [2] pra-latihan, dan item kedua mengira perbezaan antara panjang jujukan tindakan yang dijangkakan. dan panjang jujukan tindakan entiti pangkalan data Perbezaan relatif diambil sebagai persamaan kinematik. Selepas mengira skor persamaan, ReMoDiffuse memilih sampel k teratas dengan persamaan yang serupa dengan sampel yang diambil dan mengekstrak ciri teks dan ciri tindakan
. Kedua-dua ini, bersama-sama dengan ciri
yang diekstrak daripada input teks oleh pengguna, berfungsi sebagai isyarat input ke peringkat penyebaran untuk membimbing penjanaan tindakan.
Rajah 2: Fasa pengambilan semula ReMoDiffuse
Proses resapan (Rajah 3.c) terdiri daripada dua bahagian: proses hadapan dan proses songsang. Dalam proses ke hadapan, ReMoDiffuse secara beransur-ansur menambah hingar Gaussian pada data gerakan asal dan akhirnya menukarkannya kepada hingar rawak. Proses songsang memfokuskan pada penyingkiran hingar dan menghasilkan sampel gerakan yang realistik. Bermula daripada hingar Gaussian rawak, ReMoDiffuse menggunakan Modul Modulasi Semantik (SMT) (Rajah 3.a) pada setiap langkah proses songsang untuk menganggarkan taburan sebenar dan mengeluarkan bunyi secara beransur-ansur berdasarkan isyarat bersyarat. Modul SMA dalam SMT di sini akan menyepadukan semua maklumat keadaan ke dalam ciri jujukan yang dijana, iaitu modul teras yang dicadangkan dalam artikel ini
Rajah 3: Peringkat penyebaran ReMoDiffuse
dengan mengagregatkan maklumat keadaan. Dalam rangka kerja ini:
yang kami jangka akan jana berdasarkan maklumat bersyarat. Vektor 2.K berfungsi sebagai mekanisme pengindeksan yang mempertimbangkan pelbagai faktor secara menyeluruh, termasuk ciri jujukan tindakan semasa
, input ciri semantik oleh pengguna
dan ciri
dan
yang diperoleh daripada sampel pengambilan semula. Antaranya,
mewakili ciri penerangan teks yang diperoleh daripada sampel perolehan semula. Kaedah pembinaan yang komprehensif ini memastikan keberkesanan vektor K dalam proses pengindeksan.
🎜Vektor 3.V menyediakan ciri sebenar yang diperlukan untuk menjana tindakan. Sama seperti vektor K, vektor V mengambil kira sampel perolehan semula, input pengguna dan urutan tindakan semasa. Memandangkan tiada korelasi langsung antara ciri penerangan teks bagi sampel yang diambil dan tindakan yang dijana, kami memilih untuk tidak menggunakan ciri ini semasa mengira vektor V untuk mengelakkan gangguan maklumat yang tidak diperlukan🎜Digabungkan dengan mekanisme templat perhatian global Perhatian Cekap, lapisan SMA menggunakan maklumat tambahan daripada sampel perolehan semula, maklumat semantik teks pengguna dan maklumat ciri urutan yang akan dinafikan untuk mewujudkan satu siri templat global yang komprehensif , supaya semua maklumat keadaan boleh diserap sepenuhnya oleh urutan yang akan dijana.
Untuk menulis semula kandungan, teks asal perlu ditukar kepada bahasa Cina. Inilah rupanya selepas menulis semula: Reka Bentuk Penyelidikan dan Hasil Eksperimen
Kami menilai ReMoDiffuse pada dua set data, HumanML3D [4] dan KIT-ML [5]. Keputusan percubaan (Jadual 1 dan 2) menunjukkan prestasi hebat dan kelebihan rangka kerja ReMoDiffuse kami yang dicadangkan dari perspektif ketekalan teks dan kualiti tindakan
Jadual 1. Prestasi kaedah berbeza pada set ujian HumanML3D
Jadual 2. Prestasi kaedah berbeza pada set ujian KIT-ML
Berikut adalah beberapa contoh yang menunjukkan prestasi berkuasa ReMoDiffuse 4). (Rajah Berbanding dengan kaedah sebelumnya, contohnya, memandangkan teks "Seseorang melompat dalam bulatan," hanya ReMoDiffuse yang dapat menangkap gerakan "melompat" dan laluan "bulatan" dengan tepat. Ini menunjukkan bahawa ReMoDiffuse dapat menangkap butiran teks dengan berkesan dan menyelaraskan kandungan dengan tempoh gerakan yang diberikan
Rajah 4. Perbandingan urutan tindakan yang dijana oleh ReMoDiffuse dengan urutan tindakan yang dihasilkan oleh kaedah lain
Figure 5: Pengagihan hasil tinjauan pengguna
Citation
ming Yuan Zhang, Cai Zhonggang, Pan Liang, Hong Fangzhou, Guo Xinying, Yang Lei dan Liu Ziwei. Motiondiffuse: Penjanaan gerakan manusia dipacu teks berdasarkan model resapan. pracetak arXiv arXiv:2208.15001, 2022
[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin al. Pemindahan Jack model visual daripada penyeliaan bahasa semula jadi. arXiv arXiv:2103.00020, 2021.
[3] Zhuoran Shen, Mingyuan Zhang, Haiyu Zhao, Shuai Yi, dan Hongsheng Li Perhatian yang cekap Persidangan musim sejuk IEEE/CVF mengenai aplikasi penglihatan komputer, halaman 3531–3539, 2021.
[4] Chuan Guo, Shihao Zou, Xinxin Zuo, Sen Wang, Wei Ji, Xingyu Li dan Li Cheng Menjana pelbagai dan gerakan manusia 3d semula jadi daripada teks. Dalam Prosiding Persidangan IEEE/CVF mengenai Visi Komputer dan Pengecaman Corak, halaman 5152–5161, 2022.
Kandungan yang perlu ditulis semula ialah: [5] Matthias Plappert, Christian Mandery dan Tamim Asfour. "Set Data Bahasa Motor". Big Data, 4(4):236-252, 2016
[6] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or dan Amit H Bermano model penyebaran gerakan manusia Persidangan Antarabangsa mengenai Perwakilan Pembelajaran, 2022.
🎜Atas ialah kandungan terperinci ICCV 2023 |. ReMoDiffuse, paradigma baharu yang membentuk semula penjanaan tindakan manusia dan menyepadukan model resapan dan strategi pengambilan semula, ada di sini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Penyebaran bukan sahaja boleh meniru lebih baik, tetapi juga "mencipta". Model resapan (DiffusionModel) ialah model penjanaan imej. Berbanding dengan algoritma yang terkenal seperti GAN dan VAE dalam bidang AI, model resapan mengambil pendekatan yang berbeza. Idea utamanya ialah proses menambah hingar pada imej dan kemudian secara beransur-ansur menolaknya. Cara mengecilkan dan memulihkan imej asal adalah bahagian teras algoritma. Algoritma akhir mampu menghasilkan imej daripada imej bising rawak. Dalam beberapa tahun kebelakangan ini, pertumbuhan luar biasa AI generatif telah membolehkan banyak aplikasi menarik dalam penjanaan teks ke imej, penjanaan video dan banyak lagi. Prinsip asas di sebalik alat generatif ini ialah konsep resapan, mekanisme pensampelan khas yang mengatasi batasan kaedah sebelumnya.

Kimi: Hanya dalam satu ayat, dalam sepuluh saat sahaja, PPT akan siap. PPT sangat menjengkelkan! Untuk mengadakan mesyuarat, anda perlu mempunyai PPT; untuk menulis laporan mingguan, anda perlu mempunyai PPT untuk membuat pelaburan, anda perlu menunjukkan PPT walaupun anda menuduh seseorang menipu, anda perlu menghantar PPT. Kolej lebih seperti belajar jurusan PPT Anda menonton PPT di dalam kelas dan melakukan PPT selepas kelas. Mungkin, apabila Dennis Austin mencipta PPT 37 tahun lalu, dia tidak menyangka satu hari nanti PPT akan berleluasa. Bercakap tentang pengalaman sukar kami membuat PPT membuatkan kami menitiskan air mata. "Ia mengambil masa tiga bulan untuk membuat PPT lebih daripada 20 muka surat, dan saya menyemaknya berpuluh-puluh kali. Saya rasa ingin muntah apabila saya melihat PPT itu." ialah PPT." Jika anda mengadakan mesyuarat dadakan, anda harus melakukannya

Pada awal pagi 20 Jun, waktu Beijing, CVPR2024, persidangan penglihatan komputer antarabangsa teratas yang diadakan di Seattle, secara rasmi mengumumkan kertas kerja terbaik dan anugerah lain. Pada tahun ini, sebanyak 10 kertas memenangi anugerah, termasuk 2 kertas terbaik dan 2 kertas pelajar terbaik Selain itu, terdapat 2 pencalonan kertas terbaik dan 4 pencalonan kertas pelajar terbaik. Persidangan teratas dalam bidang visi komputer (CV) ialah CVPR, yang menarik sejumlah besar institusi penyelidikan dan universiti setiap tahun. Mengikut statistik, sebanyak 11,532 kertas telah diserahkan tahun ini, 2,719 daripadanya diterima, dengan kadar penerimaan 23.6%. Menurut analisis statistik data CVPR2024 Institut Teknologi Georgia, dari perspektif topik penyelidikan, bilangan kertas terbesar ialah sintesis dan penjanaan imej dan video (Imageandvideosyn

Sebagai bahasa pengaturcaraan yang digunakan secara meluas, bahasa C merupakan salah satu bahasa asas yang mesti dipelajari bagi mereka yang ingin melibatkan diri dalam pengaturcaraan komputer. Walau bagaimanapun, bagi pemula, mempelajari bahasa pengaturcaraan baharu boleh menjadi sukar, terutamanya disebabkan kekurangan alat pembelajaran dan bahan pengajaran yang berkaitan. Dalam artikel ini, saya akan memperkenalkan lima perisian pengaturcaraan untuk membantu pemula memulakan bahasa C dan membantu anda bermula dengan cepat. Perisian pengaturcaraan pertama ialah Code::Blocks. Code::Blocks ialah persekitaran pembangunan bersepadu sumber terbuka (IDE) percuma untuk

Kami tahu bahawa LLM dilatih pada kelompok komputer berskala besar menggunakan data besar-besaran Tapak ini telah memperkenalkan banyak kaedah dan teknologi yang digunakan untuk membantu dan menambah baik proses latihan LLM. Hari ini, perkara yang ingin kami kongsikan ialah artikel yang mendalami teknologi asas dan memperkenalkan cara menukar sekumpulan "logam kosong" tanpa sistem pengendalian pun menjadi gugusan komputer untuk latihan LLM. Artikel ini datang daripada Imbue, sebuah permulaan AI yang berusaha untuk mencapai kecerdasan am dengan memahami cara mesin berfikir. Sudah tentu, mengubah sekumpulan "logam kosong" tanpa sistem pengendalian menjadi gugusan komputer untuk latihan LLM bukanlah proses yang mudah, penuh dengan penerokaan dan percubaan dan kesilapan, tetapi Imbue akhirnya berjaya melatih LLM dengan 70 bilion parameter proses terkumpul

Mula Pantas dengan PyCharm Edisi Komuniti: Tutorial Pemasangan Terperinci Analisis Penuh Pengenalan: PyCharm ialah persekitaran pembangunan bersepadu (IDE) Python yang berkuasa yang menyediakan set alat yang komprehensif untuk membantu pembangun menulis kod Python dengan lebih cekap. Artikel ini akan memperkenalkan secara terperinci cara memasang Edisi Komuniti PyCharm dan menyediakan contoh kod khusus untuk membantu pemula bermula dengan cepat. Langkah 1: Muat turun dan pasang Edisi Komuniti PyCharm Untuk menggunakan PyCharm, anda perlu memuat turunnya dari tapak web rasminya terlebih dahulu

Tajuk: Wajib dibaca untuk pemula teknikal: Analisis kesukaran bahasa C dan Python, memerlukan contoh kod khusus Dalam era digital hari ini, teknologi pengaturcaraan telah menjadi keupayaan yang semakin penting. Sama ada anda ingin bekerja dalam bidang seperti pembangunan perisian, analisis data, kecerdasan buatan, atau hanya belajar pengaturcaraan kerana minat, memilih bahasa pengaturcaraan yang sesuai ialah langkah pertama. Di antara banyak bahasa pengaturcaraan, bahasa C dan Python adalah dua bahasa pengaturcaraan yang digunakan secara meluas, masing-masing mempunyai ciri tersendiri. Artikel ini akan menganalisis tahap kesukaran bahasa C dan Python

Editor Laporan Kuasa Mesin: Yang Wen Gelombang kecerdasan buatan yang diwakili oleh model besar dan AIGC telah mengubah cara kita hidup dan bekerja secara senyap-senyap, tetapi kebanyakan orang masih tidak tahu cara menggunakannya. Oleh itu, kami telah melancarkan lajur "AI dalam Penggunaan" untuk memperkenalkan secara terperinci cara menggunakan AI melalui kes penggunaan kecerdasan buatan yang intuitif, menarik dan padat serta merangsang pemikiran semua orang. Kami juga mengalu-alukan pembaca untuk menyerahkan kes penggunaan yang inovatif dan praktikal. Pautan video: https://mp.weixin.qq.com/s/2hX_i7li3RqdE4u016yGhQ Baru-baru ini, vlog kehidupan seorang gadis yang tinggal bersendirian menjadi popular di Xiaohongshu. Animasi gaya ilustrasi, ditambah dengan beberapa perkataan penyembuhan, boleh diambil dengan mudah dalam beberapa hari sahaja.
