Buka manusia digital, yang penuh dengan AI generatif.
Pada petang 23 September, pada majlis perasmian Sukan Asia Hangzhou, penyalaan obor utama menunjukkan "api kecil" ratusan juta pembawa obor digital dalam talian berkumpul di Sungai Qiantang, membentuk imej daripada manusia digital. Kemudian, pembawa obor manusia digital dan pembawa obor keenam di tapak berjalan ke pentas obor bersama-sama dan menyalakan obor utama bersama-sama
Sebagai idea teras majlis perasmian, format pencahayaan obor dunia sebenar telah menjadi topik carian hangat, menarik perhatian orang ramai. Kandungan yang ditulis semula: Sebagai idea teras majlis perasmian, kaedah pencahayaan obor Internet Realiti Digital telah membangkitkan perbincangan hangat dan menarik perhatian orang
Digital Human Ignition ialah inisiatif yang belum pernah terjadi sebelumnya, dengan ratusan juta orang mengambil bahagian di dalamnya, melibatkan sebilangan besar orang Teknologi canggih dan kompleks. Salah satu isu yang paling penting ialah bagaimana untuk membuat orang digital "bergerak". Dapat dilihat dengan jelas bahawa dengan perkembangan pesat kecerdasan buatan generatif dan model berskala besar, lebih banyak perubahan baharu telah muncul dalam penyelidikan manusia digital
Pada persidangan penglihatan komputer global ICCV 2023 yang akan datang pada awal Oktober, kami memberi perhatian kepada penyelidikan mengenai penjanaan gerakan manusia digital 3D telah dimasukkan dalam persidangan itu. Kertas kerja berkaitan bertajuk "Penjanaan Hierarki Interaksi Objek-Manusia dengan Model Kebarangkalian Penyebaran" dan diterbitkan bersama oleh Universiti Zhejiang dan Kumpulan Semut.
Mengikut pengenalan, penyelidikan ini menyelesaikan pada tahap tertentu masalah manusia digital mensintesis pergerakan kompleks pada jarak jauh, dan boleh mencapai kesan yang tidak boleh dicapai dengan model asal atau perancangan laluan. Teknologi yang berkaitan dengan pemanduan manusia digital juga telah digunakan untuk penghantaran dalam talian bagi 100 juta manusia digital dalam Sukan Asia
Pemandu AI Generatif untuk membuat manusia digital bergerak
Banyak kali, kita perlu mensintesis 3D dalam 3D tertentu adegan Pergerakan manusia membolehkan manusia maya berjalan secara semula jadi di sekitar adegan dan berinteraksi dengan objek, kesan yang mempunyai pelbagai aplikasi dalam AR/VR, penghasilan filem dan permainan video.
Di sini, kaedah penjanaan gerakan kawalan watak tradisional menyasarkan untuk menjana gerakan jangka pendek atau berulang berpandukan isyarat kawalan pengguna, manakala penyelidikan baharu memfokuskan pada penjanaan gerakan jangka panjang diberikan kedudukan permulaan dan model objek sasaran kandungan.
Walaupun idea ini lebih berkesan, ia jelas lebih mencabar. Pertama, interaksi manusia-objek harus koheren, yang memerlukan keupayaan untuk memodelkan interaksi jarak jauh antara manusia dan objek. Kedua, dalam konteks penjanaan kandungan, model generatif seharusnya dapat mensintesis gerakan dengan saiz yang berbeza, kerana terdapat pelbagai cara untuk orang sebenar mendekati dan berinteraksi dengan objek sasaran.
Dari segi kaedah menjana tindakan manusia digital, kaedah sintesis sedia ada boleh dibahagikan secara kasar kepada penjanaan dalam talian dan penjanaan luar talian. Kebanyakan kaedah dalam talian menumpukan pada kawalan masa nyata watak. Memandangkan objek sasaran, mereka biasanya menggunakan model autoregresif untuk menjana gerakan masa hadapan secara kitaran melalui ramalan maklum balas. Walaupun kaedah ini telah digunakan secara meluas dalam senario interaktif seperti permainan video, kualitinya masih tidak memuaskan untuk penjanaan jangka panjang.
Untuk meningkatkan kualiti gerakan, beberapa kaedah luar talian terkini telah mula menggunakan rangka kerja berbilang peringkat, mula-mula menjana trajektori dan kemudian mensintesis gerakan. Walaupun strategi ini boleh menghasilkan laluan yang munasabah, kepelbagaian laluan adalah terhad
Dalam kajian baharu ini, penulis mencadangkan kaedah luar talian baharu untuk mensintesis hubungan jangka panjang dan pelbagai antara orang dan objek antara. Inovasi kaedah ini terletak pada strategi penjanaan hierarki. Pertama, strategi meramalkan satu siri peristiwa penting dan kemudian menjana tindakan manusia antara peristiwa penting ini
Secara khusus, memandangkan kedudukan permulaan dan objek sasaran, pengarang mereka bentuk modul penjanaan peristiwa penting untuk mensintesis satu set nod di sepanjang trajektori gerakan, dengan setiap peristiwa penting mengekod pose tempatan dan menunjukkan titik peralihan semasa pergerakan manusia. Berdasarkan pencapaian ini, algoritma menggunakan modul penjanaan gerakan untuk menjana urutan gerakan yang lengkap. Terima kasih kepada kewujudan peristiwa penting ini, kita boleh memudahkan penjanaan jujukan panjang kepada sintesis beberapa jujukan gerakan pendek.
Pose tempatan setiap peristiwa penting dijana oleh model pengubah yang menganggap kebergantungan global untuk menghasilkan hasil yang konsisten masa, seterusnya memudahkan gerakan koheren
Selain rangka kerja penjanaan hierarki, para penyelidik menggunakan lagi model resapan kepada objek manusia Sintetik interaksi. Beberapa model resapan sintetik gerakan sebelumnya menggabungkan transformer dan model probabilistik resapan (DDPM).
Perlu dinyatakan bahawa disebabkan urutan gerakan yang panjang, penggunaannya terus pada persediaan baharu memerlukan banyak pengiraan dan boleh menyebabkan memori GPU meledak. Oleh kerana rangka kerja penjanaan hierarki baharu menukar penjanaan jangka panjang kepada sintesis berbilang jujukan pendek, memori GPU yang diperlukan dikurangkan kepada tahap yang sama seperti penjanaan gerakan jangka pendek.
Oleh itu, penyelidik boleh menggunakan Transformer DDPM dengan berkesan untuk mensintesis urutan gerakan jangka panjang, dengan itu meningkatkan kualiti penjanaan
Untuk mencapai tujuan ini, penyelidik mereka bentuk rangka kerja penjanaan hierarki, seperti yang ditunjukkan dalam rajah di bawah
Mereka menggunakan GoalNet untuk meramalkan matlamat interaksi pada objek dan kemudian menjana pose sasaran untuk memodelkan interaksi manusia-objek secara eksplisit. Seterusnya, mereka menggunakan modul penjanaan tonggak untuk menganggarkan panjang tonggak, dengan itu menjana trajektori tonggak dari titik permulaan ke sasaran, dan meletakkan pose tonggak
Dengan cara ini, penjanaan gerakan jarak jauh diuraikan menjadi satu gabungan pelbagai penjanaan gerakan jarak pendek . Akhir sekali, pengarang mereka bentuk modul penjanaan gerakan untuk mensintesis trajektori antara peristiwa penting dan mengisi tindakan.
Penjanaan Pose Kecerdasan Buatan (AI)Penyelidik merujuk kepada postur di mana seseorang berinteraksi dengan objek dan kekal tidak bergerak sebagai postur sasaran. Sebelum ini, kebanyakan kaedah menggunakan model cVAE untuk menghasilkan pose manusia, tetapi penyelidik mendapati bahawa kaedah ini berprestasi buruk dalam kajian mereka sendiri.
Untuk menangani cabaran ini, mereka menggunakan model VQ-VAE untuk memodelkan pengedaran data. Model ini menggunakan perwakilan diskret untuk mengelompokkan data ke dalam set titik terhad. Tambahan pula, berdasarkan pemerhatian, pose manusia yang berbeza mungkin mempunyai sifat yang sama. Sebagai contoh, apabila seseorang sedang duduk, pergerakan tangan mungkin berbeza, tetapi kedudukan kaki mungkin sama. Oleh itu, mereka membahagikan sendi kepada L (L = 5) kumpulan tidak bertindih yang berbeza
Mengikut pose permulaan dan pose sasaran, kita Anda boleh mempunyai algoritma menjana trajektori peristiwa penting dan mensintesis pose tempatan pada peristiwa penting. Memandangkan panjang data gerakan tidak diketahui dan boleh sewenang-wenangnya (contohnya, orang itu boleh dengan cepat berjalan ke kerusi dan duduk, atau dia mungkin perlahan-lahan berjalan di sekeliling kerusi dan kemudian duduk), adalah perlu untuk meramalkan panjangnya. daripada peristiwa penting, diwakili oleh N . Kemudian, N titik mercu tanda disintesis dan pose tempatan diletakkan pada titik ini.
Langkah terakhir ialah penjanaan tindakan Kaedah yang digunakan oleh penyelidik bukanlah untuk meramal tindakan bingkai demi bingkai, tetapi untuk mensintesis keseluruhan jujukan secara hierarki berdasarkan pencapaian yang dijana. Mereka mula-mula menjana trajektori dan kemudian mensintesis tindakan. Khususnya, dalam dua peristiwa penting berturut-turut, mereka melengkapkan trajektori terlebih dahulu. Kemudian, isikan pergerakan yang dipandu oleh gerak isyarat penting berturut-turut. Kedua-dua langkah ini dilengkapkan menggunakan dua Transformer DDPM masing-masing.
Para penyelidik akan mereka bentuk keadaan DDPM dengan teliti untuk setiap langkah untuk menjana output sasaran
Kandungan yang ditulis semula ialah: kesan daripada menerajui produk lainPara penyelidik membandingkan keputusan kaedah yang berbeza pada set data SAMP . Dapat dilihat bahawa kaedah yang dicadangkan dalam kertas kerja mempunyai FD yang lebih rendah, skor penyelidikan pengguna yang lebih tinggi dan APD yang lebih tinggi. Tambahan pula, kaedah mereka mencapai kepelbagaian trajektori yang lebih tinggi daripada SAMP.
Kaedah baru ini boleh menghasilkan hasil yang memuaskan dalam adegan yang kompleks. Peratusan bingkai penembusan yang dihasilkan oleh kaedah ini ialah 3.8%, dan SAMP ialah 4.9%
🎜Pada SAMP, COUCH dan set data lain, kaedah yang dinyatakan dalam kajian telah mencapai hasil yang lebih baik daripada kaedah garis dasar🎜Lengkapkan susun atur pautan penuh ##🎜🎜🎜##🎜🎜🎜 Manusia adalah kompleks yang mengintegrasikan teknologi pelbagai modal seperti pertuturan, semantik, dan penglihatan. Walaupun AI generatif baru-baru ini membuat penemuan, bidang manusia digital mengalami pembangunan lonjakan, interaksi generatif, rendering dan pautan lain yang sebelum ini memerlukan kerja manual kini sedang dibuat sepenuhnya
Dengan Jurutera diteruskan untuk mengoptimumkan, dan pengalaman teknologi ini pada terminal mudah alih juga semakin baik Acara lari obor Sukan Asia dalam talian yang baru sahaja tamat adalah contoh yang baik: jika kita ingin menjadi pembawa obor, kita hanya perlu mengklik pada mini. program Alipay Alipay .
Dikatakan bahawa untuk memastikan kelancaran projek majlis perasmian, jurutera Kumpulan Ant menjalankan lebih daripada 100,000 ujian ke atas ratusan model telefon bimbit yang berbeza, menaip lebih daripada 200,000 baris kod, dan lulus Gabungan enjin interaktif Web3D yang dibangunkan sendiri Galacean, manusia digital AI, perkhidmatan awan, rantaian blok dan teknologi lain memastikan semua orang boleh menjadi pembawa obor digital dan mengambil bahagian dalam geganti obor. Platform Pembawa Obor Digital Sukan Asia boleh menjangkau ratusan juta pengguna dan menyokong 97% peranti telefon pintar biasa.
Untuk membolehkan pembawa obor digital mengambil bahagian secara realistik, pasukan teknikal Ant membangunkan 58 pengawal cubit muka. Dengan menggunakan pengecaman muka dan algoritma AI, mereka boleh memetakan wajah pembawa obor digital berdasarkan ciri muka setiap orang. Pada masa yang sama, pengguna juga bebas melaraskan bentuk muka, gaya rambut, hidung, mulut, kening dan ciri-ciri lain untuk mencapai pakaian percuma. Teknologi ini boleh menyediakan 2 trilion pilihan imej digital yang berbeza
Selain itu, selepas upacara menyalakan upacara perasmian, setiap pembawa obor digital boleh menerima sijil penyalaan digital eksklusif dengan imej unik pembawa obor digital, ini sijil akan disimpan pada blockchain melalui teknologi yang diedarkan.
Tidak sukar untuk melihat daripada kandungan kertas penyelidikan dan projek Sukan Asia bahawa terdapat sistem teknologi manusia digital yang lengkap di belakangnya. Difahamkan bahawa Ant Group sedang giat meneroka teknologi manusia digital dan telah menyelesaikan susun atur penyelidikan sendiri bagi teknologi teras pautan penuh manusia digital.
Tidak seperti kebanyakan syarikat di pasaran, Ant Group telah menyelidik sendiri teknologi manusia digitalnya dan memilih arah pembangunan untuk menggabungkannya dengan AI generatif. Dari segi penggunaan teknikal, ia meliputi keseluruhan kitaran hayat pemodelan manusia digital, pemaparan, pemanduan dan interaksi Menggabungkan AIGC dan model besar dengan ketara mengurangkan kos pengeluaran pautan penuh manusia digital. Pada masa ini, ia boleh menyokong orang digital 2D dan 3D, dan menyediakan pelbagai penyelesaian seperti jenis siaran dan jenis interaktif.
Pemodelan kos rendah: Bekerjasama dengan Universiti Tsinghua untuk melancarkan model parametrik 3D wajah Asia, membina semula wajah 3D berdasarkan foto, yang lebih sesuai dengan ciri wajah Asia.
Adalah dijangka dalam masa terdekat, memandangkan manusia digital yang dikuasakan oleh AI generatif terus meningkat, kami juga akan mengalami interaksi yang lebih baik dalam lebih banyak senario, dan benar-benar memasuki kehidupan pintar yang menyepadukan data dan realiti.
Atas ialah kandungan terperinci Orang digital menyalakan obor utama Sukan Asia, dan kertas ICCV ini mendedahkan teknologi hitam AI generatif Ant. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!