Selepas Sora, sebenarnya ada model video AI baharu, yang menakjubkan dan membuatkan semua orang sukakannya!
Gambar
Dengan itu, Gao Qiqiang, penjahat "Cepat" berubah menjadi Luo Xiang, dan dia boleh mendidik semua orang (kepala anjing).
Ini ialah rangka kerja penjanaan video potret dipacu audio terbaharu Alibaba, EMO (Emote Portrait Alive).
Dengannya, anda boleh menjana video AI dengan ekspresi yang jelas dengan memasukkan satu imej rujukan dan sekeping audio (ucapan, nyanyian atau rap). Panjang akhir video bergantung pada panjang audio input.
Anda boleh meminta Mona Lisa, peserta veteran pengalaman kesan AI, untuk membacakan monolog:
DiCaprio yang muda dan kacak melakukan persembahan bakat RAP pantas, dan bentuk mulutnya tidak dapat dikekalkan. sama sekali. Soalan:
saya pun boleh tahan penyegerakan bibir Kantonis, jadi saya minta abang saya Leslie Cheung menyanyikan lagu "Tanpa Syarat" Eason Chan:
Pendek kata, sama ada membiarkan potret itu menyanyi (gaya potret dan lagu yang berbeza), Biarkan potret bercakap (dalam bahasa berbeza), atau melakukan pelbagai persembahan silang pelakon Kesan EMO membuatkan kami terpegun seketika.
Netizen berseru: "Kami memasuki realiti baharu!"
Versi 2019 "Joker" berkata barisan versi 2008 "The Dark Knight"
Sesetengah netizen telah mula menjana video EMO Tarik tab dan analisa kesan bingkai demi bingkai.
Seperti yang ditunjukkan dalam video di bawah, protagonis adalah wanita AI yang dijana oleh Sora Lagu yang dia nyanyikan untuk anda kali ini ialah "Jangan Mulakan Sekarang".
Tweeters dianalisis:
Konsistensi video ini lebih baik daripada sebelumnya!
Dalam video lebih daripada satu minit, cermin mata hitam di muka Cik Sora hampir tidak bergerak, dan telinga serta keningnya bergerak secara bebas.
Perkara yang paling mengujakan ialah tekak Cik Sora nampaknya benar-benar bernafas! Tubuhnya menggeletar dan bergerak sedikit semasa menyanyi, yang mengejutkan saya!
Pictures
Setelah berkata, EMO adalah teknologi baharu yang hangat, dan tidak dapat dielakkan untuk membandingkannya dengan produk yang serupa -
Baru semalam, syarikat penjanaan video AI Pika turut melancarkan alih suara video aksara, dan ciri penyegerakan bibir "penyegerakan bibir", ranap.
Bagaimana dengan kesan spesifiknya kami akan letak di sini terus
Selepas perbandingan, netizen di ruangan komen membuat kesimpulan bahawa mereka dipukul oleh Ali.
Pictures
EMO mengeluarkan kertas itu dan mengumumkan ia adalah sumber terbuka.
Tetapi! Walaupun ia adalah sumber terbuka, masih terdapat kedudukan pendek pada GitHub.
Tetapi sekali lagi! Walaupun ia adalah kedudukan pendek, bilangan bintang telah melebihi 2.1k.
Gambar
membuatkan netizen benar-benar cemas, cemas seperti Raja Gigi.
Sebaik sahaja kertas EMO keluar, ramai orang dalam bulatan itu menarik nafas lega.
Ia berbeza daripada laluan teknikal Sora, yang menunjukkan bahawa menyalin Sora bukan satu-satunya cara.
EMO tidak berdasarkan seni bina seperti DiT, iaitu, ia tidak menggunakan Transformer untuk menggantikan rangkaian tulang belakangnya yang diubah suai daripada Stable Diffusion 1.5.
Secara khusus, EMO ialah rangka kerja penjanaan video potret dipacu audio ekspresif yang boleh menjana video dalam sebarang tempoh berdasarkan panjang video input. .
Peringkat resapan
Pertama, pengekod audio pra-latihan memproses pembenaman audio, dan topeng kawasan muka digabungkan dengan hingar berbilang bingkai untuk mengawal penjanaan imej muka. Kemudian rangkaian tulang belakang mengetuai operasi denoising. Dua jenis perhatian digunakan dalam rangkaian tulang belakang, perhatian rujukan dan perhatian audio, yang berfungsi untuk mengekalkan konsistensi identiti watak dan mengawal pergerakan watak masing-masing.Menyokong bercakap dan menyanyi dalam pelbagai bahasa (demo termasuk Mandarin, Kantonis, Inggeris, Jepun, Korea)
Menyokong gaya lukisan yang berbeza (foto, lukisan tradisional, komik, rendering 3D, orang digital AI)
Gambar
Dan memandangkan tiada isyarat kawalan eksplisit digunakan, yang mungkin membawa kepada penghasilan bahagian badan lain yang tidak disengajakan seperti tangan, penyelesaian yang berpotensi adalah menggunakan isyarat kawalan khusus untuk bahagian badan. Pasukan EMO
Akhir sekali, mari kita lihat orang dalam pasukan di belakang EMO.
Kertas menunjukkan bahawa pasukan EMO berasal dari Institut Penyelidikan Pengkomputeran Pintar Alibaba. Terdapat empat pengarang iaitu Linrui Tian, Qi Wang, Bang Zhang dan Liefeng Bo.
GambarDr. Bo Liefeng lulus dari Universiti Sains dan Teknologi Elektronik Xi'an Beliau telah terlibat dalam penyelidikan pasca doktoral di Toyota Research Institute of the University of Chicago dan University of Washington. Petikan Google Scholarnya melebihi 13,000.
Sebelum menyertai Alibaba, beliau mula-mula berkhidmat sebagai ketua saintis di ibu pejabat Amazon di Seattle, dan kemudian menyertai makmal AI JD Digital Technology Group sebagai ketua saintis.
Pada September 2022, Bo Liefeng menyertai Alibaba.
Pictures
EMO bukanlah kali pertama Alibaba mencapai kejayaan dalam bidang AIGC.
Gambar
OutfitSesiapa sahaja dengan AI menukar pakaian satu klik.Gambar
Selain itu, AnimateAnyone membuat kucing dan anjing di seluruh dunia menari tarian mandi.Ini adalah yang di bawah:
Gambar
Sekarang EMO dilancarkan, ramai netizen mengeluh bahawa Alibaba telah mengumpulkan beberapa teknologi padanya. Gambar Jika semua teknologi ini digabungkan sekarang, kesannya... Saya tidak berani memikirkannya, tetapi saya menantikannya. Pictures Ringkasnya, kami semakin hampir untuk "menghantar skrip kepada AI dan mengeluarkan keseluruhan filem". Pictures Sora, mewakili satu kejayaan dalam sintesis video dipacu teks. EMO juga mewakili tahap baharu sintesis video dipacu audio. Walaupun kedua-duanya mempunyai tugas dan seni bina khusus yang berbeza, mereka masih mempunyai satu persamaan penting: Tiada model fizikal eksplisit di tengah, tetapi kedua-duanya mensimulasikan undang-undang fizikal pada tahap tertentu. Jadi sesetengah orang berpendapat bahawa ini bertentangan dengan desakan Lecun bahawa "memodelkan dunia untuk tindakan dengan menjana piksel adalah membazir dan ditakdirkan untuk gagal", dan menyokong idea "model dunia dipacu data" Jim Fan. Gambar Pelbagai kaedah telah gagal pada masa lalu, tetapi kejayaan semasa mungkin benar-benar datang dari "Pelajaran Pahit" yang ditulis oleh Sutton, bapa pembelajaran pengukuhan, di mana usaha yang hebat boleh menghasilkan keajaiban. Dayakan AI menemui seperti orang, bukannya mengandungi perkara yang orang temui Kemajuan terobosan akhirnya dicapai dengan mengembangkan skala pengkomputeran Kertas: https://www.php.cn/link/a717f6b706f9c41b706f9c41b706f itHub :https://www.php.cn/link/e43a09ffc30b44cb1f0db46f87836f40One More Thing
Atas ialah kandungan terperinci Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!