


Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.
Selepas Sora, sebenarnya ada model video AI baharu, yang menakjubkan dan membuatkan semua orang sukakannya!
Gambar
Dengan itu, Gao Qiqiang, penjahat "Cepat" berubah menjadi Luo Xiang, dan dia boleh mendidik semua orang (kepala anjing).
Ini ialah rangka kerja penjanaan video potret dipacu audio terbaharu Alibaba, EMO (Emote Portrait Alive).
Dengannya, anda boleh menjana video AI dengan ekspresi yang jelas dengan memasukkan satu imej rujukan dan sekeping audio (ucapan, nyanyian atau rap). Panjang akhir video bergantung pada panjang audio input.
Anda boleh meminta Mona Lisa, peserta veteran pengalaman kesan AI, untuk membacakan monolog:
DiCaprio yang muda dan kacak melakukan persembahan bakat RAP pantas, dan bentuk mulutnya tidak dapat dikekalkan. sama sekali. Soalan:
saya pun boleh tahan penyegerakan bibir Kantonis, jadi saya minta abang saya Leslie Cheung menyanyikan lagu "Tanpa Syarat" Eason Chan:
Pendek kata, sama ada membiarkan potret itu menyanyi (gaya potret dan lagu yang berbeza), Biarkan potret bercakap (dalam bahasa berbeza), atau melakukan pelbagai persembahan silang pelakon Kesan EMO membuatkan kami terpegun seketika.
Netizen berseru: "Kami memasuki realiti baharu!"
Versi 2019 "Joker" berkata barisan versi 2008 "The Dark Knight"
Sesetengah netizen telah mula menjana video EMO Tarik tab dan analisa kesan bingkai demi bingkai.
Seperti yang ditunjukkan dalam video di bawah, protagonis adalah wanita AI yang dijana oleh Sora Lagu yang dia nyanyikan untuk anda kali ini ialah "Jangan Mulakan Sekarang".
Tweeters dianalisis:
Konsistensi video ini lebih baik daripada sebelumnya!
Dalam video lebih daripada satu minit, cermin mata hitam di muka Cik Sora hampir tidak bergerak, dan telinga serta keningnya bergerak secara bebas.
Perkara yang paling mengujakan ialah tekak Cik Sora nampaknya benar-benar bernafas! Tubuhnya menggeletar dan bergerak sedikit semasa menyanyi, yang mengejutkan saya!
Pictures
Setelah berkata, EMO adalah teknologi baharu yang hangat, dan tidak dapat dielakkan untuk membandingkannya dengan produk yang serupa -
Baru semalam, syarikat penjanaan video AI Pika turut melancarkan alih suara video aksara, dan ciri penyegerakan bibir "penyegerakan bibir", ranap.
Bagaimana dengan kesan spesifiknya kami akan letak di sini terus
Selepas perbandingan, netizen di ruangan komen membuat kesimpulan bahawa mereka dipukul oleh Ali.
Pictures
EMO mengeluarkan kertas itu dan mengumumkan ia adalah sumber terbuka.
Tetapi! Walaupun ia adalah sumber terbuka, masih terdapat kedudukan pendek pada GitHub.
Tetapi sekali lagi! Walaupun ia adalah kedudukan pendek, bilangan bintang telah melebihi 2.1k.
Gambar
membuatkan netizen benar-benar cemas, cemas seperti Raja Gigi.
Senibina yang berbeza dari Sora
Sebaik sahaja kertas EMO keluar, ramai orang dalam bulatan itu menarik nafas lega.
Ia berbeza daripada laluan teknikal Sora, yang menunjukkan bahawa menyalin Sora bukan satu-satunya cara.
EMO tidak berdasarkan seni bina seperti DiT, iaitu, ia tidak menggunakan Transformer untuk menggantikan rangkaian tulang belakangnya yang diubah suai daripada Stable Diffusion 1.5.
Secara khusus, EMO ialah rangka kerja penjanaan video potret dipacu audio ekspresif yang boleh menjana video dalam sebarang tempoh berdasarkan panjang video input. .
Peringkat resapan
- Selain itu, modul masa digunakan untuk memanipulasi dimensi masa dan melaraskan kelajuan pergerakan.
- Boleh menjana video dalam mana-mana tempoh berdasarkan audio input sambil memastikan konsistensi identiti watak (video tunggal terpanjang yang diberikan dalam demonstrasi ialah 1 minit dan 49 saat).
Menyokong bercakap dan menyanyi dalam pelbagai bahasa (demo termasuk Mandarin, Kantonis, Inggeris, Jepun, Korea)
Menyokong gaya lukisan yang berbeza (foto, lukisan tradisional, komik, rendering 3D, orang digital AI)
Gambar
- Perbandingan kuantitatif juga bertambah baik berbanding kaedah sebelumnya, mencapai SOTA, dan hanya lebih rendah sedikit daripada penunjuk SyncNet yang mengukur kualiti penyegerakan bibir.
- Gambar
Dan memandangkan tiada isyarat kawalan eksplisit digunakan, yang mungkin membawa kepada penghasilan bahagian badan lain yang tidak disengajakan seperti tangan, penyelesaian yang berpotensi adalah menggunakan isyarat kawalan khusus untuk bahagian badan. Pasukan EMO
Akhir sekali, mari kita lihat orang dalam pasukan di belakang EMO.
Kertas menunjukkan bahawa pasukan EMO berasal dari Institut Penyelidikan Pengkomputeran Pintar Alibaba. Terdapat empat pengarang iaitu Linrui Tian, Qi Wang, Bang Zhang dan Liefeng Bo.
Antaranya, Liefeng Bo ialah ketua makmal XR Makmal Alibaba Tongyi sekarang.
Dr. Bo Liefeng lulus dari Universiti Sains dan Teknologi Elektronik Xi'an Beliau telah terlibat dalam penyelidikan pasca doktoral di Toyota Research Institute of the University of Chicago dan University of Washington. Petikan Google Scholarnya melebihi 13,000.
Sebelum menyertai Alibaba, beliau mula-mula berkhidmat sebagai ketua saintis di ibu pejabat Amazon di Seattle, dan kemudian menyertai makmal AI JD Digital Technology Group sebagai ketua saintis.
Pada September 2022, Bo Liefeng menyertai Alibaba.
Pictures
EMO bukanlah kali pertama Alibaba mencapai kejayaan dalam bidang AIGC.
Gambar
OutfitSesiapa sahaja dengan AI menukar pakaian satu klik.Gambar
Ini adalah yang di bawah:
Gambar
Jika semua teknologi ini digabungkan sekarang, kesannya... Saya tidak berani memikirkannya, tetapi saya menantikannya. Ringkasnya, kami semakin hampir untuk "menghantar skrip kepada AI dan mengeluarkan keseluruhan filem". Sora, mewakili satu kejayaan dalam sintesis video dipacu teks. EMO juga mewakili tahap baharu sintesis video dipacu audio. Walaupun kedua-duanya mempunyai tugas dan seni bina khusus yang berbeza, mereka masih mempunyai satu persamaan penting: Tiada model fizikal eksplisit di tengah, tetapi kedua-duanya mensimulasikan undang-undang fizikal pada tahap tertentu. Jadi sesetengah orang berpendapat bahawa ini bertentangan dengan desakan Lecun bahawa "memodelkan dunia untuk tindakan dengan menjana piksel adalah membazir dan ditakdirkan untuk gagal", dan menyokong idea "model dunia dipacu data" Jim Fan. Pelbagai kaedah telah gagal pada masa lalu, tetapi kejayaan semasa mungkin benar-benar datang dari "Pelajaran Pahit" yang ditulis oleh Sutton, bapa pembelajaran pengukuhan, di mana usaha yang hebat boleh menghasilkan keajaiban. Dayakan AI menemui seperti orang, bukannya mengandungi perkara yang orang temui Kemajuan terobosan akhirnya dicapai dengan mengembangkan skala pengkomputeran Kertas: https://www.php.cn/link/a717f6b706f9c41b706f9c41b706f itHub :https://www.php.cn/link/e43a09ffc30b44cb1f0db46f87836f40Sekarang EMO dilancarkan, ramai netizen mengeluh bahawa Alibaba telah mengumpulkan beberapa teknologi padanya.
Gambar
Pictures
Pictures
One More Thing
Gambar
Atas ialah kandungan terperinci Video AI meletup lagi! Foto + suara bertukar menjadi video, Alibaba meminta heroin Sora menyanyi dan rap bersama Li Zi.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Menggunakan fail font yang dipasang di laman web baru -baru ini, saya memuat turun fon percuma dari internet dan berjaya memasangnya ke dalam sistem saya. Sekarang ...

Halaman H5 perlu dikekalkan secara berterusan, kerana faktor -faktor seperti kelemahan kod, keserasian pelayar, pengoptimuman prestasi, kemas kini keselamatan dan peningkatan pengalaman pengguna. Kaedah penyelenggaraan yang berkesan termasuk mewujudkan sistem ujian lengkap, menggunakan alat kawalan versi, kerap memantau prestasi halaman, mengumpul maklum balas pengguna dan merumuskan pelan penyelenggaraan.

Sumber utama bahan halaman H5 adalah: 1. Laman web bahan profesional (berbayar, berkualiti tinggi, hak cipta yang jelas); 2. Bahan buatan sendiri (keunikan yang tinggi, tetapi memakan masa); 3. Perpustakaan Bahan Sumber Terbuka (percuma, perlu ditapis dengan teliti); 4. Laman web gambar/video (disahkan hak cipta diperlukan). Di samping itu, gaya bahan bersatu, penyesuaian saiz, pemprosesan mampatan, dan perlindungan hak cipta adalah perkara utama yang perlu diberi perhatian.

Apabila bilangan elemen tidak ditetapkan, bagaimana untuk memilih elemen anak pertama nama kelas yang ditentukan melalui CSS. Semasa memproses struktur HTML, anda sering menghadapi unsur yang berbeza ...

Melaksanakan susun atur responsif menggunakan CSS apabila kami ingin melaksanakan perubahan susun atur di bawah saiz skrin yang berbeza dalam reka bentuk web, CSS ...

Mengapa margin negatif tidak berkuatkuasa dalam beberapa kes? Semasa pengaturcaraan, margin negatif dalam CSS (negatif ...

H5 (HTML5) sesuai untuk aplikasi ringan, seperti halaman kempen pemasaran, halaman paparan produk dan promosi korporat mikro. Kelebihannya terletak pada platformiti silang dan interaktiviti yang kaya, tetapi batasannya terletak pada interaksi dan animasi yang kompleks, akses sumber tempatan dan keupayaan luar talian.

Melaksanakan kesan paparan secara beransur -ansur memendekkan teks dalam reka bentuk web, bagaimana untuk mencapai kesan paparan teks khas untuk menjadikan panjang teks secara beransur -ansur memendekkan? Kesan ini ...
