Alibaba Cloud mengumumkan pelancaran model EMO yang dibangunkan sendiri pada Apl Tongyi, yang menggunakan foto + audio untuk menjana video nyanyian-industri IT-php.cn

Alibaba Cloud mengumumkan pelancaran model EMO yang dibangunkan sendiri pada Apl Tongyi, yang menggunakan foto + audio untuk menjana video nyanyian

王林

Lepaskan： 2024-04-26 08:00:38

ke hadapan

1115 orang telah melayarinya

"Berita dari tapak ini pada 25 April, EMO (Emote Portrait Alive) ialah rangka kerja yang dibangunkan oleh Institut Penyelidikan Pengkomputeran Pintar Kumpulan Alibaba, sistem penjanaan video potret AI dipacu audio yang boleh memasukkan satu imej rujukan dan audio suara , menjana video dengan ekspresi muka ekspresif dan pelbagai postur kepala.”

Alibaba Cloud hari ini mengumumkan bahawa EMO, model AI yang dibangunkan melalui makmal, dilancarkan secara rasmi pada apl umum dan terbuka kepada semua pengguna secara percuma. Dengan fungsi ini, pengguna boleh memilih templat daripada lagu, meme hangat dan emotikon, dan kemudian memuat naik foto potret untuk membolehkan EMO mensintesis video nyanyian.

Menurut pengenalan, Tongyi App telah melancarkan lebih daripada 80 templat EMO dalam kumpulan pertama, termasuk lagu popular "Shangchunshan", "Wild Wolf Disco", dll., serta meme hangat Internet "Bobo Chicken" dan "Backhand" "Draw" dsb., tetapi audio tersuai tidak tersedia buat masa ini.

Laman web ini dilampirkan pada laman web rasmi EMO:

Laman utama projek rasmi: https://humanaigc.github.io/emote-portrait-alive/
kertas penyelidikan: arXiv /arxiv.org/abs/2402.17485
GitHub:https://github.com/HumanAIGC/EMO(Model dan kod sumber menjadi sumber terbuka)

EMO
Jana Video dengan Audio EMO: EMO mampu menjana video terus daripada audio input, seperti dialog atau lagu, tanpa bergantung pada klip video prarakam atau model muka 3D.
Sangat ekspresif dan realistik: Video yang dijana EMO sangat ekspresif, mampu menangkap dan menghasilkan semula nuansa ekspresi muka manusia, termasuk ekspresi mikro halus dan pergerakan kepala yang sepadan dengan irama audio.
Peralihan bingkai yang lancar: EMO memastikan peralihan antara bingkai video adalah semula jadi dan lancar, mengelakkan masalah herotan muka atau kegelisahan antara bingkai, sekali gus meningkatkan kualiti keseluruhan video.
Pemeliharaan identiti: Melalui modul FrameEncoding, EMO dapat mengekalkan konsistensi identiti watak semasa proses penjanaan video, memastikan penampilan watak konsisten dengan imej rujukan input.
Mekanisme kawalan stabil: EMO menggunakan mekanisme kawalan yang stabil seperti pengawal kelajuan dan pengawal kawasan muka untuk meningkatkan kestabilan semasa penjanaan video dan mengelakkan masalah seperti ranap video.
Tempoh video yang fleksibel: EMO boleh menjana video dalam sebarang panjang berdasarkan panjang audio input, memberikan pengguna ruang kreatif yang fleksibel.

Silang bahasa dan gaya silang: Set data latihan EMO merangkumi pelbagai bahasa dan gaya, termasuk bahasa Cina dan Inggeris, serta gaya realisme, anime dan 3D, yang membolehkan EMO menyesuaikan diri dengan budaya dan gaya artistik. 🎜🎜🎜

Atas ialah kandungan terperinci Alibaba Cloud mengumumkan pelancaran model EMO yang dibangunkan sendiri pada Apl Tongyi, yang menggunakan foto + audio untuk menjana video nyanyian. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!