Rumah > Peranti teknologi > AI > Versi Kuaishou Sora 'Ke Ling' dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat

Versi Kuaishou Sora 'Ke Ling' dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat

WBOY
Lepaskan: 2024-06-11 09:51:48
asal
702 orang telah melayarinya

Apa? Adakah Zootopia dibawa menjadi realiti oleh AI domestik?

Versi Kuaishou Sora Ke Ling dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat

Didedahkan bersama-sama dengan video ialah model penjanaan video domestik berskala besar baharu yang dipanggil "Keling".

Sora menggunakan laluan teknikal yang serupa dan menggabungkan beberapa inovasi teknologi yang dibangunkan sendiri untuk menghasilkan video yang bukan sahaja mempunyai pergerakan yang besar dan munasabah, tetapi juga mensimulasikan ciri-ciri dunia fizikal, dan mempunyai keupayaan gabungan konsep dan imaginasi yang kuat.

Menurut data, Keling menyokong penjanaan video ultra panjang sehingga 2 minit30fps, dengan resolusi sehingga 1080ps sokongan nisbah berbilang.

Versi Kuaishou Sora Ke Ling dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat

Satu lagi perkara penting ialah Keling bukanlah demo atau demonstrasi hasil video yang dikeluarkan oleh makmal, tetapi aplikasi peringkat produk yang dilancarkan oleh Kuaishou, pemain terkemuka dalam bidang video pendek.

Dan perkara utama adalah pragmatik, bukan untuk menulis cek kosong, untuk dilancarkan segera, model besar Ke Ling telah membuka ujian jemputan secara rasmi di Aplikasi Kuaiying.

Tanpa berlengah lagi, izinkan saya tunjukkan karya agung Ke Ling kepada anda~

Dia lebih memahami undang-undang dunia dan dapat menggambarkan pergerakan yang kompleks dengan tepat

Saya percaya melalui video pembukaan, semua orang sudah merasakan imaginasi Ke Ling yang kaya.

Keling bukan sahaja berimaginasi dan tidak terikat, tetapi juga mematuhi undang-undang gerakan sebenar apabila menggambarkan gerakan Gerakan ruang-masa yang kompleks dan berskala besar juga boleh digambarkan dengan tepat.

Sebagai contoh, harimau ini berlari pada kelajuan tinggi di atas jalan raya bukan sahaja mempunyai gambar yang koheren, perubahan yang munasabah dalam sudut kamera, dan pergerakan anggota badan harimau yang selaras, tetapi juga memaparkan dengan jelas goncangan belalai semasa berlari.

Versi Kuaishou Sora Ke Ling dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat

Ada juga adegan angkasawan berlari di bulan Pergerakannya lancar, pergerakan bayang-bayangnya munasabah dan sesuai, memang menakjubkan.

Versi Kuaishou Sora Ke Ling dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat

Selain pergerakan, model besar Keling juga boleh mensimulasikan ciri-ciri dunia fizikal sebenar, dan video yang dihasilkan lebih menepati undang-undang fizik.

Dalam video menuang susu ini, hukum graviti mekanikal dan kenaikan paras cecair semuanya sesuai dengan realiti malah ciri buih sentiasa berada di atas ketika menuang cecair juga diambil menjadi pertimbangan:

Versi Kuaishou Sora Ke Ling dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat

Juga. Undang-undang pantulan optik juga diambil kira. Perhatikan kucing yang bermain piano badan utama.

Versi Kuaishou Sora Ke Ling dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepatSelain itu, interaksi antara

dan dunia fizikal sebenar juga benar-benar boleh dicerminkan - dalam video yang dihasilkan anak kecil makan burger dalam video di bawah, kesan gigi sentiasa ada selepas satu gigit, dan budak kecil itu menikmati makan Proses menikmati burger itu seolah-olah berlaku di hadapan mata anda.

Versi Kuaishou Sora Ke Ling dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepatAnda mesti tahu bahawa mematuhi undang-undang fizik masih agak sukar untuk model besar, malah Sora tidak boleh melakukannya sepenuhnya.

Sebagai contoh, dalam adegan makan burger yang sama, video yang dihasilkan oleh Sora bukan sahaja mempunyai kelemahan iaitu tangan manusia hanya mempunyai tiga jari, malah kedudukan gigitan tidak sepadan dengan kesan gigitan pada burger tersebut...

Versi Kuaishou Sora Ke Ling dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepatBukan sahaja di dunia nyata Undang-undang fizik dan gerakan, dan adegan

imaginasi, boleh difahami dengan mudah oleh Ke Ling. Sebagai contoh, arnab berkaca mata ini sedang minum kopi dan membaca surat khabar, santai dan puas.

Versi Kuaishou Sora Ke Ling dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat

Pada masa yang sama, gambaran perincian Ke Ling juga sangat bagus, seperti dua kuntum bunga yang mekar perlahan-lahan, anda boleh melihat butiran kelopak dan stamen.

Versi Kuaishou Sora Ke Ling dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat

Selain itu, Keling bukan sahaja menghasilkan video yang lebih realistik, tetapi juga menjana video dengan resolusi sehingga 1080p, tempoh sehingga 2 minit (kadar bingkai 30fps), dan menyokong nisbah aspek percuma.

Versi Kuaishou Sora Ke Ling dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat

Ia juga termasuk video menegak, yang boleh dikatakan agak konsisten dengan ekosistem video pendek Kuaishou.

Dalam gambar, sebuah kereta api sedang memandu ke hadapan, dan pemandangan di luar tingkap melalui empat musim musim bunga, musim panas, musim luruh dan musim sejuk Keseluruhan lebih daripada dua minit gambar itu sangat koheren. . tonton lebih banyak video AI ajaib!

(Nota: Video dalam artikel ini dimampatkan, dan definisi tinggi serta kesan terkini tertakluk kepada laman web rasmi)Versi Kuaishou Sora Ke Ling dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat

Jadi apakah teknologi unik yang digunakan di sebalik video Keling ini? native Video Generation Technology Route

On the Whole, model besar Keling mengamalkan native Wensheng Video Technology Route

, menggantikan gabungan Generasi Imej + Modul Masa. Ia mempunyai kecekapan tinggi dan boleh mengendalikan rahsia teras pergerakan kompleks dengan tepat.

Secara khusus, Pasukan Model Besar Kuaishou percaya bahawa model penjanaan video yang cemerlang perlu mempertimbangkan empat elemen teras -

Reka bentuk model, jaminan data, kecekapan pengkomputeran dan pengembangan keupayaan model. . kapasiti parameter.

Dari segi pemilihan seni bina, rangka kerja keseluruhan Keling menggunakan struktur

DiT seperti Sora, dan menggunakan Transformer untuk menggantikan U-Net berdasarkan rangkaian konvolusi dalam model penyebaran tradisional.

Transformer mempunyai keupayaan pemprosesan dan penjanaan yang lebih berkuasa, keupayaan pengembangan yang lebih kukuh, dan kecekapan penumpuan yang lebih baik, yang menyelesaikan batasan U-Net dengan lebihan dan ketidakserasian yang berlebihan antara medan penerimaan dan ketepatan kedudukan semasa memproses tugas yang kompleks.

Atas dasar ini, pasukan model besar Kuaishou turut menaik taraf

pengekodan/penyahkodan ruang tersembunyi, pemodelan masa dan modul lain dalam model. Pada masa ini, dalam pengekodan/penyahkodan ruang terpendam, model penjanaan video arus perdana biasanya menggunakan VAE 2D Stable Diffusion untuk pemampatan spatial, tetapi ini mempunyai lebihan maklumat yang jelas untuk video. Oleh itu, pasukan model besar Kuaishou telah membangunkan sendiri rangkaian

3D VAE

untuk mencapai pemampatan segerak ruang dan masa, memperoleh kualiti pembinaan semula yang lebih tinggi, dan mencapai keseimbangan terbaik antara prestasi dan kesan latihan. Selain itu, dari segi pemodelan maklumat temporal, pasukan model besar Kuaishou telah mereka bentuk

mekanisme perhatian penuh yang cekap dari segi pengiraan

(Perhatian 3D) sebagai modul pemodelan spatio-temporal. Kaedah ini boleh memodelkan gerakan spatio-temporal yang kompleks dengan lebih tepat, sambil mengambil kira kos pengiraan, dengan berkesan meningkatkan keupayaan pemodelan model.

Sudah tentu, sebagai tambahan kepada keupayaan model itu sendiri, teks gesaan input oleh pengguna juga mempunyai kesan penting pada kesan yang dihasilkan akhir.

Untuk tujuan ini, pasukan telah mereka bentuk khas

model bahasa khusus, yang boleh melakukan pengembangan berkualiti tinggi dan pengoptimuman input perkataan pantas oleh pengguna.

Bagaimanakah data dibina? Penyelesaian penapisan data berkualiti tinggi yang dibina sendiri

Selepas bercakap tentang reka bentuk model, data juga penting untuk prestasi model. Malah, skala dan kualiti data latihan yang tidak mencukupi juga merupakan masalah perit yang dihadapi oleh ramai pembangun model penjanaan video. Video dalam talian umumnya berkualiti rendah dan sukar untuk memenuhi keperluan latihan. Pasukan model besar Kuaishou telah membina sistem tag

yang agak lengkap

, yang boleh memperhalusi data latihan atau melaraskan pengedaran data latihan.

Sistem ini mencirikan kualiti data video daripada pelbagai dimensi seperti kualiti video asas, estetika dan keaslian, dan mereka bentuk pelbagai ciri label tersuai untuk setiap dimensi.

Apabila melatih model penjanaan video, anda perlu menyuapkan video dan penerangan teks yang sepadan kepada model pada masa yang sama. Kualiti video itu sendiri juga terjamin. Bagaimana untuk mendapatkan penerangan teks yang sepadan?

Pasukan pembangunan membangunkan khas model penerangan video, yang boleh menjana penerangan video yang tepat, terperinci dan berstruktur. Meningkatkan dengan ketara responsif arahan teks model penjanaan video.

Walaupun model itu sangat berbakat, ia tidak boleh dipisahkan daripada kerja keras dan latihan

Sekarang model dan data tersedia, kecekapan pengkomputeran juga mesti bersaing Hanya dengan cara ini kita boleh melengkapkan latihan mengenai data besar-besaran masa yang terhad dan melihat kesan yang ketara.

Untuk mendapatkan kecekapan pengkomputeran yang lebih tinggi, Model Besar Keling tidak menggunakan penyelesaian DDPM arus perdana semasa dalam industri, tetapi menggunakan model aliran dengan laluan penghantaran yang lebih pendeksebagai asas model resapan.

Dari perspektif lain, kekurangan kuasa pengkomputeran juga merupakan masalah yang dihadapi oleh ramai pengamal AI Malah gergasi model besar seperti OpenAI mempunyai sumber kuasa pengkomputeran yang juga kekurangan bekalan.

Masalah ini mungkin tidak dapat diselesaikan sepenuhnya dalam masa yang singkat, tetapi apa yang boleh dilakukan ialah meningkatkan kecekapan kuasa pengkomputeran sebanyak mungkin di bawah syarat sumber perkakasan keseluruhan yang terhad.

Pasukan model besar Kuaishou menggunakan kelompok latihan yang diedarkan, dan melalui pengoptimuman operator, pengoptimuman strategi pengiraan semula dan cara lain, ia telah meningkatkan penggunaan perkakasan model besar Keling.

Semasa proses latihan, Keling tidak memilih untuk melakukannya dengan betul dalam satu langkah, tetapi mengamalkan latihan berperingkatstrategi untuk meningkatkan resolusi secara beransur-ansur:

Pada peringkat awal resolusi rendah, perkara utama adalah untuk menang mengikut kuantiti. Data meningkatkan pemahaman model dan keupayaan pemodelan kepelbagaian konsep

Dalam peringkat resolusi tinggi seterusnya, kualiti data mula menjadi pertimbangan yang lebih penting, dengan tujuan untuk meningkatkan lagi prestasi model dan meningkatkan prestasi secara terperinci.

Mengguna pakai strategi sedemikian dengan berkesan menggabungkan kelebihan kuantiti dan kualiti, memastikan model itu boleh dioptimumkan dan dipertingkatkan pada semua peringkat latihan.

Permintaan sentiasa berubah, dan modelnya boleh disesuaikan

Di samping penyelidikan dan pembangunan model asas, pasukan model besar Kuaishou juga telah mengembangkan keupayaannya daripada pelbagai dimensi seperti nisbah aspek.

Dari segi nisbah aspek, Keling juga tidak menggunakan model arus perdana untuk berlatih pada resolusi tetap.

Oleh kerana kaedah tradisional biasanya memperkenalkan logik pra-pemprosesan apabila menghadapi data sebenar dengan nisbah aspek yang berubah-ubah, memusnahkan komposisi data asal, mengakibatkan komposisi hasil yang dihasilkan tidak baik.

Sebaliknya, penyelesaian Pasukan Model Besar Kuaishou membolehkan model memproses secara langsung data nisbah aspek yang berbeza, memelihara komposisi data asal.

Untuk menampung permintaan penjanaan video selama beberapa minit atau lebih lama lagi pada masa hadapan, pasukan itu juga telah membangunkan penyelesaian pengembangan pemasaan video berdasarkan autoregresi tanpa kemerosotan kesan yang jelas.

Selain input teks, Keling juga menyokong pelbagai input maklumat kawalan, seperti pergerakan kamera, kadar bingkai, tepi/titik utama/kedalaman, dll., menyediakan pengguna dengan keupayaan kawalan kandungan yang kaya.

Jangan jadikan "kek dicat" model besar, aplikasi adalah perkataan terakhir

Industri model besar telah "bergulung" sehingga hari ini, kami telah menyaksikan terlalu banyak detik kemuncak teknologi, tetapi niat asal kejayaan teknologi masih permohonan.

Model penjanaan video Kuaishou Keling dilahirkan dari pengeluar video pendek terkemuka dan terus diterokai untuk aplikasi. Perlu dinyatakan bahawa model besar Ke Ling dalam talian sebaik sahaja dikeluarkan, tanpa sebarang masalah! Jangan lukis kek! Jangan lukis kek!

Model video Wensheng Keling telah dibuka secara rasmi untuk ujian beta dalam Kuaiying APP Versi yang sedang dibuka menyokong penjanaan video 720P, dan keupayaan penjanaan video menegak juga akan tersedia tidak lama lagi.

Versi Kuaishou Sora Ke Ling dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat

Selain Video Wensheng, Kuaishou juga telah melancarkan aplikasi lain berdasarkan model besar Keling, seperti "AI Dance King"telah dilancarkan di Kuaishou dan APP Kuaiying.

Sama ada subjek tiga atau dua, selagi anda memuat naik foto seluruh badan, watak-watak boleh menari dengan anggun mengikut muzik dalam beberapa minit, malah pahlawan dan kuda terakota boleh menari dalam gaya etnik yang paling mempesonakan.

Versi Kuaishou Sora Ke Ling dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat

Selain modul penjanaan video, pasukan model besar Kuaishou juga telah menambah teknologi pembinaan semula muka 3D yang dibangunkan sendiri, serta modul penstabilan latar belakang dan pengalihan untuk memaparkan ekspresi dan kesan pergerakan dengan lebih jelas.

Selain itu, teknologi "AI menyanyi dan menari" yang lebih baharu juga telah membuat penampilan sulungnya, yang membolehkan watak membuka mulut dan menyanyi sambil menari.

Satu lagi spoiler, fungsi Tusheng Video berdasarkan model Keling juga akan tersedia kepada pengguna dalam masa terdekat.

Malah, sebagai pengeluar video terkemuka, Kuaishou juga bergerak pantas di tengah-tengah kegilaan model besar Ia sebelum ini telah melancarkan model bahasa dan model graf Vincentian.

Berdasarkan model ini, copywriting AI, gambar yang dijana AI, video yang dijana AI dan lebih banyak fungsi penciptaan AI telah dilancarkan dalam APP Kuaishou dan Kuaiying.

Versi Kuaishou Sora Ke Ling dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat

Dari segi penjanaan video, Kuaishou juga telah bergabung tenaga dengan banyak universiti atau institusi penyelidikan saintifik untuk mengeluarkan berturut-turut algoritma penjanaan video gerakan terkawal Direct-a-Video, algoritma penjanaan pelbagai mod Video-LaVIT, dan Algoritma video Tusheng Teknologi utama seperti I2V-Adapter dan model penilaian estetik pelbagai mod UNIAA telah mengumpul pengumpulan teknikal yang mendalam untuk model Keling.

Kini, fungsi video Wensheng Kuaishou yang lengkap akhirnya telah membuat penampilan sulungnya yang hebat Kami menantikan Kuaishou, sebagai gergasi trek video pendek dengan kelebihan pemandangan yang unik dan senario aplikasi yang luas, untuk menjadi yang pertama untuk mempraktikkan keupayaan penjanaan videonya. senario video pendek.

Jika anda berminat dengan penciptaan video AI, anda juga boleh pergi ke Kuaiying APP untuk mengetahuinya.

Portal: https://www.php.cn/link/1e4dc58a5c8c8908a4d317d6ef44a4d0

Atas ialah kandungan terperinci Versi Kuaishou Sora 'Ke Ling' dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan