Pengenalan model penyebaran telah menggalakkan pembangunan teknologi video penjanaan teks Walau bagaimanapun, kaedah ini selalunya mahal dari segi pengiraan dan sukar untuk mencapai video gerakan objek yang lancar
Untuk menangani masalah ini, penyelidik dari Shenzhen. Institut Teknologi Lanjutan, Akademi Sains China, Penyelidik dari Akademi Sains Universiti China dan Makmal Kecerdasan Buatan VIVO bersama-sama mencadangkan rangka kerja baharu yang dipanggil GPT4Motion yang boleh menjana video teks tanpa latihan. GPT4Motion menggabungkan keupayaan perancangan model bahasa besar seperti GPT, keupayaan simulasi fizikal yang disediakan oleh perisian Blender dan keupayaan penjanaan teks model penyebaran, bertujuan untuk meningkatkan kualiti sintesis video dengan lebih baik
Pautan kod: https://github.com/jiaxilv /GPT4Motion
GPT4Motion menggunakan GPT-4 untuk menjana skrip Blender berdasarkan gesaan teks input pengguna. Ia memanfaatkan enjin fizik Blender untuk mencipta komponen pemandangan asas dan merangkumnya sebagai gerakan silang bingkai yang berterusan. Komponen ini kemudiannya dimasukkan ke dalam model penyebaran untuk menghasilkan video yang sepadan dengan gesaan teks
Hasil eksperimen menunjukkan bahawa GPT4Motion boleh menjana video berkualiti tinggi dengan cekap sambil mengekalkan konsistensi gerakan dan konsistensi entiti. Perlu diingat bahawa GPT4Motion menggunakan enjin fizik untuk menjadikan video yang dihasilkan lebih realistik. Ini memberikan perspektif baharu untuk video penjanaan teks
Mari kita lihat dahulu kesan penjanaan GPT4Motion, seperti memasukkan gesaan teks: "Baju-T putih berkibar-kibar ditiup angin", "T-T putih baju berkibar ditiup angin", "baju T putih berkibar ditiup angin kencang". Disebabkan oleh kekuatan angin yang berbeza, amplitud baju-T putih yang berkibar dalam video yang dihasilkan oleh GPT4Motion juga berbeza:
Dari segi corak aliran cecair, video yang dihasilkan oleh GPT4Motion juga boleh menunjukkan ia dengan baik:
Bola keranjang berputar dan jatuh dari udara:
Pengenalan kaedah
Matlamat kajian ini adalah untuk menghasilkan video yang pantas berdasarkan ciri fizikal pengguna adegan gerakan fizikal asas. Sifat fizikal selalunya berkaitan dengan bahan objek. Para penyelidik memberi tumpuan kepada simulasi tiga bahan objek biasa dalam kehidupan seharian: 1) objek tegar, yang boleh mengekalkan bentuknya tanpa berubah apabila dikenakan paksaan; mempamerkan pergerakan berterusan dan boleh berubah bentuk.
Selain itu, para penyelidik memberi perhatian khusus kepada beberapa mod pergerakan tipikal bahan-bahan ini, termasuk perlanggaran (kesan langsung antara objek), kesan angin (pergerakan yang disebabkan oleh aliran udara), dan aliran (berterusan dan bergerak dalam satu arah) . Mensimulasikan senario fizikal ini selalunya memerlukan pengetahuan tentang mekanik klasik, mekanik bendalir dan fizik lain. Model penyebaran semasa yang memfokuskan pada video yang dihasilkan teks adalah sukar untuk memperoleh pengetahuan fizikal yang kompleks ini melalui latihan, dan oleh itu tidak dapat menghasilkan video yang mematuhi sifat fizikal Kelebihan GPT4Motion adalah untuk memastikan bahawa video yang dihasilkan bukan sahaja konsisten dengan menggesa input oleh pengguna, Dan ia juga betul dari segi fizikal. Pemahaman semantik GPT-4 dan keupayaan penjanaan kod boleh menukar gesaan pengguna kepada skrip Python Blender, yang boleh memacu enjin fizik terbina dalam Blender untuk mensimulasikan adegan fizikal yang sepadan. Selain itu, kajian juga menggunakan ControlNet, mengambil keputusan dinamik simulasi Blender sebagai input untuk membimbing model resapan untuk menjana bingkai video demi bingkai
Menggunakan GPT-4 untuk mengaktifkan Blender untuk operasi simulasi🎜🎜🎜
Penyelidik memerhatikan bahawa walaupun GPT-4 mempunyai pemahaman tertentu tentang API Python Blender, keupayaannya untuk menjana skrip Python Blender berdasarkan gesaan pengguna masih kurang. Di satu pihak, meminta GPT-4 untuk mencipta walaupun model 3D yang mudah (seperti bola keranjang) secara langsung dalam Blender nampaknya seperti tugas yang sukar. Sebaliknya, memandangkan API Python Blender mempunyai sumber yang lebih sedikit dan versi API dikemas kini dengan cepat, adalah mudah untuk GPT-4 menyalahgunakan ciri tertentu atau membuat ralat disebabkan perbezaan versi. Untuk menyelesaikan masalah ini, kajian mencadangkan penyelesaian berikut:
Kandungan yang ditulis semula: Membuat video yang mematuhi undang-undang fizik
Kajian ini bertujuan untuk menjana, berdasarkan pada usul dan syarat yang disediakan oleh pengguna Blender, Video yang konsisten dengan teks dan realistik secara visual. Untuk tujuan ini, kajian itu mengguna pakai Model DifusiKawal sifat fizikal
Rajah 7 menunjukkan tiga video menuang air yang berbeza kelikatan ke dalam mug. Apabila kelikatan air rendah, air yang mengalir berlanggar dengan air di dalam cawan dan bergabung, membentuk fenomena aliran gelora yang kompleks. Apabila kelikatan meningkat, aliran air menjadi lebih perlahan dan cecair mula melekat antara satu sama lain
Perbandingan dengan kaedah garis dasar
Dalam Rajah 1, GPT4Motion dibandingkan secara visual dengan kaedah asas yang lain. Adalah jelas bahawa keputusan kaedah garis dasar tidak sepadan dengan gesaan pengguna. DirecT2V dan Text2Video-Zero mempunyai kelemahan dalam kesetiaan tekstur dan ketekalan gerakan, manakala AnimateDiff dan ModelScope meningkatkan kelancaran video, tetapi masih terdapat ruang untuk penambahbaikan dalam ketekalan tekstur dan kesetiaan gerakan. Berbanding dengan kaedah ini, GPT4Motion boleh menghasilkan perubahan tekstur yang licin semasa bola keranjang jatuh dan melantun selepas berlanggar dengan lantai, yang kelihatan lebih realistik
Seperti yang ditunjukkan dalam Rajah 8 (baris pertama), AnimateDiff dan Video yang dihasilkan oleh Text2Video-Zero mempunyai artifak/herotan pada bendera, manakala ModelScope dan DirecT2V tidak dapat menjana kecerunan bendera yang berkibar dengan lancar ditiup angin. Walau bagaimanapun, seperti yang ditunjukkan di tengah-tengah Rajah 5, video yang dihasilkan oleh GPT4Motion boleh menunjukkan perubahan berterusan kedutan dan riak dalam bendera di bawah pengaruh graviti dan angin.
Keputusan semua garis dasar tidak konsisten dengan gesaan pengguna, seperti yang ditunjukkan dalam baris kedua dalam Rajah 8. Walaupun video AnimateDiff dan ModelScope mencerminkan perubahan dalam aliran air, mereka tidak dapat menangkap kesan fizikal air yang dituangkan ke dalam cawan. Sebaliknya, video yang dihasilkan oleh Text2VideoZero dan DirecT2V mencipta cawan yang sentiasa bergegar. Sebaliknya, seperti yang ditunjukkan dalam Rajah 7 (kiri), video yang dihasilkan oleh GPT4Motion dengan tepat menggambarkan pergolakan apabila aliran air berlanggar dengan cawan, dan kesannya lebih realistik
Pembaca yang berminat boleh membaca kertas asal untuk mengetahui lebih lanjut Banyak kandungan kajian
Atas ialah kandungan terperinci Digabungkan dengan enjin fizik, model resapan GPT-4+ menghasilkan video yang realistik, koheren dan munasabah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!