Selepas model Stable Diffusion model graf Vincent adalah sumber terbuka, "seni AI" telah didemokrasikan sepenuhnya. Hanya kad grafik gred pengguna boleh digunakan untuk mencipta imej yang sangat cantik.
Dalam bidang penukaran teks ke video, kini satu-satunya model Gen-2 komersial berkualiti tinggi yang dilancarkan oleh Runway tidak lama dahulu, dan tiada model yang boleh bersaing dalam industri sumber terbuka.
Baru-baru ini, seorang pengarang di Huggingface mengeluarkan model sintesis teks-ke-video Zeroscope_v2, yang dibangunkan berdasarkan model ModelScope-text-to-video-sintesis dengan 1.7 bilion parameter.
Gambar
Pautan model: https://huggingface.co/cerspense/zeroscope_v2_576w
Berbanding dengan versi asal dan Zeroscope tidak mempunyai kelancaran dan kelancaran video yang dihasilkan oleh penanda air. Diperbaik untuk menyesuaikan diri kepada nisbah bidang 16:9.
Pembangun cerspense berkata bahawa matlamatnya adalah untuk bersaing dengan Gen-2 sebagai sumber terbuka, iaitu sambil meningkatkan kualiti model, ia juga boleh digunakan secara bebas oleh orang ramai.
zeroscope_v2 termasuk dua versi. GB memori video untuk dijalankan.
Gunakan Zeroscope_v2 XL untuk menjana video definisi tinggi dengan resolusi 1024x576 dan menduduki kira-kira 15.3GB memori video.
Zeroscope juga boleh digunakan dengan alat penjanaan muzik MusicGen untuk mencipta video pendek yang asli semata-mata.
Latihan model Zeroscope menggunakan 9923 klip video (klip) dan 29769 bingkai beranotasi, setiap klip termasuk 24 bingkai. Bunyi offset termasuk anjakan rawak objek dalam bingkai video, sedikit perubahan dalam pemasaan bingkai atau herotan kecil.
Memperkenalkan bunyi semasa latihan boleh meningkatkan pemahaman model tentang pengedaran data, membolehkannya menjana video yang lebih pelbagai dan realistik serta menerangkan perubahan dalam penerangan teks dengan lebih berkesan.
Cara menggunakanGunakan stable diffusion webui
Muat turun fail berat dalam direktori zs2_XL pada Huggingface, dan kemudian letakkannya dalam direktori s.delffusion-web-tableui
Apabila menjana video, nilai intensiti pengurangan hingar yang disyorkan ialah 0.66 hingga 0.85
menggunakan pautan colab
note: https://colab.research.google.com/ Drive/1TSZMatsu1-1LNBEOQZ3_9ZQ5P2C0XTTQ? USP = Sharing
first Klik butang Run di bawah Langkah 1 dan tunggu pemasangan, yang akan mengambil masa kira-kira 3 minit; di sebelah butang , teruskan ke langkah seterusnya. . 448).
Gambar
memerlukan pertukaran masa pelaksanaan yang lebih lama apabila melaksanakan model resolusi lebih tinggi seperti Potat 1 atau ZeroScope XL.
Tunggu lagi tanda semak muncul untuk meneruskan ke langkah seterusnya.
Pilih model model yang dipasang pada Langkah 2 dan ingin menggunakannya Untuk model resolusi lebih tinggi, parameter konfigurasi berikut disyorkan, yang tidak memerlukan masa penjanaan terlalu lama.
Pictures
Seterusnya, anda boleh memasukkan perkataan gesaan video sasaran untuk menukar kesan, dan anda juga boleh memasukkan gesaan negatif (gesaan negatif), dan kemudian klik butang jalankan.
Setelah menunggu seketika, video yang dihasilkan akan diletakkan dalam direktori output.
gambar
Pada masa ini, bidang Video Vincent masih di peringkat awal, malah alat terbaik hanya boleh menjana video dalam beberapa saat, dan selalunya mempunyai kecacatan visual yang besar.
Tetapi sebenarnya, model Vincentian pada mulanya menghadapi masalah yang sama, tetapi ia mencapai fotorealisme hanya beberapa bulan kemudian.
Walau bagaimanapun, tidak seperti model graf Vincentian, medan video memerlukan lebih banyak sumber semasa latihan dan penjanaan daripada imej.
Walaupun Google telah membangunkan model Phenaki dan Imagen Video yang boleh menghasilkan klip video beresolusi tinggi, lebih panjang dan koheren secara logik, kedua-dua model ini tidak tersedia kepada orang ramai model Make-a-Video Meta juga tidak dikeluarkan .
Alat yang tersedia pada masa ini masih hanya model komersial Runway Gen-2 Pengeluaran Zeroscope juga menandakan kemunculan model sumber terbuka berkualiti tinggi pertama dalam medan video Vincent.
Atas ialah kandungan terperinci Saluran baharu untuk AI? Model Zeroscope berkualiti tinggi pertama 'Vinson Video' mencetuskan perang sumber terbuka: ia boleh dijalankan dengan sekurang-kurangnya memori video 8G. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!