Saya percaya ramai orang telah memahami daya tarikan teknologi AI generatif, terutamanya selepas mengalami wabak AIGC pada tahun 2022. Teknologi penjanaan teks-ke-imej yang diwakili oleh Stable Diffusion pernah popular di seluruh dunia, dan tidak terkira banyaknya pengguna datang untuk meluahkan imaginasi artistik mereka dengan bantuan AI...
Berbanding dengan penyuntingan imej, Penyuntingan video ialah topik yang lebih mencabar, memerlukan mensintesis tindakan baharu dan bukannya mengubah suai rupa visual, sambil mengekalkan ketekalan temporal.
Terdapat banyak syarikat yang meneroka trek ini. Beberapa ketika dahulu, Google mengeluarkan Dreamix untuk menggunakan model penyebaran video bersyarat (VDM) teks pada penyuntingan video.
Baru-baru ini, Runway, sebuah syarikat yang mengambil bahagian dalam penciptaan Stable Diffusion, melancarkan model kecerdasan buatan baharu "Gen-1", yang menggunakan sebarang gaya yang ditentukan dengan menggunakan gesaan teks atau rujukan imej. Boleh menukar video sedia ada kepada video baharu.
Pautan kertas: https://arxiv.org/pdf/2302.03011.pdf
Laman utama projek: https://research.runwayml.com/gen1
Pada 2021, Runway dan Universiti Penyelidik Munich bekerjasama untuk mencipta versi pertama Stable Diffusion. Kemudian Stability AI, syarikat permulaan UK, melangkah masuk untuk membiayai perbelanjaan pengiraan yang diperlukan untuk melatih model pada lebih banyak data. Pada 2022, Stability AI membawa Stable Diffusion ke dalam arus perdana, mengubahnya daripada projek penyelidikan kepada fenomena global.
Runway berkata ia berharap Gen-1 akan lakukan untuk video seperti yang dilakukan Stable Diffusion untuk grafik.
"Kami telah melihat ledakan model penjanaan imej," kata Cristóbal Valenzuela, Ketua Pegawai Eksekutif dan pengasas bersama Runway. "Saya benar-benar percaya bahawa 2023 akan menjadi tahun video." Penggayaan. Pindahkan gaya mana-mana imej atau gesaan ke setiap bingkai video anda.
2. Papan cerita. Ubah model anda menjadi rendering yang bergaya dan animasi sepenuhnya.
3. Topeng. Asingkan topik dalam video dan ubah suainya menggunakan gesaan teks mudah.
4. Tukar pemaparan tanpa tekstur kepada output fotorealistik dengan menggunakan imej input atau gesaan.
5. Lepaskan kuasa penuh Gen-1 dengan menyesuaikan model anda untuk hasil ketepatan yang lebih tinggi.
Dalam demo yang disiarkan di tapak web rasmi syarikat, ia menunjukkan cara Gen-1 boleh menukar gaya video dengan lancar, mari kita lihat beberapa contoh.
Sebagai contoh, untuk menukar "orang di jalanan" menjadi "boneka tanah liat", anda hanya memerlukan satu baris gesaan:
Daripada "berlari di atas salji" kepada "berjalan di bulan":
The gadis muda, dalam beberapa saat Menjadi seorang bijak purba:
Kesan visual dan penyuntingan video terdapat di mana-mana dalam media kontemporari. Apabila platform bertumpu video semakin popular, keperluan untuk alat penyuntingan video yang lebih intuitif dan berkuasa meningkat. Walau bagaimanapun, disebabkan sifat temporal data video, penyuntingan dalam format ini masih rumit dan memakan masa. Model pembelajaran mesin tercanggih menunjukkan janji yang baik dalam meningkatkan proses penyuntingan, tetapi banyak kaedah perlu mencapai keseimbangan antara ketekalan temporal dan perincian spatial.
Kaedah generatif untuk sintesis imej baru-baru ini mengalami fasa pertumbuhan pesat dalam kualiti dan populariti disebabkan oleh pengenalan model resapan yang dilatih pada set data berskala besar. Sesetengah model bersyarat teks, seperti DALL-E 2 dan Stable Diffusion, membolehkan pengguna baru menjana imej terperinci dengan hanya gesaan teks. Model resapan terpendam menyediakan kaedah yang cekap untuk menjana imej dengan menggubah dalam ruang yang dimampatkan secara persepsi.
Dalam kertas kerja ini, penyelidik mencadangkan model penyebaran video struktur dan sedar kandungan yang boleh dikawal pada video tanpa sari kata dan data imej teks yang dilatih pada set data berskala besar. Para penyelidik memilih untuk menggunakan anggaran kedalaman monokular untuk mewakili struktur dan benam yang diramalkan oleh rangkaian saraf pra-terlatih untuk mewakili kandungan.
Kaedah ini menyediakan beberapa mod kawalan berkuasa semasa proses penjanaannya: Pertama, sama dengan model sintesis imej, penyelidik melatih model untuk membuat kandungan video yang disimpulkan, seperti penampilannya atau gaya, sepadan dengan imej atau gesaan teks yang dibekalkan pengguna (Rajah 1). Kedua, diilhamkan oleh proses penyebaran, para penyelidik menggunakan proses penyamaran maklumat kepada perwakilan struktur untuk dapat memilih sejauh mana model itu menyokong struktur tertentu. Akhir sekali, kami menyesuaikan proses inferens melalui kaedah panduan tersuai yang diilhamkan oleh panduan bebas klasifikasi untuk mencapai kawalan ke atas ketekalan temporal segmen yang dijana.
Secara keseluruhannya, sorotan kajian ini adalah seperti berikut:
Untuk menilai kaedah, penyelidik menggunakan video DAVIS dan pelbagai bahan. Untuk membuat gesaan pengeditan secara automatik, para penyelidik mula-mula menjalankan model sari kata untuk mendapatkan perihalan kandungan video asal, dan kemudian menggunakan GPT-3 untuk menjana gesaan pengeditan.
Penyelidikan kualitatif
Seperti yang ditunjukkan dalam Rajah 5, keputusan membuktikan bahawa kaedah artikel ini berkesan pada beberapa input berbeza Berprestasi dengan baik.
Penyelidikan Pengguna
Penyelidik juga A kajian pengguna telah dijalankan menggunakan Amazon Mechanical Turk (AMT) pada set penilaian 35 gesaan pengeditan video yang mewakili. Untuk setiap sampel, 5 anotor diminta untuk membandingkan ketepatan gesaan pengeditan video antara kaedah garis dasar dan kaedah kami ("Video manakah yang lebih baik mewakili sari kata yang disunting yang disediakan?"), dan kemudian Dipersembahkan secara rawak secara berurutan, dengan undian majoriti digunakan untuk menentukan muktamad hasil.
Keputusan ditunjukkan dalam Rajah 7:
Penilaian Kuantitatif
Rajah 6 menunjukkan keputusan setiap model menggunakan petunjuk ketekalan dan ketekalan segera rangka kerja artikel ini. Prestasi model dalam kertas kerja ini cenderung untuk mengatasi model garis dasar dalam kedua-dua aspek (iaitu, ia lebih tinggi di sudut kanan atas rajah). Para penyelidik juga menyedari bahawa terdapat sedikit pertukaran untuk meningkatkan parameter keamatan dalam model garis dasar: penskalaan intensiti yang lebih besar bermakna konsistensi segera yang lebih tinggi pada kos ketekalan bingkai yang lebih rendah. Mereka juga mendapati bahawa penskalaan struktur yang meningkat membawa kepada konsistensi segera yang lebih tinggi kerana kandungan tidak lagi ditentukan oleh struktur input.
Penyesuaian
Rajah 10 menunjukkan model dengan bilangan langkah penyesuaian yang berbeza dan contoh kebergantungan struktur yang berbeza . Para penyelidik memerhatikan bahawa penyesuaian meningkatkan kesetiaan kepada gaya dan penampilan watak, supaya, walaupun menggunakan video didorong watak dengan ciri berbeza, digabungkan dengan nilai ts yang lebih tinggi, kesan animasi yang tepat boleh dicapai.
Atas ialah kandungan terperinci Menambah kesan khas hanya memerlukan satu ayat atau gambar Syarikat Stable Diffusion telah menggunakan AIGC untuk memainkan helah baharu.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!