Bosan dengan penjanaan imej, Google beralih kepada teks → penjanaan video, dua alat berkuasa yang mencabar resolusi dan panjang pada masa yang sama-AI-php.cn

Jadual Kandungan

Video Imej: Berikan gesaan teks dan jana video definisi tinggi

Phenaki: Anda ceritakan dan saya akan lukiskannya

Rumah

Bosan dengan penjanaan imej, Google beralih kepada teks → penjanaan video, dua alat berkuasa yang mencabar resolusi dan panjang pada masa yang sama

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 13, 2023 pm 06:40 PM

Google Model

Selepas menukar teks kepada imej selama lebih daripada setengah tahun, gergasi teknologi seperti Meta dan Google telah menetapkan sasaran mereka ke medan perang baharu: teks kepada video.

Minggu lepas, Meta mengumumkan alat yang boleh menghasilkan video pendek berkualiti tinggi - Buat-A-Video Video yang dihasilkan menggunakan alat ini sangat imaginatif.

Bosan dengan penjanaan imej, Google beralih kepada teks → penjanaan video, dua alat berkuasa yang mencabar resolusi dan panjang pada masa yang sama

Sudah tentu, Google tidak boleh ketinggalan. Baru-baru ini, Ketua Pegawai Eksekutif syarikat Sundar Pichai secara peribadi mengumumkan pencapaian terbaharu mereka dalam bidang ini: dua alat teks ke video - Imagen Video dan Phenaki. Yang pertama memfokuskan pada kualiti video, manakala yang kedua terutamanya mencabar panjang video Boleh dikatakan bahawa masing-masing mempunyai kelebihan tersendiri.

Bosan dengan penjanaan imej, Google beralih kepada teks → penjanaan video, dua alat berkuasa yang mencabar resolusi dan panjang pada masa yang sama

Teddy bear mencuci pinggan di bawah telah dijana menggunakan Imagen Video Seperti yang anda lihat, resolusi dan keselarasan gambar adalah pasti.

Bosan dengan penjanaan imej, Google beralih kepada teks → penjanaan video, dua alat berkuasa yang mencabar resolusi dan panjang pada masa yang sama

Video Imej: Berikan gesaan teks dan jana video definisi tinggi

Pemodelan generatif dalam sistem AI teks-ke-imej terkini Kemajuan yang ketara telah dicapai dalam DALL-E 2, Imagen, Parti, CogView dan Latent Diffusion. Khususnya, model resapan telah mencapai kejayaan besar dalam pelbagai tugas pemodelan generatif seperti anggaran ketumpatan, teks ke pertuturan, imej ke imej, teks ke imej dan sintesis 3D.

Apa yang Google mahu lakukan ialah menjana video daripada teks. Kerja sebelumnya mengenai penjanaan video telah memfokuskan pada set data terhad dengan model autoregresif, model pembolehubah terpendam dengan prior autoregresif dan lebih baru-baru ini, kaedah pembolehubah pendam bukan autoregresif. Model resapan juga telah menunjukkan keupayaan penjanaan video resolusi sederhana yang sangat baik.

Atas dasar ini, Google melancarkan Imagen Video, sistem penjanaan video bersyarat teks berdasarkan model penyebaran video lata. Memandangkan gesaan teks, Imagen Video boleh menjana video definisi tinggi melalui sistem yang terdiri daripada pengekod teks T5 beku, model penjanaan video asas dan model resolusi super video spatiotemporal berlatarkan.

Bosan dengan penjanaan imej, Google beralih kepada teks → penjanaan video, dua alat berkuasa yang mencabar resolusi dan panjang pada masa yang sama

Alamat kertas: https://imagen.research.google/video/paper.pdf

Dalam kertas kerja, Google menerangkan secara terperinci cara memanjangkan sistem ke dalam model teks-ke-video definisi tinggi, termasuk memilih model resolusi super spatiotemporal konvolusi sepenuhnya pada resolusi tertentu dan memilih parameter v daripada model penyebaran dan keputusan reka bentuk lain. Google juga telah berjaya memindahkan hasil penyelidikan penjanaan imej berasaskan resapan sebelumnya kepada tetapan penjanaan video.

Google mendapati bahawa Imagen Video dapat mempertingkatkan video 24fps 64 bingkai 128×128 yang dijana oleh kerja sebelumnya kepada 128 bingkai video HD 1280×768. Selain itu, Imagen Video mempunyai tahap kebolehkawalan dan pengetahuan dunia yang tinggi, boleh menjana animasi video dan teks dalam gaya artistik yang pelbagai, dan mempunyai keupayaan memahami objek 3D.

Mari kami menikmati beberapa lagi video yang dihasilkan oleh Imagen Video, seperti panda memandu:

Bosan dengan penjanaan imej, Google beralih kepada teks → penjanaan video, dua alat berkuasa yang mencabar resolusi dan panjang pada masa yang sama

Aoyou Kapal kayu di angkasa:

Bosan dengan penjanaan imej, Google beralih kepada teks → penjanaan video, dua alat berkuasa yang mencabar resolusi dan panjang pada masa yang sama

Untuk lebih banyak video yang dijana, sila lihat: https://imagen.research.google/video/

Kaedah dan Eksperimen

Secara keseluruhannya, rangka kerja penjanaan video Google ialah rangkaian tujuh model penyebaran sub-video, yang masing-masing melaksanakan penjanaan video bersyarat teks, resolusi super ruang dan resolusi super temporal. Menggunakan keseluruhan lata, Imagen Video mampu menghasilkan 128 bingkai video HD 1280×768 (kira-kira 126 juta piksel) pada 24 bingkai sesaat.

Sementara itu, dengan bantuan penyulingan progresif, Imagen Video menjana video berkualiti tinggi menggunakan hanya lapan langkah penyebaran dalam setiap submodel. Ini mempercepatkan masa penjanaan video sebanyak lebih kurang 18x.

Rajah 6 di bawah menunjukkan keseluruhan saluran paip Video Imagen, termasuk pengekod teks beku, model resapan video asas dan 3 resolusi super ruang (SSR) dan 3 resolusi super temporal (TSR) model. Tujuh model penyebaran video mempunyai sejumlah 11.6 bilion parameter.

Semasa proses penjanaan, model SSR menambah baik resolusi spatial semua bingkai input, manakala model TSR menambah baik resolusi temporal dengan mengisi bingkai perantaraan antara bingkai input. Semua model menjana blok bingkai lengkap secara serentak supaya model SSR tidak mengalami artifak yang ketara.

Bosan dengan penjanaan imej, Google beralih kepada teks → penjanaan video, dua alat berkuasa yang mencabar resolusi dan panjang pada masa yang sama

Video Imej dibina pada seni bina U-Net video, seperti ditunjukkan dalam Rajah 7 di bawah.

Bosan dengan penjanaan imej, Google beralih kepada teks → penjanaan video, dua alat berkuasa yang mencabar resolusi dan panjang pada masa yang sama

Dalam percubaan, Imagen Video dilakukan pada set data teks imej LAION-400M yang tersedia secara terbuka, 14 juta pasangan teks video dan 60 juta imej. Latih pada pasangan teks. Akibatnya, seperti yang dinyatakan di atas, Imagen Video bukan sahaja dapat menjana video definisi tinggi, tetapi juga mempunyai beberapa ciri unik yang tidak dimiliki oleh model generatif tidak berstruktur yang belajar semata-mata daripada data.

Rajah 8 di bawah menunjukkan keupayaan Video Imagen untuk menjana video dengan gaya artistik yang dipelajari daripada maklumat imej, seperti gaya lukisan Van Gogh atau video gaya cat air.

Bosan dengan penjanaan imej, Google beralih kepada teks → penjanaan video, dua alat berkuasa yang mencabar resolusi dan panjang pada masa yang sama

Rajah 9 di bawah menunjukkan keupayaan Imagen Video untuk memahami struktur 3D Ia boleh menjana video objek berputar, dan struktur umum objek juga boleh menjadi simpanan.

Bosan dengan penjanaan imej, Google beralih kepada teks → penjanaan video, dua alat berkuasa yang mencabar resolusi dan panjang pada masa yang sama

Rajah 10 di bawah menunjukkan cara Video Imagen boleh menjana teks dengan pasti dalam pelbagai gaya animasi, sesetengah daripadanya sukar dibuat menggunakan alatan tradisional.

Bosan dengan penjanaan imej, Google beralih kepada teks → penjanaan video, dua alat berkuasa yang mencabar resolusi dan panjang pada masa yang sama

Sila rujuk kertas asal untuk mendapatkan butiran eksperimen lanjut.

Phenaki: Anda ceritakan dan saya akan lukiskannya

Kami tahu bahawa walaupun video pada asasnya adalah satu siri imej, menghasilkan video panjang yang koheren tidak begitu mudah, kerana terdapat sedikit data berkualiti tinggi yang tersedia untuk tugasan ini, dan tugas itu sendiri memerlukan pengiraan.

Apa yang lebih menyusahkan ialah gesaan teks pendek yang digunakan untuk penjanaan imej seperti sebelum ini biasanya tidak mencukupi untuk memberikan penerangan lengkap tentang video yang diperlukan oleh video ialah satu siri gesaan atau cerita. Sebaik-baiknya, model penjanaan video mesti boleh menjana video dalam apa-apa panjang dan melaraskan bingkai video yang dijana mengikut perubahan segera pada masa tertentu t. Hanya dengan keupayaan ini, karya yang dihasilkan oleh model boleh dipanggil "video" dan bukannya "imej bergerak", dan membuka jalan kepada aplikasi kreatif kehidupan sebenar dalam seni, reka bentuk dan penciptaan kandungan.

Penyelidik dari Google dan institusi lain berkata, “Untuk pengetahuan kami, penjanaan video bersyarat berasaskan cerita tidak pernah diterokai sebelum ini, dan ini adalah kertas kerja pertama yang bergerak ke arah matlamat ini . 》

Bosan dengan penjanaan imej, Google beralih kepada teks → penjanaan video, dua alat berkuasa yang mencabar resolusi dan panjang pada masa yang sama

Pautan kertas: https://pub-bede3007802c4858abc6f742f405d4ef.r2.dev/paper.pdf
Pautan projek: https://phenaki.github.io/#interactive

Memandangkan tiada set data berasaskan cerita tersedia Belajar, tiada cara untuk penyelidik menyelesaikan tugasan ini hanya dengan bergantung pada kaedah pembelajaran mendalam tradisional (hanya belajar daripada data). Jadi mereka mereka bentuk model khusus untuk tugas itu.

Model teks-ke-video baharu ini dipanggil Phenaki, yang dilatih bersama menggunakan data "teks-ke-video" dan "teks-ke-imej". Model ini mempunyai keupayaan berikut:

1. Hasilkan video pelbagai koheren sementara di bawah syarat gesaan domain terbuka, walaupun gesaan itu merupakan gabungan konsep baharu (lihat Rajah 3 di bawah ) . Video yang dijana boleh berdurasi beberapa minit, walaupun video yang digunakan untuk melatih model hanya 1.4 saat (8 bingkai/saat)

Bosan dengan penjanaan imej, Google beralih kepada teks → penjanaan video, dua alat berkuasa yang mencabar resolusi dan panjang pada masa yang sama

2 . Menurut Cerita (iaitu satu siri gesaan) hasilkan video, seperti yang ditunjukkan dalam Rajah 1 dan 5 di bawah:

Bosan dengan penjanaan imej, Google beralih kepada teks → penjanaan video, dua alat berkuasa yang mencabar resolusi dan panjang pada masa yang sama

Daripada animasi berikut kita dapat melihat keselarasan dan kepelbagaian video yang dihasilkan oleh Phenaki:

Bosan dengan penjanaan imej, Google beralih kepada teks → penjanaan video, dua alat berkuasa yang mencabar resolusi dan panjang pada masa yang sama

Untuk mencapai Untuk keupayaan ini, penyelidik tidak boleh bergantung pada pengekod video sedia ada, yang sama ada hanya menyahkod video bersaiz tetap atau mengekod bingkai secara bebas. Untuk menyelesaikan masalah ini, mereka memperkenalkan seni bina penyahkod pengekod baharu - C-ViViT.

C-ViViT boleh:

Gunakan lebihan sementara dalam video untuk meningkatkan kualiti pembinaan semula model dalam setiap bingkai , manakala Mampatkan bilangan token video sebanyak 40% atau lebih membenarkan pengekodan dan penyahkodan video berpanjangan yang diberi struktur sebab.

Seni bina model PHENAKI

Diinspirasikan oleh penyelidikan terdahulu tentang teks autoregresif ke imej dan teks ke video , Reka bentuk Phenaki terutamanya terdiri daripada dua bahagian (lihat Rajah 2 di bawah): model penyahkod pengekod yang memampatkan video kepada pembenaman diskret (iaitu token) dan model pengubah yang menukar pembenaman teks kepada token video.

Bosan dengan penjanaan imej, Google beralih kepada teks → penjanaan video, dua alat berkuasa yang mencabar resolusi dan panjang pada masa yang sama Mendapatkan representasi termampat bagi video ialah salah satu cabaran utama dalam menjana video daripada teks. Kerja sebelumnya sama ada menggunakan pengekod imej setiap bingkai, seperti VQ-GAN atau pengekod video panjang tetap, seperti VideoVQVAE. Yang pertama membenarkan penjanaan video dengan panjang sewenang-wenangnya, tetapi dalam penggunaan praktikal, video mestilah pendek kerana pengekod tidak boleh memampatkan video dalam masa dan token sangat berlebihan dalam bingkai berturut-turut. Yang terakhir adalah lebih cekap dari segi bilangan token, tetapi ia tidak membenarkan penjanaan video dengan panjang sewenang-wenangnya.

Di Phenaki, matlamat penyelidik adalah untuk menjana video berpanjangan berubah-ubah sambil memampatkan bilangan token video sebanyak mungkin, supaya model Transformer boleh digunakan dalam kekangan sumber pengkomputeran semasa. Untuk tujuan ini, mereka memperkenalkan C-ViViT, varian penyebab ViViT dengan perubahan seni bina tambahan untuk penjanaan video, yang boleh memampatkan video dalam kedua-dua dimensi temporal dan spatial sambil mengekalkan autoregresi temporal. Ciri ini membolehkan penjanaan video autoregresif dengan panjang sewenang-wenangnya.

Untuk mendapatkan pembenaman teks, Phenaki juga menggunakan model bahasa pra-latihan - T5X.

Sila rujuk kertas asal untuk butiran.

Atas ialah kandungan terperinci Bosan dengan penjanaan imej, Google beralih kepada teks → penjanaan video, dua alat berkuasa yang mencabar resolusi dan panjang pada masa yang sama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang lalu By DDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

3 minggu yang lalu By DDD

<🎜>: Rails Dead - Cara Melengkapkan Setiap Cabaran

4 minggu yang lalu By DDD

Panduan Atomfall: Lokasi Item, Panduan Pencarian, dan Petua

4 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7667

Tutorial CakePHP

1393

Tutorial C#

1205

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Tunjukkan Lagi

Related knowledge

Sesame Open Door Exchange Web Pautan Pautan Gerbang Perdagangan Laman Web Pendaftaran Terkini Feb 28, 2025 am 11:06 AM

Artikel ini memperkenalkan proses pendaftaran versi web Web Open Exchange (GATE.IO) dan aplikasi Perdagangan Gate secara terperinci. Sama ada pendaftaran web atau pendaftaran aplikasi, anda perlu melawat laman web rasmi atau App Store untuk memuat turun aplikasi tulen, kemudian isi nama pengguna, kata laluan, e -mel, nombor telefon bimbit dan maklumat lain, dan lengkap e -mel atau pengesahan telefon bimbit.

Mengapa pautan Bybit Exchange tidak dimuat turun dan dipasang secara langsung? Feb 21, 2025 pm 10:57 PM

Mengapa pautan Bybit Exchange tidak dimuat turun dan dipasang secara langsung? Bybit adalah pertukaran cryptocurrency yang menyediakan perkhidmatan perdagangan kepada pengguna. Aplikasi mudah alih Exchange tidak boleh dimuat turun terus melalui AppStore atau GooglePlay untuk sebab -sebab berikut: 1. Aplikasi pertukaran cryptocurrency sering tidak memenuhi keperluan ini kerana ia melibatkan perkhidmatan kewangan dan memerlukan peraturan dan standard keselamatan tertentu. 2. Undang -undang dan Peraturan Pematuhan di banyak negara, aktiviti yang berkaitan dengan urus niaga cryptocurrency dikawal atau terhad. Untuk mematuhi peraturan ini, aplikasi bybit hanya boleh digunakan melalui laman web rasmi atau saluran yang diberi kuasa lain

WEB OPEN DOOR EXCHANGE WEB PAGE LOGIN VERSI VERSI UNTUK GATEIO Laman Web Rasmi Pintu Masuk Mar 04, 2025 pm 11:48 PM

Pengenalan terperinci kepada operasi log masuk versi Web Open Exchange, termasuk langkah masuk dan proses pemulihan kata laluan.

Platform Perdagangan Pintu Terbuka Sesame Muat turun Versi Mudah Alih Platform Perdagangan Platform Perdagangan Alamat Muat Turun Feb 28, 2025 am 10:51 AM

Adalah penting untuk memilih saluran rasmi untuk memuat turun aplikasi dan memastikan keselamatan akaun anda.

Top 10 Disyorkan untuk App Perdagangan Aset Digital Crypto (2025 Global Ranking) Mar 18, 2025 pm 12:15 PM

Artikel ini mencadangkan sepuluh platform perdagangan cryptocurrency teratas yang memberi perhatian kepada, termasuk Binance, OKX, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, BYDFI dan Xbit yang desentralisasi. Platform ini mempunyai kelebihan mereka sendiri dari segi kuantiti mata wang transaksi, jenis urus niaga, keselamatan, pematuhan, dan ciri khas. Memilih platform yang sesuai memerlukan pertimbangan yang komprehensif berdasarkan pengalaman perdagangan anda sendiri, toleransi risiko dan keutamaan pelaburan. Semoga artikel ini membantu anda mencari saman terbaik untuk diri sendiri

Portal Log Masuk Versi Rasmi Binance Binance Feb 21, 2025 pm 05:42 PM

Untuk mengakses versi Login Laman Web Binance yang terkini, ikuti langkah mudah ini. Pergi ke laman web rasmi dan klik butang "Login" di sudut kanan atas. Pilih kaedah log masuk anda yang sedia ada. Masukkan nombor mudah alih berdaftar atau e -mel dan kata laluan anda dan pengesahan lengkap (seperti kod pengesahan mudah alih atau Google Authenticator). Selepas pengesahan yang berjaya, anda boleh mengakses Portal Log masuk laman web rasmi Binance.

Bitget Trading Platform Rasmi App Muat turun dan Alamat Pemasangan Feb 25, 2025 pm 02:42 PM

Panduan ini menyediakan langkah muat turun dan pemasangan terperinci untuk aplikasi Bitget Exchange rasmi, sesuai untuk sistem Android dan iOS. Panduan ini mengintegrasikan maklumat dari pelbagai sumber yang berwibawa, termasuk laman web rasmi, App Store, dan Google Play, dan menekankan pertimbangan semasa muat turun dan pengurusan akaun. Pengguna boleh memuat turun aplikasinya dari saluran rasmi, termasuk App Store, muat turun APK laman web rasmi dan melompat laman web rasmi, dan lengkap pendaftaran, pengesahan identiti dan tetapan keselamatan. Di samping itu, panduan itu merangkumi soalan dan pertimbangan yang sering ditanya, seperti

Alamat muat turun terbaru Bitget pada tahun 2025: Langkah -langkah untuk mendapatkan aplikasi rasmi Feb 25, 2025 pm 02:54 PM

See all articles