Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.-AI-php.cn

Rumah

Peranti teknologi

Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.

王林

Dec 27, 2023 pm 06:35 PM

projek fairy

Rangka kerja sintesis video baharu Meta telah membawa kami beberapa kejutan

Generatif AI dikurniakan keupayaan untuk mencipta atau mengubah suai kandungan dengan mudah. Pengeditan imej, khususnya, telah mengalami pertumbuhan yang ketara, didorong oleh model penyebaran teks ke imej yang telah dilatih terlebih dahulu pada set data berskala bilion. Gelombang ini telah menghasilkan banyak aplikasi penyuntingan imej dan penciptaan kandungan.

Berdasarkan pencapaian model generatif berasaskan imej, bidang cabaran seterusnya mestilah menambah "dimensi masa" padanya, untuk mencapai penyuntingan video yang mudah dan kreatif.

Strategi mudah ialah menggunakan model imej untuk memproses bingkai video demi bingkai, namun, pengeditan imej generatif sememangnya sangat berubah-ubah—terdapat banyak cara untuk mengedit imej yang diberikan walaupun daripada gesaan teks yang sama. Jika setiap bingkai diedit secara bebas, sukar untuk mengekalkan konsistensi temporal.

Dalam kertas kerja baru-baru ini, penyelidik dari pasukan Meta GenAI mencadangkan Fairy - "penyesuaian mudah" model penyebaran penyuntingan imej, yang sangat meningkatkan prestasi AI dalam penyuntingan video.

Berikut ialah paparan kesan video suntingan Fairy:

Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.

4x 3 saat F ) dalam masa 14 saat sahaja , iaitu sekurang-kurangnya 44 kali lebih pantas daripada kaedah sebelumnya. Kajian pengguna menyeluruh yang melibatkan 1000 sampel yang dijana mengesahkan bahawa kaedah yang dicadangkan menjana kualiti tinggi dan dengan ketara mengatasi kaedah sedia ada. Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.

Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.

Bagaimana caranya?

Menurut kertas itu, Fairy adalah berdasarkan konsep perhatian bingkai silang berdasarkan titik penambat Mekanisme ini secara tersirat boleh menyebarkan ciri resapan merentasi bingkai, memastikan kesan sintesis yang konsisten masa dan ketepatan tinggi. Fairy bukan sahaja menyelesaikan batasan model terdahulu dari segi memori dan kelajuan pemprosesan, tetapi juga meningkatkan ketekalan temporal melalui strategi penambahan data unik yang menjadikan model itu setara dengan transformasi afin bagi imej sumber dan sasaran.

paper Alamat: https://arxiv.org/pdf/2312.13834.pdf

Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.

Fairy menyemak semula paradigma penjejakan dan penyebaran sebelumnya dalam konteks ciri model resapan. Khususnya, kajian ini menggunakan anggaran korespondensi untuk merapatkan perhatian bingkai silang, membenarkan model menjejak dan menyebarkan ciri perantaraan dalam model resapan.

Peta perhatian merentas bingkai boleh ditafsirkan sebagai ukuran persamaan untuk menilai korespondensi antara token dalam setiap bingkai, di mana ciri dalam satu kawasan semantik akan memperuntukkan perhatian yang lebih tinggi kepada bingkai lain Kawasan semantik yang serupa, seperti yang ditunjukkan dalam Rajah 3 di bawah .

Oleh itu, perwakilan ciri semasa diperhalusi dan disebarkan dengan memfokuskan pada jumlah wajaran kawasan yang serupa antara bingkai, dengan itu meminimumkan perbezaan ciri antara bingkai dengan berkesan.

Satu siri operasi menghasilkan model berasaskan sauh, yang merupakan komponen teras Fairy.

Untuk memastikan ketekalan temporal video yang dijana, kajian ini mengambil sampel bingkai penambat K untuk mengekstrak ciri resapan, dan ciri yang diekstrak ditakrifkan sebagai satu set ciri global untuk disebarkan ke bingkai berturut-turut. Kajian ini menggantikan lapisan perhatian kendiri dengan perhatian bingkai silang untuk ciri tembolok bingkai penambat apabila setiap bingkai baharu dijana. Melalui perhatian bingkai silang, token dalam setiap bingkai mengguna pakai ciri yang mempamerkan kandungan semantik yang serupa dalam bingkai utama, dengan itu meningkatkan konsistensi.

Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.

Penilaian eksperimen

Di bahagian eksperimen, penyelidik terutamanya melaksanakan Fairy berdasarkan model penyuntingan imej pengajaran, dan menggunakan perhatian bingkai silang untuk menggantikan perhatian kendiri model. Mereka menetapkan bilangan bingkai sauh kepada 3. Model ini boleh menerima input nisbah aspek yang berbeza dan menskalakan semula resolusi input saiz yang lebih panjang kepada 512, memastikan nisbah aspek tidak berubah. Para penyelidik mengedit semua bingkai video input tanpa pensampelan turun. Semua pengiraan diedarkan pada 8 GPU A100.

Penilaian kualitatif

Pengkaji mula-mula menunjukkan hasil kualitatif Fairy, seperti yang ditunjukkan dalam Rajah 5 di bawah, Fairy boleh mengedit topik yang berbeza.

Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.

Dalam Rajah 6 di bawah, penyelidik menunjukkan bahawa Fairy boleh melakukan pelbagai jenis penyuntingan mengikut arahan teks, termasuk penggayaan, perubahan peranan, penyuntingan setempat, penyuntingan atribut, dll.

Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.

Rajah 9 di bawah menunjukkan Fairy boleh menukar watak sumber kepada aksara sasaran yang berbeza mengikut arahan.

Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.

Penilaian Kuantitatif

Para penyelidik menunjukkan hasil perbandingan kualiti keseluruhan dalam Rajah 7 di bawah, di mana video yang dihasilkan oleh Fairy lebih popular.

Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.

Rajah 10 di bawah menunjukkan hasil perbandingan visual dengan model garis dasar.

Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.

Untuk butiran lanjut teknikal dan keputusan percubaan, sila rujuk kertas asal.

Atas ialah kandungan terperinci Video boleh dibina semula dalam 14 saat dan aksara boleh ditukar Meta mempercepatkan sintesis video sebanyak 44 kali.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

4 minggu yang lalu By DDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

4 minggu yang lalu By DDD

<🎜>: Tumbuh Taman - Panduan Mutasi Lengkap

2 minggu yang lalu By DDD

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Bagaimana untuk memperbaiki KB5055612 gagal dipasang di Windows 10?

3 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Tutorial Java

1663

Tutorial CakePHP

1420

Tutorial Laravel

1315

Tutorial PHP

1266

Tutorial C#

1239

Tunjukkan Lagi

Related knowledge

Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Jul 17, 2024 am 01:56 AM

Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Jul 17, 2024 pm 10:02 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Jun 24, 2024 pm 03:04 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Aug 01, 2024 pm 05:18 PM

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Jul 19, 2024 am 01:29 AM

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Aug 05, 2024 pm 03:32 PM

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

MLLM berasaskan Mamba yang pertama ada di sini! Berat model, kod latihan, dsb. semuanya telah menjadi sumber terbuka Jul 17, 2024 am 02:46 AM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Pengenalan Dalam beberapa tahun kebelakangan ini, aplikasi model bahasa besar multimodal (MLLM) dalam pelbagai bidang telah mencapai kejayaan yang luar biasa. Walau bagaimanapun, sebagai model asas untuk banyak tugas hiliran, MLLM semasa terdiri daripada rangkaian Transformer yang terkenal, yang

LLM sememangnya tidak bagus untuk ramalan siri masa Ia bahkan tidak menggunakan keupayaan penaakulannya. Jul 15, 2024 pm 03:59 PM

Bolehkah model bahasa benar-benar digunakan untuk ramalan siri masa? Menurut Undang-undang Tajuk Berita Betteridge (sebarang tajuk berita yang berakhir dengan tanda soal boleh dijawab dengan "tidak"), jawapannya mestilah tidak. Fakta nampaknya benar: LLM yang begitu berkuasa tidak dapat mengendalikan data siri masa dengan baik. Siri masa, iaitu, siri masa, seperti namanya, merujuk kepada satu set jujukan titik data yang disusun mengikut urutan masa. Analisis siri masa adalah kritikal dalam banyak bidang, termasuk ramalan penyebaran penyakit, analisis runcit, penjagaan kesihatan dan kewangan. Dalam bidang analisis siri masa, ramai penyelidik baru-baru ini mengkaji cara menggunakan model bahasa besar (LLM) untuk mengelas, meramal dan mengesan anomali dalam siri masa. Makalah ini menganggap bahawa model bahasa yang pandai mengendalikan kebergantungan berjujukan dalam teks juga boleh digeneralisasikan kepada siri masa.

See all articles