Beri saya gambar dan hasilkan video 30 saat!-AI-php.cn

Jadual Kandungan

Mari kita lihat dahulu cara seni bina Transframer ajaib ini berfungsi.

Lebih kuat dalam tugas berbilang penglihatan

Rumah

Peranti teknologi

Beri saya gambar dan hasilkan video 30 saat!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 13, 2023 am 08:43 AM

bingkai Penglihatan

Adakah AI maju lagi?

Dan ia adalah jenis yang menghasilkan video berterusan selama 30 saat daripada gambar.

Beri saya gambar dan hasilkan video 30 saat!

emm.... Adakah kualitinya agak lembek? 🎜>Berhati-hati bahawa ini hanya dijana daripada satu imej (bingkai pertama) dan tidak mempunyai sebarang maklumat geometri yang dipaparkan.

Ini ialah rangka kerja umum untuk pemodelan imej dan tugas penglihatan berdasarkan ramalan bingkai kebarangkalian yang dicadangkan oleh DeepMind - Transframer baru-baru ini.

Ringkasnya, Transframer digunakan untuk meramalkan kebarangkalian sebarang bingkai.

Bingkai ini boleh dikondisikan pada satu atau lebih bingkai konteks beranotasi, sama ada bingkai video sebelumnya, cap masa atau pemandangan paparan berteg kamera .

Seni Bina Transframer

Mari kita lihat dahulu cara seni bina Transframer ajaib ini berfungsi.

Beri saya gambar dan hasilkan video 30 saat! Alamat kertas disiarkan di bawah. Kanak-kanak yang berminat boleh lihat ~ https://arxiv.org /abs/2203.09494

Untuk menganggarkan taburan yang diramalkan pada imej sasaran, kami memerlukan model penjanaan ekspresi yang boleh menghasilkan output yang pelbagai dan berkualiti tinggi.

Walaupun keputusan DC Transformer pada domain imej tunggal boleh memenuhi keperluan, ia tidak terdapat dalam set teks berbilang imej {(In,an) }n kita perlukan sebagai syarat.

Oleh itu, kami melanjutkan DC Transformer untuk mendayakan ramalan bersyarat imej dan anotasi.

Kami menggantikan DC Transformer dengan pengekod gaya Vision-Transformer yang beroperasi pada imej DCT tunggal menggunakan seni bina U-Net berbilang bingkai, menggunakan Untuk memproses a set bingkai beranotasi dan imej DCT sasaran yang tersembunyi sebahagiannya.

Mari kita lihat cara seni bina Transframer berfungsi.

(a) Transframer mengambil sebagai input imej DCT (a1 dan a2) serta imej DCT sasaran yang tersembunyi (aT) dan anotasi tambahan, yang diproses oleh berbilang- pengekod U-Net bingkai. Seterusnya, output U-Net dihantar ke penyahkod DC-Transformer melalui perhatian silang, yang secara automatik mundur untuk menjana urutan Token DCT (huruf hijau) sepadan dengan bahagian tersembunyi imej sasaran. (b) Blok U-Net berbilang bingkai terdiri daripada blok lilitan NF-Net dan blok perhatian kendiri berbilang bingkai, yang bertukar maklumat antara bingkai input dan MLP sisa gaya Transformer.

Beri saya gambar dan hasilkan video 30 saat! Mari kita lihat U-Net Berbilang Bingkai yang memproses input imej.

Input U-Net ialah jujukan yang terdiri daripada bingkai N DCT dan bingkai DCT sasaran yang tersembunyi sebahagiannya, maklumat beranotasi dikaitkan dengan setiap bingkai input Disediakan dalam vektor bentuk.

Komponen teras U-Net ialah blok pengiraan yang mula-mula menggunakan blok konvolusi NF-ResNet yang dikongsi pada setiap bingkai input dan kemudian menggunakan gaya Transformer blok perhatian diri untuk mengagregatkan maklumat merentas bingkai. (Rajah 2 b)

Blok NF-ResNet terdiri daripada lilitan berkumpulan dan lapisan picitan dan pengujaan, bertujuan untuk meningkatkan prestasi TPU.

Di bawah, rajah (a) membandingkan jarangnya perwakilan DCT mutlak dan baki bagi video RoboNet (128x128) dan KITTI.

Memandangkan RoboNet terdiri daripada video statik dengan hanya beberapa elemen yang bergerak, kezaliman perwakilan bingkai baki meningkat dengan ketara.

Dan video KITTI selalunya mempunyai kamera bergerak, mengakibatkan perbezaan hampir di mana-mana dalam bingkai berturut-turut.

Tetapi dalam kes ini, faedah jarang kecil juga menjadi lemah.

Beri saya gambar dan hasilkan video 30 saat!

Lebih kuat dalam tugas berbilang penglihatan

Melalui satu siri ujian pada set data dan tugasan, keputusan menunjukkan Transframer boleh digunakan untuk pelbagai tugas.

Ini termasuk pemodelan video, sintesis paparan baharu, pembahagian semantik, pengecaman objek, anggaran kedalaman, ramalan aliran optik, dsb.

Beri saya gambar dan hasilkan video 30 saat!

Pemodelan Video

Melalui Transframer Predict bingkai seterusnya diberikan urutan bingkai video input.

Para penyelidik melatih prestasi Transframer mengenai penjanaan video pada set data KITTI dan RoboNet masing-masing.

Beri saya gambar dan hasilkan video 30 saat!

Untuk KITTI, diberikan 5 bingkai konteks dan 25 bingkai pensampelan, keputusan menunjukkan bahawa model Transframer berprestasi lebih baik pada semua metrik Prestasi LPIPS dan FVD telah dipertingkatkan, antaranya penambahbaikan LPIPS dan FVD adalah yang paling ketara.

Beri saya gambar dan hasilkan video 30 saat!

Di RoboNet, para penyelidik diberi 2 bingkai konteks dan 10 bingkai persampelan, masing-masing pada 64x64 dan 128x128 latihan telah dijalankan pada resolusi tertentu dan akhirnya mencapai keputusan yang sangat baik.

Beri saya gambar dan hasilkan video 30 saat!

Lihat Komposisi

Dari segi sintesis paparan, kami bekerja dengan menyediakan paparan kamera sebagai konteks dan anotasi sasaran seperti yang diterangkan dalam Jadual 1 (baris 3), dan pensampelan seragam berbilang paparan konteks sehingga maksimum yang ditentukan.

Model Transframer dinilai pada penanda aras ShapeNet, dengan ketara mengatasi prestasi PixelNeRF dan SRN dengan menyediakan 1-2 paparan kontekstual.

Beri saya gambar dan hasilkan video 30 saat!

Selain itu selepas penilaian ke atas dataset Objectron, dapat dilihat bahawa apabila diberikan paparan input tunggal, model menghasilkan Keluaran koheren, tetapi tiada beberapa ciri seperti kaki kerusi bersilang.

Apabila 1 paparan konteks diberikan, paparan yang disintesis pada resolusi 128×128 adalah seperti berikut:

Beri saya gambar dan hasilkan video 30 saat!

Apabila 2 lagi paparan konteks diberikan, paparan yang disintesis pada resolusi 128×128 adalah seperti berikut:

Beri saya gambar dan hasilkan video 30 saat!

Tugas Penglihatan Pelbagai

Tugas penglihatan komputer yang berbeza sering menggunakan seni bina yang kompleks dan fungsi kehilangan untuk dikendalikan.

Di sini, para penyelidik bersama-sama melatih model Transframer pada 8 tugasan dan set data yang berbeza menggunakan fungsi kehilangan yang sama.

8 tugas tersebut ialah: ramalan aliran optik bagi imej tunggal, pengelasan objek, pengesanan dan segmentasi, segmentasi semantik (pada 2 set data), ramalan bingkai masa hadapan dan anggaran kedalaman.

Beri saya gambar dan hasilkan video 30 saat!

Hasilnya menunjukkan bahawa Transframer belajar untuk menjana sampel yang berbeza dalam tugasan yang sama sekali berbeza, seperti Cityscapes. model menghasilkan output yang berkualiti.

Walau bagaimanapun, kualiti output model pada tugasan seperti ramalan bingkai masa hadapan dan pengesanan kotak sempadan adalah berubah-ubah, menunjukkan bahawa pemodelan dalam tetapan ini adalah seks yang lebih mencabar.

Atas ialah kandungan terperinci Beri saya gambar dan hasilkan video 30 saat!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Repo: Cara menghidupkan semula rakan sepasukan

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Cara mendapatkan biji gergasi

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Berapa lama masa yang diperlukan untuk mengalahkan fiksyen berpecah?

3 minggu yang lalu By DDD

R.E.P.O. Simpan Fail Lokasi: Di manakah & bagaimana untuk melindunginya?

3 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7333

Tutorial Java

1627

Tutorial CakePHP

1351

Tutorial Laravel

1262

Tutorial PHP

1209

Tunjukkan Lagi

Related knowledge

Bagaimana untuk menilai keberkesanan kos sokongan komersial untuk rangka kerja Java Jun 05, 2024 pm 05:25 PM

Menilai kos/prestasi sokongan komersial untuk rangka kerja Java melibatkan langkah-langkah berikut: Tentukan tahap jaminan yang diperlukan dan jaminan perjanjian tahap perkhidmatan (SLA). Pengalaman dan kepakaran pasukan sokongan penyelidikan. Pertimbangkan perkhidmatan tambahan seperti peningkatan, penyelesaian masalah dan pengoptimuman prestasi. Timbang kos sokongan perniagaan terhadap pengurangan risiko dan peningkatan kecekapan.

Bagaimanakah pilihan rangka kerja PHP yang ringan mempengaruhi prestasi aplikasi? Jun 06, 2024 am 10:53 AM

Rangka kerja PHP yang ringan meningkatkan prestasi aplikasi melalui saiz kecil dan penggunaan sumber yang rendah. Ciri-cirinya termasuk: saiz kecil, permulaan pantas, penggunaan memori yang rendah, kelajuan dan daya tindak balas yang dipertingkatkan, dan penggunaan sumber yang dikurangkan: SlimFramework mencipta API REST, hanya 500KB, responsif yang tinggi dan daya pemprosesan yang tinggi.

Amalan terbaik dokumentasi rangka kerja Golang Jun 04, 2024 pm 05:00 PM

Menulis dokumentasi yang jelas dan komprehensif adalah penting untuk rangka kerja Golang. Amalan terbaik termasuk mengikut gaya dokumentasi yang ditetapkan, seperti Panduan Gaya Pengekodan Google. Gunakan struktur organisasi yang jelas, termasuk tajuk, subtajuk dan senarai, serta sediakan navigasi. Menyediakan maklumat yang komprehensif dan tepat, termasuk panduan permulaan, rujukan API dan konsep. Gunakan contoh kod untuk menggambarkan konsep dan penggunaan. Pastikan dokumentasi dikemas kini, jejak perubahan dan dokumen ciri baharu. Sediakan sokongan dan sumber komuniti seperti isu dan forum GitHub. Buat contoh praktikal, seperti dokumentasi API.

Bagaimana untuk memilih rangka kerja golang terbaik untuk senario aplikasi yang berbeza Jun 05, 2024 pm 04:05 PM

Pilih rangka kerja Go terbaik berdasarkan senario aplikasi: pertimbangkan jenis aplikasi, ciri bahasa, keperluan prestasi dan ekosistem. Rangka kerja Common Go: Gin (aplikasi Web), Echo (Perkhidmatan Web), Fiber (daya pemprosesan tinggi), gorm (ORM), fasthttp (kelajuan). Kes praktikal: membina REST API (Fiber) dan berinteraksi dengan pangkalan data (gorm). Pilih rangka kerja: pilih fasthttp untuk prestasi utama, Gin/Echo untuk aplikasi web yang fleksibel, dan gorm untuk interaksi pangkalan data.

Bagaimanakah keluk pembelajaran rangka kerja PHP berbanding rangka kerja bahasa lain? Jun 06, 2024 pm 12:41 PM

Keluk pembelajaran rangka kerja PHP bergantung pada kecekapan bahasa, kerumitan rangka kerja, kualiti dokumentasi dan sokongan komuniti. Keluk pembelajaran rangka kerja PHP adalah lebih tinggi jika dibandingkan dengan rangka kerja Python dan lebih rendah jika dibandingkan dengan rangka kerja Ruby. Berbanding dengan rangka kerja Java, rangka kerja PHP mempunyai keluk pembelajaran yang sederhana tetapi masa yang lebih singkat untuk bermula.

Setelah dipintas oleh OpenAI sekali lagi, Google melancarkan model bahasa visual sumber terbuka: PaliGemma Jun 09, 2024 am 09:17 AM

Prakata Model ini menggabungkan model visual SigLIP dan model bahasa Gemma, yang kedua-duanya merupakan komponen terbuka, menjadikan PaliGemma cemerlang dalam memproses tugas yang menggabungkan penglihatan dan bahasa. Senario penggunaan PaliGemma termasuk sari kata imej, tag imej dan jawapan soalan visual. Senario aplikasi ini mengambil kesempatan daripada keupayaan PaliGemma untuk memahami kandungan imej dan mengekstrak ciri utama, dan kemudian menukar maklumat ini kepada output bahasa untuk membolehkan interaksi dengan pengguna atau penjanaan kandungan automatik. Fleksibiliti ini menjadikan PaliGemma sesuai bukan sahaja untuk persekitaran penyelidikan dan pembangunan, tetapi juga untuk aplikasi komersial seperti perkhidmatan pelanggan, sistem pengesyoran kandungan, dsb. Gambar Apa yang boleh PaliGemma lakukan Gambar boleh digunakan apabila digesa.

Perbandingan prestasi rangka kerja Java Jun 04, 2024 pm 03:56 PM

Mengikut penanda aras, untuk aplikasi kecil dan berprestasi tinggi, Quarkus (permulaan pantas, memori rendah) atau Micronaut (TechEmpower cemerlang) adalah pilihan yang ideal. SpringBoot sesuai untuk aplikasi bertindan penuh yang besar, tetapi mempunyai masa permulaan dan penggunaan memori yang lebih perlahan.

Penjelasan praktikal terperinci pembangunan rangka kerja golang: Soalan dan Jawapan Jun 06, 2024 am 10:57 AM

Dalam pembangunan rangka kerja Go, cabaran biasa dan penyelesaiannya ialah: Pengendalian ralat: Gunakan pakej ralat untuk pengurusan dan gunakan perisian tengah untuk mengendalikan ralat secara berpusat. Pengesahan dan kebenaran: Sepadukan perpustakaan pihak ketiga dan cipta perisian tengah tersuai untuk menyemak bukti kelayakan. Pemprosesan serentak: Gunakan goroutine, mutex dan saluran untuk mengawal akses sumber. Ujian unit: Gunakan pakej, olok-olok dan stub untuk pengasingan dan alat liputan kod untuk memastikan kecukupan. Penerapan dan pemantauan: Gunakan bekas Docker untuk membungkus penggunaan, menyediakan sandaran data dan menjejak prestasi dan ralat dengan alat pengelogan dan pemantauan.

See all articles