Beri saya gambar dan hasilkan video 30 saat!
Adakah AI maju lagi?
Dan ia adalah jenis yang menghasilkan video berterusan selama 30 saat daripada gambar.
emm.... Adakah kualitinya agak lembek? 🎜>Berhati-hati bahawa ini hanya dijana daripada satu imej (bingkai pertama) dan tidak mempunyai sebarang maklumat geometri yang dipaparkan.
Ini ialah rangka kerja umum untuk pemodelan imej dan tugas penglihatan berdasarkan ramalan bingkai kebarangkalian yang dicadangkan oleh DeepMind - Transframer baru-baru ini.
Ringkasnya, Transframer digunakan untuk meramalkan kebarangkalian sebarang bingkai.
Bingkai ini boleh dikondisikan pada satu atau lebih bingkai konteks beranotasi, sama ada bingkai video sebelumnya, cap masa atau pemandangan paparan berteg kamera .
Seni Bina Transframer
Mari kita lihat dahulu cara seni bina Transframer ajaib ini berfungsi.
Alamat kertas disiarkan di bawah. Kanak-kanak yang berminat boleh lihat ~ https://arxiv.org /abs/2203.09494
Untuk menganggarkan taburan yang diramalkan pada imej sasaran, kami memerlukan model penjanaan ekspresi yang boleh menghasilkan output yang pelbagai dan berkualiti tinggi.
Walaupun keputusan DC Transformer pada domain imej tunggal boleh memenuhi keperluan, ia tidak terdapat dalam set teks berbilang imej {(In,an) }n kita perlukan sebagai syarat.
Oleh itu, kami melanjutkan DC Transformer untuk mendayakan ramalan bersyarat imej dan anotasi.
Kami menggantikan DC Transformer dengan pengekod gaya Vision-Transformer yang beroperasi pada imej DCT tunggal menggunakan seni bina U-Net berbilang bingkai, menggunakan Untuk memproses a set bingkai beranotasi dan imej DCT sasaran yang tersembunyi sebahagiannya.
Mari kita lihat cara seni bina Transframer berfungsi.
(a) Transframer mengambil sebagai input imej DCT (a1 dan a2) serta imej DCT sasaran yang tersembunyi (aT) dan anotasi tambahan, yang diproses oleh berbilang- pengekod U-Net bingkai. Seterusnya, output U-Net dihantar ke penyahkod DC-Transformer melalui perhatian silang, yang secara automatik mundur untuk menjana urutan Token DCT (huruf hijau) sepadan dengan bahagian tersembunyi imej sasaran. (b) Blok U-Net berbilang bingkai terdiri daripada blok lilitan NF-Net dan blok perhatian kendiri berbilang bingkai, yang bertukar maklumat antara bingkai input dan MLP sisa gaya Transformer.
Mari kita lihat U-Net Berbilang Bingkai yang memproses input imej.
Input U-Net ialah jujukan yang terdiri daripada bingkai N DCT dan bingkai DCT sasaran yang tersembunyi sebahagiannya, maklumat beranotasi dikaitkan dengan setiap bingkai input Disediakan dalam vektor bentuk.
Komponen teras U-Net ialah blok pengiraan yang mula-mula menggunakan blok konvolusi NF-ResNet yang dikongsi pada setiap bingkai input dan kemudian menggunakan gaya Transformer blok perhatian diri untuk mengagregatkan maklumat merentas bingkai. (Rajah 2 b)
Blok NF-ResNet terdiri daripada lilitan berkumpulan dan lapisan picitan dan pengujaan, bertujuan untuk meningkatkan prestasi TPU.
Di bawah, rajah (a) membandingkan jarangnya perwakilan DCT mutlak dan baki bagi video RoboNet (128x128) dan KITTI.
Memandangkan RoboNet terdiri daripada video statik dengan hanya beberapa elemen yang bergerak, kezaliman perwakilan bingkai baki meningkat dengan ketara.
Dan video KITTI selalunya mempunyai kamera bergerak, mengakibatkan perbezaan hampir di mana-mana dalam bingkai berturut-turut. Tetapi dalam kes ini, faedah jarang kecil juga menjadi lemah. Melalui satu siri ujian pada set data dan tugasan, keputusan menunjukkan Transframer boleh digunakan untuk pelbagai tugas. Ini termasuk pemodelan video, sintesis paparan baharu, pembahagian semantik, pengecaman objek, anggaran kedalaman, ramalan aliran optik, dsb. Pemodelan Video Melalui Transframer Predict bingkai seterusnya diberikan urutan bingkai video input. Para penyelidik melatih prestasi Transframer mengenai penjanaan video pada set data KITTI dan RoboNet masing-masing. Untuk KITTI, diberikan 5 bingkai konteks dan 25 bingkai pensampelan, keputusan menunjukkan bahawa model Transframer berprestasi lebih baik pada semua metrik Prestasi LPIPS dan FVD telah dipertingkatkan, antaranya penambahbaikan LPIPS dan FVD adalah yang paling ketara. Di RoboNet, para penyelidik diberi 2 bingkai konteks dan 10 bingkai persampelan, masing-masing pada 64x64 dan 128x128 latihan telah dijalankan pada resolusi tertentu dan akhirnya mencapai keputusan yang sangat baik. Lihat Komposisi Dari segi sintesis paparan, kami bekerja dengan menyediakan paparan kamera sebagai konteks dan anotasi sasaran seperti yang diterangkan dalam Jadual 1 (baris 3), dan pensampelan seragam berbilang paparan konteks sehingga maksimum yang ditentukan. Model Transframer dinilai pada penanda aras ShapeNet, dengan ketara mengatasi prestasi PixelNeRF dan SRN dengan menyediakan 1-2 paparan kontekstual. Selain itu selepas penilaian ke atas dataset Objectron, dapat dilihat bahawa apabila diberikan paparan input tunggal, model menghasilkan Keluaran koheren, tetapi tiada beberapa ciri seperti kaki kerusi bersilang. Apabila 1 paparan konteks diberikan, paparan yang disintesis pada resolusi 128×128 adalah seperti berikut: Apabila 2 lagi paparan konteks diberikan, paparan yang disintesis pada resolusi 128×128 adalah seperti berikut: Tugas Penglihatan Pelbagai Tugas penglihatan komputer yang berbeza sering menggunakan seni bina yang kompleks dan fungsi kehilangan untuk dikendalikan. Di sini, para penyelidik bersama-sama melatih model Transframer pada 8 tugasan dan set data yang berbeza menggunakan fungsi kehilangan yang sama. 8 tugas tersebut ialah: ramalan aliran optik bagi imej tunggal, pengelasan objek, pengesanan dan segmentasi, segmentasi semantik (pada 2 set data), ramalan bingkai masa hadapan dan anggaran kedalaman. Hasilnya menunjukkan bahawa Transframer belajar untuk menjana sampel yang berbeza dalam tugasan yang sama sekali berbeza, seperti Cityscapes. model menghasilkan output yang berkualiti. Walau bagaimanapun, kualiti output model pada tugasan seperti ramalan bingkai masa hadapan dan pengesanan kotak sempadan adalah berubah-ubah, menunjukkan bahawa pemodelan dalam tetapan ini adalah seks yang lebih mencabar. Lebih kuat dalam tugas berbilang penglihatan
Atas ialah kandungan terperinci Beri saya gambar dan hasilkan video 30 saat!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Menilai kos/prestasi sokongan komersial untuk rangka kerja Java melibatkan langkah-langkah berikut: Tentukan tahap jaminan yang diperlukan dan jaminan perjanjian tahap perkhidmatan (SLA). Pengalaman dan kepakaran pasukan sokongan penyelidikan. Pertimbangkan perkhidmatan tambahan seperti peningkatan, penyelesaian masalah dan pengoptimuman prestasi. Timbang kos sokongan perniagaan terhadap pengurangan risiko dan peningkatan kecekapan.

Rangka kerja PHP yang ringan meningkatkan prestasi aplikasi melalui saiz kecil dan penggunaan sumber yang rendah. Ciri-cirinya termasuk: saiz kecil, permulaan pantas, penggunaan memori yang rendah, kelajuan dan daya tindak balas yang dipertingkatkan, dan penggunaan sumber yang dikurangkan: SlimFramework mencipta API REST, hanya 500KB, responsif yang tinggi dan daya pemprosesan yang tinggi.

Menulis dokumentasi yang jelas dan komprehensif adalah penting untuk rangka kerja Golang. Amalan terbaik termasuk mengikut gaya dokumentasi yang ditetapkan, seperti Panduan Gaya Pengekodan Google. Gunakan struktur organisasi yang jelas, termasuk tajuk, subtajuk dan senarai, serta sediakan navigasi. Menyediakan maklumat yang komprehensif dan tepat, termasuk panduan permulaan, rujukan API dan konsep. Gunakan contoh kod untuk menggambarkan konsep dan penggunaan. Pastikan dokumentasi dikemas kini, jejak perubahan dan dokumen ciri baharu. Sediakan sokongan dan sumber komuniti seperti isu dan forum GitHub. Buat contoh praktikal, seperti dokumentasi API.

Pilih rangka kerja Go terbaik berdasarkan senario aplikasi: pertimbangkan jenis aplikasi, ciri bahasa, keperluan prestasi dan ekosistem. Rangka kerja Common Go: Gin (aplikasi Web), Echo (Perkhidmatan Web), Fiber (daya pemprosesan tinggi), gorm (ORM), fasthttp (kelajuan). Kes praktikal: membina REST API (Fiber) dan berinteraksi dengan pangkalan data (gorm). Pilih rangka kerja: pilih fasthttp untuk prestasi utama, Gin/Echo untuk aplikasi web yang fleksibel, dan gorm untuk interaksi pangkalan data.

Keluk pembelajaran rangka kerja PHP bergantung pada kecekapan bahasa, kerumitan rangka kerja, kualiti dokumentasi dan sokongan komuniti. Keluk pembelajaran rangka kerja PHP adalah lebih tinggi jika dibandingkan dengan rangka kerja Python dan lebih rendah jika dibandingkan dengan rangka kerja Ruby. Berbanding dengan rangka kerja Java, rangka kerja PHP mempunyai keluk pembelajaran yang sederhana tetapi masa yang lebih singkat untuk bermula.

Prakata Model ini menggabungkan model visual SigLIP dan model bahasa Gemma, yang kedua-duanya merupakan komponen terbuka, menjadikan PaliGemma cemerlang dalam memproses tugas yang menggabungkan penglihatan dan bahasa. Senario penggunaan PaliGemma termasuk sari kata imej, tag imej dan jawapan soalan visual. Senario aplikasi ini mengambil kesempatan daripada keupayaan PaliGemma untuk memahami kandungan imej dan mengekstrak ciri utama, dan kemudian menukar maklumat ini kepada output bahasa untuk membolehkan interaksi dengan pengguna atau penjanaan kandungan automatik. Fleksibiliti ini menjadikan PaliGemma sesuai bukan sahaja untuk persekitaran penyelidikan dan pembangunan, tetapi juga untuk aplikasi komersial seperti perkhidmatan pelanggan, sistem pengesyoran kandungan, dsb. Gambar Apa yang boleh PaliGemma lakukan Gambar boleh digunakan apabila digesa.

Mengikut penanda aras, untuk aplikasi kecil dan berprestasi tinggi, Quarkus (permulaan pantas, memori rendah) atau Micronaut (TechEmpower cemerlang) adalah pilihan yang ideal. SpringBoot sesuai untuk aplikasi bertindan penuh yang besar, tetapi mempunyai masa permulaan dan penggunaan memori yang lebih perlahan.

Dalam pembangunan rangka kerja Go, cabaran biasa dan penyelesaiannya ialah: Pengendalian ralat: Gunakan pakej ralat untuk pengurusan dan gunakan perisian tengah untuk mengendalikan ralat secara berpusat. Pengesahan dan kebenaran: Sepadukan perpustakaan pihak ketiga dan cipta perisian tengah tersuai untuk menyemak bukti kelayakan. Pemprosesan serentak: Gunakan goroutine, mutex dan saluran untuk mengawal akses sumber. Ujian unit: Gunakan pakej, olok-olok dan stub untuk pengasingan dan alat liputan kod untuk memastikan kecukupan. Penerapan dan pemantauan: Gunakan bekas Docker untuk membungkus penggunaan, menyediakan sandaran data dan menjejak prestasi dan ralat dengan alat pengelogan dan pemantauan.
