WorldGPT ada di sini: Buat ejen AI video seperti Sora, grafik dan teks 'hidupkan semula'.-AI-php.cn

Jadual Kandungan

VisonGPT

Seperti yang dapat dilihat daripada di atas, VisionGPT boleh mencapai 1) pembahagian contoh dalam dunia terbuka tanpa penalaan halus; 2) penjanaan imej berasaskan segera dan fungsi penyuntingan, dsb. Aliran kerja VisionGPT ditunjukkan dalam rajah di bawah.

Rumah

Peranti teknologi

WorldGPT ada di sini: Buat ejen AI video seperti Sora, grafik dan teks 'hidupkan semula'.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 22, 2024 am 08:30 AM

bermula penjanaan video

Sora OpenAI membuat penampilan sulung yang menakjubkan pada Februari tahun ini, membawa satu kejayaan baharu kepada video yang dijana teks. Ia boleh mencipta video yang realistik dan imaginasi yang menakjubkan berdasarkan input teks yang kelihatan seperti ia datang dari Hollywood. Ramai orang kagum dengan inovasi ini dan percaya bahawa prestasi OpenAI telah mencapai kemuncak.

Kegilaan yang disebabkan oleh Sora terus berlanjutan Pada masa yang sama, penyelidik telah mula menyedari potensi besar teknologi penjanaan video AI, dan bidang ini semakin menarik perhatian.

Walau bagaimanapun, dalam bidang semasa penjanaan video AI, kebanyakan penyelidikan algoritma memfokuskan pada penjanaan video melalui input teks berbilang modal, terutamanya senario di mana gambar dan teks digabungkan, belum dibincangkan secara mendalam atau digunakan secara meluas. Bias ini mengurangkan kepelbagaian dan kebolehkawalan video yang dihasilkan dan mengehadkan keupayaan untuk menukar imej statik kepada video dinamik.

Sebaliknya, kebanyakan model penjanaan video sedia ada kekurangan sokongan keboleheditan untuk kandungan video yang dijana dan tidak dapat memenuhi keperluan pengguna untuk pelarasan diperibadikan pada video yang dijana.

WorldGPT ada di sini: Buat ejen AI video seperti Sora, grafik dan teks hidupkan semula.

Petua: Tukar panda menjadi beruang dan buat ia menari. (Tukar panda kepada beruang dan jadikan ia menari.)

Dalam artikel ini, penyelidik dari SEEKING AI, Universiti Harvard, Universiti Stanford dan Universiti Peking bersama-sama mencadangkan rangka kerja bersepadu yang inovatif untuk penjanaan dan penyuntingan video berasaskan teks imej. bernama WorldGPT. Rangka kerja ini dibina di atas rangka kerja VisionGPT yang dibangunkan bersama oleh SEEKING AI dan universiti terkemuka yang disebutkan di atas Ia bukan sahaja dapat merealisasikan fungsi menjana video secara langsung daripada gambar dan teks, tetapi juga menyokong pemindahan gaya dan penggantian latar belakang video yang dihasilkan melalui. gesaan teks ringkas (prompt) dan satu siri operasi penyuntingan penampilan video.

Satu lagi kelebihan penting rangka kerja ini ialah ia tidak memerlukan latihan, yang sangat merendahkan ambang teknikal dan juga menjadikan penggunaan dan penggunaan sangat mudah. Pengguna boleh terus menggunakan model untuk mencipta tanpa memberi perhatian kepada proses latihan yang membosankan di belakangnya.

WorldGPT ada di sini: Buat ejen AI video seperti Sora, grafik dan teks hidupkan semula.

Alamat kertas: https://arxiv.org/pdf/2403.07944.pdf
Tajuk kertas: WorldGPT: Ejen AI Video Inspirasi Sora sebagai Model Dunia Kaya daripada Input Teks dan Imej

lihat contoh demonstrasi WorldGPT dalam pelbagai senario kawalan penjanaan video yang kompleks. . ribut tanpa henti.)》

Penggantian Latar Belakang + Penggayaan + Jana Video WorldGPT ada di sini: Buat ejen AI video seperti Sora, grafik dan teks hidupkan semula.

Prompt: "Seekor naga comel di jalan bandar Bernafas api. (Naga comel sedang meludah api jalanan.) " WorldGPT ada di sini: Buat ejen AI video seperti Sora, grafik dan teks hidupkan semula.

Penggantian objek + Penggantian latar belakang + Jana video WorldGPT ada di sini: Buat ejen AI video seperti Sora, grafik dan teks hidupkan semula.

Prompt: "Robot gaya cyberpunk yang diterangi oleh lampu neon Sebuah automaton gaya cyberpunk bercahaya berlumba melalui neon dispian hologram yang menjulang tinggi dan pereputan digital ditayangkan pada badan logamnya yang licin bermain di seluruh badan logamnya yang ramping.)》 WorldGPT ada di sini: Buat ejen AI video seperti Sora, grafik dan teks hidupkan semula.

Seperti yang dapat dilihat dari contoh di atas, WorldGPT mempunyai kelebihan berikut apabila berhadapan dengan video yang kompleks. arahan penjanaan:

WorldGPT ada di sini: Buat ejen AI video seperti Sora, grafik dan teks hidupkan semula. 1) Ia lebih baik mengekalkan Input asal, struktur dan persekitaran imej; video yang dihasilkan boleh disesuaikan dan diedit melalui gesaan.

WorldGPT ada di sini: Buat ejen AI video seperti Sora, grafik dan teks hidupkan semula.

Untuk mengetahui lebih lanjut tentang prinsip, eksperimen dan kes penggunaan WorldGPT, sila lihat kertas asal.

VisonGPT

Seperti yang dinyatakan sebelum ini, rangka kerja WorldGPT dibina di atas rangka kerja VisionGPT. Seterusnya kami memperkenalkan secara ringkas maklumat tentang VisionGPT.

VisionGPT dibangunkan bersama oleh SeekingAI, Universiti Stanford, Universiti Harvard, Universiti Peking dan institusi terkemuka dunia yang lain Ia merupakan rangka kerja model besar persepsi visual dunia terbuka. Rangka kerja ini menyediakan keupayaan pemprosesan imej berbilang mod AI yang berkuasa melalui penyepaduan pintar dan pemilihan model besar SOTA yang canggih dan membuat keputusan.

Inovasi VisionGPT dicerminkan terutamanya dalam tiga aspek:

Pertama, ia memerlukan model bahasa yang besar (seperti LLaMA-2) sebagai teras, menguraikan permintaan segera pengguna kepada keperluan langkah terperinci, dan secara automatik memanggil paling banyak model Besar yang sesuai diproses;
Kedua, VisionGPT secara automatik menerima dan menggabungkan output berbilang modal yang dijana daripada berbilang model besar SOTA untuk menjana hasil pemprosesan imej yang disesuaikan dengan keperluan pengguna
Akhirnya, VisionGPT mempunyai fleksibiliti dan Serbaguna yang sangat tinggi, tanpa memerlukan; untuk pengguna memperhalusi model, boleh menyokong pelbagai senario aplikasi termasuk pemahaman imej dipacu teks, penjanaan dan penyuntingan.

WorldGPT ada di sini: Buat ejen AI video seperti Sora, grafik dan teks hidupkan semula.

Alamat kertas: https://arxiv.org/pdf/2403.09027.pdf
Tajuk kertas: VisionGPT: Vision-Language Understanding Agent using Generalized Multimodal Framework

Seperti yang dapat dilihat daripada di atas, VisionGPT boleh mencapai 1) pembahagian contoh dalam dunia terbuka tanpa penalaan halus; 2) penjanaan imej berasaskan segera dan fungsi penyuntingan, dsb. Aliran kerja VisionGPT ditunjukkan dalam rajah di bawah.

WorldGPT ada di sini: Buat ejen AI video seperti Sora, grafik dan teks hidupkan semula.

Untuk butiran lanjut, sila rujuk kertas.

WorldGPT ada di sini: Buat ejen AI video seperti Sora, grafik dan teks hidupkan semula. VisionGPT-3D

Selain itu, penyelidik turut melancarkan VisionGPT-3D, yang bertujuan untuk menyelesaikan cabaran utama dalam menukar teks kepada elemen visual: cara menukar imej 2D kepada perwakilan 3D dengan cekap dan tepat. Dalam proses ini, kita sering menghadapi masalah ketidakpadanan antara algoritma dan keperluan sebenar, sekali gus menjejaskan kualiti hasil akhir. VisionGPT-3D mencadangkan rangka kerja multimodal yang mengoptimumkan proses penukaran ini dengan menyepadukan berbilang model besar visi SOTA yang canggih. Inovasi terasnya terletak pada keupayaannya untuk memilih model SOTA visual yang paling sesuai dan algoritma penciptaan awan titik 3D secara automatik, dan untuk menjana output yang paling memenuhi keperluan pengguna berdasarkan input berbilang modal seperti gesaan teks.

Alamat kertas: https://arxiv.org/pdf/2403.09530v1.pdf

WorldGPT ada di sini: Buat ejen AI video seperti Sora, grafik dan teks hidupkan semula. Tajuk kertas: VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding

, silakan maklumat lanjut

kepada kertas asal.

Atas ialah kandungan terperinci WorldGPT ada di sini: Buat ejen AI video seperti Sora, grafik dan teks 'hidupkan semula'.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7485

Tutorial CakePHP

1377

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Tutorial Model Penyebaran Bernilai Masa Anda, dari Universiti Purdue Apr 07, 2024 am 09:01 AM

Penyebaran bukan sahaja boleh meniru lebih baik, tetapi juga "mencipta". Model resapan (DiffusionModel) ialah model penjanaan imej. Berbanding dengan algoritma yang terkenal seperti GAN dan VAE dalam bidang AI, model resapan mengambil pendekatan yang berbeza. Idea utamanya ialah proses menambah hingar pada imej dan kemudian secara beransur-ansur menolaknya. Cara mengecilkan dan memulihkan imej asal adalah bahagian teras algoritma. Algoritma akhir mampu menghasilkan imej daripada imej bising rawak. Dalam beberapa tahun kebelakangan ini, pertumbuhan luar biasa AI generatif telah membolehkan banyak aplikasi menarik dalam penjanaan teks ke imej, penjanaan video dan banyak lagi. Prinsip asas di sebalik alat generatif ini ialah konsep resapan, mekanisme pensampelan khas yang mengatasi batasan kaedah sebelumnya.

Hasilkan PPT dengan satu klik! Kimi: Biarlah 'pekerja migran PPT' menjadi popular dahulu Aug 01, 2024 pm 03:28 PM

Kimi: Hanya dalam satu ayat, dalam sepuluh saat sahaja, PPT akan siap. PPT sangat menjengkelkan! Untuk mengadakan mesyuarat, anda perlu mempunyai PPT; untuk menulis laporan mingguan, anda perlu mempunyai PPT untuk membuat pelaburan, anda perlu menunjukkan PPT walaupun anda menuduh seseorang menipu, anda perlu menghantar PPT. Kolej lebih seperti belajar jurusan PPT Anda menonton PPT di dalam kelas dan melakukan PPT selepas kelas. Mungkin, apabila Dennis Austin mencipta PPT 37 tahun lalu, dia tidak menyangka satu hari nanti PPT akan berleluasa. Bercakap tentang pengalaman sukar kami membuat PPT membuatkan kami menitiskan air mata. "Ia mengambil masa tiga bulan untuk membuat PPT lebih daripada 20 muka surat, dan saya menyemaknya berpuluh-puluh kali. Saya rasa ingin muntah apabila saya melihat PPT itu." ialah PPT." Jika anda mengadakan mesyuarat dadakan, anda harus melakukannya

Zhipu AI memasuki penjanaan video: 'Qingying' dalam talian, 6 saat panjang, percuma dan tidak terhad Jul 26, 2024 pm 03:35 PM

Pasukan model besar Zhipu dibangunkan dan dibina sendiri. Memandangkan Kuaishou Keling AI telah menjadi popular di dalam dan luar negara, penjanaan video domestik menjadi semakin popular, sama seperti model teks besar pada tahun 2023. Baru-baru ini, satu lagi produk model penjanaan video besar telah dilancarkan secara rasmi: Zhipu AI secara rasmi mengeluarkan "Qingying". Selagi anda mempunyai idea yang bagus (beberapa perkataan hingga ratusan perkataan) dan sedikit kesabaran (30 saat), "Qingying" boleh menjana video berketepatan tinggi dengan resolusi 1440x960. Mulai sekarang, Qingying akan dilancarkan pada Apl Qingyan, dan semua pengguna boleh mengalami sepenuhnya fungsi dialog, gambar, video, kod dan penjanaan ejen. Selain meliputi web dan Apl Zhipu Qingyan, anda juga boleh mengendalikan "Program Mini Foto Dinamik AI" untuk mencapai kesan dinamik untuk foto pada telefon anda dengan cepat.

Semua anugerah CVPR 2024 diumumkan! Hampir 10,000 orang menghadiri persidangan itu di luar talian dan seorang penyelidik Cina dari Google memenangi anugerah kertas terbaik Jun 20, 2024 pm 05:43 PM

Pada awal pagi 20 Jun, waktu Beijing, CVPR2024, persidangan penglihatan komputer antarabangsa teratas yang diadakan di Seattle, secara rasmi mengumumkan kertas kerja terbaik dan anugerah lain. Pada tahun ini, sebanyak 10 kertas memenangi anugerah, termasuk 2 kertas terbaik dan 2 kertas pelajar terbaik Selain itu, terdapat 2 pencalonan kertas terbaik dan 4 pencalonan kertas pelajar terbaik. Persidangan teratas dalam bidang visi komputer (CV) ialah CVPR, yang menarik sejumlah besar institusi penyelidikan dan universiti setiap tahun. Mengikut statistik, sebanyak 11,532 kertas telah diserahkan tahun ini, 2,719 daripadanya diterima, dengan kadar penerimaan 23.6%. Menurut analisis statistik data CVPR2024 Institut Teknologi Georgia, dari perspektif topik penyelidikan, bilangan kertas terbesar ialah sintesis dan penjanaan imej dan video (Imageandvideosyn

Lima perisian pengaturcaraan untuk memulakan pembelajaran bahasa C Feb 19, 2024 pm 04:51 PM

Sebagai bahasa pengaturcaraan yang digunakan secara meluas, bahasa C merupakan salah satu bahasa asas yang mesti dipelajari bagi mereka yang ingin melibatkan diri dalam pengaturcaraan komputer. Walau bagaimanapun, bagi pemula, mempelajari bahasa pengaturcaraan baharu boleh menjadi sukar, terutamanya disebabkan kekurangan alat pembelajaran dan bahan pengajaran yang berkaitan. Dalam artikel ini, saya akan memperkenalkan lima perisian pengaturcaraan untuk membantu pemula memulakan bahasa C dan membantu anda bermula dengan cepat. Perisian pengaturcaraan pertama ialah Code::Blocks. Code::Blocks ialah persekitaran pembangunan bersepadu sumber terbuka (IDE) percuma untuk

Daripada logam kosong kepada model besar dengan 70 bilion parameter, berikut ialah tutorial dan skrip sedia untuk digunakan Jul 24, 2024 pm 08:13 PM

Kami tahu bahawa LLM dilatih pada kelompok komputer berskala besar menggunakan data besar-besaran Tapak ini telah memperkenalkan banyak kaedah dan teknologi yang digunakan untuk membantu dan menambah baik proses latihan LLM. Hari ini, perkara yang ingin kami kongsikan ialah artikel yang mendalami teknologi asas dan memperkenalkan cara menukar sekumpulan "logam kosong" tanpa sistem pengendalian pun menjadi gugusan komputer untuk latihan LLM. Artikel ini datang daripada Imbue, sebuah permulaan AI yang berusaha untuk mencapai kecerdasan am dengan memahami cara mesin berfikir. Sudah tentu, mengubah sekumpulan "logam kosong" tanpa sistem pengendalian menjadi gugusan komputer untuk latihan LLM bukanlah proses yang mudah, penuh dengan penerokaan dan percubaan dan kesilapan, tetapi Imbue akhirnya berjaya melatih LLM dengan 70 bilion parameter proses terkumpul

Mesti dibaca untuk pemula teknikal: Analisis tahap kesukaran bahasa C dan Python Mar 22, 2024 am 10:21 AM

Tajuk: Wajib dibaca untuk pemula teknikal: Analisis kesukaran bahasa C dan Python, memerlukan contoh kod khusus Dalam era digital hari ini, teknologi pengaturcaraan telah menjadi keupayaan yang semakin penting. Sama ada anda ingin bekerja dalam bidang seperti pembangunan perisian, analisis data, kecerdasan buatan, atau hanya belajar pengaturcaraan kerana minat, memilih bahasa pengaturcaraan yang sesuai ialah langkah pertama. Di antara banyak bahasa pengaturcaraan, bahasa C dan Python adalah dua bahasa pengaturcaraan yang digunakan secara meluas, masing-masing mempunyai ciri tersendiri. Artikel ini akan menganalisis tahap kesukaran bahasa C dan Python

AI sedang digunakan |. AI mencipta vlog kehidupan seorang gadis yang tinggal bersendirian, yang menerima berpuluh ribu suka dalam masa 3 hari Aug 07, 2024 pm 10:53 PM

Editor Laporan Kuasa Mesin: Yang Wen Gelombang kecerdasan buatan yang diwakili oleh model besar dan AIGC telah mengubah cara kita hidup dan bekerja secara senyap-senyap, tetapi kebanyakan orang masih tidak tahu cara menggunakannya. Oleh itu, kami telah melancarkan lajur "AI dalam Penggunaan" untuk memperkenalkan secara terperinci cara menggunakan AI melalui kes penggunaan kecerdasan buatan yang intuitif, menarik dan padat serta merangsang pemikiran semua orang. Kami juga mengalu-alukan pembaca untuk menyerahkan kes penggunaan yang inovatif dan praktikal. Pautan video: https://mp.weixin.qq.com/s/2hX_i7li3RqdE4u016yGhQ Baru-baru ini, vlog kehidupan seorang gadis yang tinggal bersendirian menjadi popular di Xiaohongshu. Animasi gaya ilustrasi, ditambah dengan beberapa perkataan penyembuhan, boleh diambil dengan mudah dalam beberapa hari sahaja.

See all articles