智譜大模型團隊自研打造。
自從快手可靈 AI 火爆海內外,國內視頻生成也如同 2023 年的文本大模型一樣,越來越捲了。 剛剛,又一視頻生成大模型產品宣布正式上線:智譜 AI 正式發布「清影」。只要你有好的創意(幾個字到幾百個字),再加上一點點耐心(30 秒),「清影」就能產生 1440x960 清晰度的高精度影片。 即日起,清影上線清言 App,所有用戶都可以全方位體驗對話、圖片、影片、程式碼和 Agent 產生功能。除了涵蓋智譜清言的網頁端和 App,你也可以在「AI 動態照片小程式」上進行操作,快速為手機裡的照片實現動態效果。 智譜「清影」產生的影片長度為 6 秒,清晰度達到 1440×960,所有使用者均可免費使用。
- PC 端存取連結:https://chatglm.cn/
-
行動端存取連結:https://chatglm.cn/download?fr=web_home行動端存取連結:https://chatglm.cn/download?fr=web_home
譜AI 表示,隨著技術的不斷發展,「清影」的生成能力很快就會用於短視頻製作,廣告生成甚至電影剪輯等工作。
在生成式 AI 視訊模型的研發中,Scaling Law 繼續在演算法和數據兩方面發揮作用。 「我們積極在模型層面探索更有效率的scaling 方式。」在智譜Open Day 上,智譜AI CEO 張鵬表示:「隨著演算法、資料不斷迭代,相信Scaling Law 將繼續發揮強有力作用。」 拿捏各種風格
從目前的一些Demo,以及簡單試用的情況看來,智譜AI 的「清影 、動物、科幻、人文歷史等類型的視頻內容上生成的表現較好;
擅長生成的視頻風格包括卡通風格、真實攝影風格、二次元動漫風格等;實體類型呈現效果看,動物> 植物> 物品> 建築> 人物。
- 它既可以文字生成視頻,也可以完成圖生視頻,生成的風格覆蓋奇幻動畫風格。
文生影片
提示詞:低角度向上推進,緩緩抬頭,冰山上突然出現一條惡龍,然後惡龍發現你,衝向你。好萊塢電影風格。
提示詞:一個法師正在海浪中施展法術,寶石將海水都聚集過來,打開了一道魔法傳送門。 提示詞:蘑菇變成小熊。
到真實景物:
提示詞:在一片森林中,人視,參天大樹遮蔽著太陽,樹葉的樹葉中灑下一些陽光,丁達爾效應。
提示詞:一隻水豚鼠像人一樣站著,手裡拿著冰淇淋,開心得吃起來。
Selain video yang dijana teks, anda juga boleh bermain dengan video yang dijana gambar di Qingying. Tusheng Video membawa lebih banyak cara baharu untuk bermain, termasuk emotikon, pengeluaran pengiklanan, penciptaan plot, penciptaan video pendek, dsb. Pada masa yang sama, applet "Foto Lama Beranimasi" berdasarkan Qingying juga akan dilancarkan secara serentak Anda hanya perlu memuat naik foto lama dalam satu langkah, dan AI boleh menghidupkan foto yang dipekatkan pada masa dahulu. Kata gesaan: Ikan berwarna-warni yang bergerak bebas.
Kata gesaan: Lelaki dalam gambar berdiri, angin meniup rambutnya.
Kata gesaan: Mainan itik kuning kecil terapung di permukaan kolam renang, secara dekat. . galeri besar di muzium New York.
Perkataan gesaan: Keluarkan iPhone dan ambil gambar.
Emotikon yang biasa anda gunakan, Zhipu AI boleh memanjangkannya kepada "siri".
Kata-kata gesaan: Empat guru dan perantis menghulurkan tangan mereka untuk bertegur sapa satu sama lain, dengan riak wajah yang keliru. Kata gesaan: Anak kucing itu membuka mulutnya lebar-lebar, dengan riak wajah yang keliru dan banyak tanda tanya.
Dapat dilihat bahawa Qingying boleh mengendalikan pelbagai gaya, dan terdapat lebih banyak cara untuk bermain menunggu orang ramai menemuinya. Cuma klik pada fungsi "Qingying Intelligent" pada PC/APP Zhipu Qingyan, dan setiap idea yang anda ada boleh dijadikan realiti dalam sekelip mata. Semua dalam AI spektrum pintar model besar, yang telah mula menggunakan model AI generatif pelbagai mod sangat awal. Bermula dari 2021, Zhipu AI telah mengeluarkan banyak kajian seperti CogView (NeurIPS'21), CogView2 (NeurIPS'22), CogVideo (ICLR'23), Relay Diffusion (ICLR'24), CogView3 (2024), dll.
Menurut laporan, "Qingying" bergantung pada CogVideoX, generasi baharu model penjanaan video besar yang dibangunkan secara bebas oleh pasukan model besar Zhipu AI. Pada November tahun lalu, pasukannya mencipta model penjanaan teks-ke-video CogVideo berdasarkan model graf Vincent CogView2, dan seterusnya menjadikannya sumber terbuka. CogVideo mempunyai 9.4 bilion parameter Ia menjana satu siri bingkai awal melalui CogView2, dan melaksanakan penjanaan video dengan menginterpolasi bingkai daripada imej berdasarkan model perhatian dua arah. Selain itu, CogVideo menjana persekitaran 3D berdasarkan penerangan teks dan boleh menggunakan model pra-latihan secara langsung untuk mengelakkan latihan yang mahal. Ia juga menyokong input Prompt Cina. Model penjanaan video Qingying Base kali ini ialah CogVideoX, yang boleh menyepadukan tiga dimensi teks, masa dan ruang Ia merujuk kepada reka bentuk algoritma Sora Ia juga merupakan seni bina DiT, CogVideoX The inference kelajuan generasi sebelumnya (CogVideo) telah ditingkatkan sebanyak 6 kali ganda. Kemunculan Sora OpenAI telah membolehkan AI mencapai kemajuan yang ketara dalam penjanaan video, tetapi kebanyakan model masih menghadapi kesukaran dalam menjana kandungan video dengan koheren dan konsistensi logik. Untuk menyelesaikan masalah ini, Zhipu AI telah membangunkan struktur autopengekod variasi tiga dimensi yang cekap (3D VAE), yang boleh memampatkan ruang video asal kepada 2%, dengan ketara mengurangkan kos latihan model kesukaran juga sangat berkurangan. Struktur model menggunakan lilitan Causal 3D sebagai komponen model utama, dan mengalih keluar modul perhatian yang biasa digunakan dalam pengekod automatik, supaya model mempunyai keupayaan untuk dipindahkan ke resolusi yang berbeza. Pada masa yang sama, konvolusi sebab dalam dimensi masa menjadikan pengekodan video model dan urutan penyahkodan bebas dari hadapan ke belakang, yang membantu mengembangkan model kepada kadar bingkai yang lebih tinggi dan pemandangan yang lebih panjang melalui penalaan halus. Selain itu, penjanaan video juga menghadapi masalah sedemikian, iaitu kebanyakan data video kekurangan teks deskriptif yang sepadan atau kualiti perihalan adalah rendah Atas sebab ini, Zhipu AI telah membangunkan diri dari hujung ke-. tamatkan model pemahaman video untuk Menjana penerangan terperinci yang sesuai dengan kandungan data video besar-besaran, dan kemudian membina pasangan teks video berkualiti tinggi besar-besaran, menjadikan model terlatih sangat mematuhi arahan. Akhirnya, perlu dinyatakan bahawa Zhipu AI telah membangunkan sendiri seni bina transformer yang menyepadukan teks, masa dan ruang Seni bina ini tidak menggunakan modul perhatian silang tradisional, tetapi membenamkan teks dan video dalam peringkat input. Pembenaman disambungkan untuk interaksi yang lebih lengkap bagi kedua-dua modaliti. Walau bagaimanapun, terdapat perbezaan besar dalam ruang ciri teks dan video Zhipu AI memproses kedua-duanya secara berasingan melalui layernorm penyesuaian pakar, membolehkan model menggunakan parameter dengan cekap untuk menyelaraskan maklumat visual dengan maklumat semantik dengan lebih baik. Zhipu AI menyatakan bahawa melalui teknologi pengoptimuman, kelajuan inferens model video generatif Zhipu AI telah meningkat sebanyak 6 kali ganda. Pada masa ini, masa teori yang diperlukan model untuk menghasilkan video 6s ialah 30 saat. Kini dengan pelancaran "Qingying", Zhipu AI, pemain utama dalam trek penjanaan video, telah muncul semula. Selain aplikasi yang boleh dicuba oleh semua orang, API Qingying juga dilancarkan secara serentak pada platform terbuka bigmodel.cn Perusahaan dan pembangun boleh mengalami dan menggunakan Video Wensheng dan Video Tusheng dengan memanggil keupayaan model API . Dengan pelancaran berterusan fungsi penjanaan video AI oleh pelbagai syarikat, pertandingan AI generatif tahun ini telah memasuki tahap yang sangat panas. Bagi kebanyakan pengguna, terdapat lebih banyak pilihan: kini, kedua-dua orang yang tiada latar belakang pengeluaran video dan pencipta kandungan profesional boleh mencapai penciptaan video dengan bantuan keupayaan model yang besar. 以上是智譜AI殺入影片產生:「清影」上線,長度6秒,免費不限量的詳細內容。更多資訊請關注PHP中文網其他相關文章!