Pasukan model besar Zhipu dibangunkan dan dibina sendiri.
Sejak Kuaishou Keling AI telah menjadi popular di dalam dan luar negara, penjanaan video domestik semakin popular seperti model teks pada tahun 2023. Sebentar tadi, satu lagi produk model generasi video besar diumumkan akan dilancarkan secara rasmi: Zhipu AI secara rasmi mengeluarkan "Qingying". Selagi anda mempunyai idea yang bagus (beberapa perkataan hingga ratusan perkataan) dan sedikit kesabaran (30 saat), "Qingying" boleh menjana video berketepatan tinggi dengan resolusi 1440x960. Bermula dari sekarang, Qingying melancarkan Apl Qingyan, dan semua pengguna boleh mengalami sepenuhnya fungsi dialog, gambar, video, kod dan penjanaan ejen. Selain meliputi web dan Apl Zhipu Qingyan, anda juga boleh mengendalikan "Program Mini Foto Dinamik AI" untuk mencapai kesan dinamik untuk foto pada telefon anda dengan cepat. Video yang dijana oleh Zhipu "Qingying" berdurasi 6 saat dan mempunyai resolusi 1440×960 Semua pengguna boleh menggunakannya secara percuma.
- Pautan akses PC: https://chatglm.cn/
- Pautan akses mudah alih: https://chatglm.cn/download?fr=web_home
berkata dengan perkembangan teknologi yang berterusan, keupayaan penjanaan "Qingying" tidak lama lagi akan digunakan dalam pengeluaran video pendek, penjanaan pengiklanan dan juga penyuntingan filem.
Dalam pembangunan model video AI generatif, Undang-undang Penskalaan terus memainkan peranan dalam kedua-dua algoritma dan data. "Kami secara aktif meneroka kaedah penskalaan yang lebih cekap pada peringkat model." Pada Hari Terbuka Zhipu, Zhang Peng, Ketua Pegawai Eksekutif Zhipu AI, berkata: "Dengan lelaran berterusan algoritma dan data, saya percaya Undang-undang Penskalaan akan terus memainkan peranan penting. peranan yang kuat." Tangkap pelbagai gaya
Berdasarkan beberapa demo semasa dan percubaan mudah, "Qingying" Zhipu AI mempunyai ciri-ciri berikut:
- , haiwan , fiksyen sains, kemanusiaan dan sejarah serta jenis kandungan video yang lain dijana dengan lebih baik
- Gaya video yang pandai menjana termasuk gaya kartun, gaya fotografi sebenar, gaya animasi dua dimensi, dll.
Kesan pembentangan jenis entiti Lihat, haiwan > tumbuhan > barang > bangunan > manusia.
Ia boleh menjana video dengan teks atau gambar, dan gaya yang dijana meliputi gaya animasi fantasi. . Gaya filem Hollywood. Kata gesaan: Seorang ahli sihir sedang memantera ombak.
Kata gesaan: Cendawan bertukar menjadi beruang. .
Kata gesaan: Seekor guinea pig air berdiri seperti manusia, memegang ais krim di tangannya dan memakannya dengan gembira.
除了文本生成視頻,也可以到清影上玩圖片生成視頻。圖生影片帶來了更多的新玩法,包括表情包梗圖、廣告製作、劇情創作、短影片創作等。同時,基於清影的「老照片動起來」小程式也會同步上線,只需一步上傳老照片,AI 就能讓凝練在舊時光中的照片靈動起來。
提示詞:攝影機圍繞著一大堆老式電視旋轉,這些電視播放著不同的節目——20 世紀50 年代的科幻電影、恐怖電影、新聞、靜態、70 年代的情境喜劇等,背景設在紐約博物館的大型畫廊。
你常用的表情包,智譜 AI 能把它延長成「連續劇」。 提示詞:師徒四人伸出手互相擊掌,臉上是困惑的表情。 提示詞:小貓張大了嘴,臉上是困惑表情,很多問號。 可以看出,清影各類風格都可以拿捏,還有更多的玩法等著人們來發掘。只需要在智譜清言 PC/APP 上,點擊「清影智能體」功能,就可以讓你的每一個創意在瞬間化為現實。 All in 大模型的智譜 AI,很早就開始部署多模態生成式 AI 模型。從 2021 年開始,智譜 AI 先後發布了 CogView(NeurIPS’21)、 CogView2(NeurIPS’22)、CogVideo(ICLR’23)、Relay Diffusion(ICLR’24)、CogView3 (2024)等多項研究。 據介紹,「清影」依託於智譜 AI 大模型團隊自研打造的新一代視頻生成大模型 CogVideoX。 去年 11 月,其團隊基於文生圖模型 CogView2 打造出了文本到視頻生成模型 CogVideo,並隨後將其開源。
CogVideo 擁有 94 億參數,它透過 CogView2 產生一系列初始幀,基於雙向注意力模型對影像進行插幀的方法實現視訊生成。此外,CogVideo 根據文字描述產生 3D 環境,可直接利用預訓練模型,避免了昂貴的訓練,它也支援中文的 Prompt 輸入。 本次清影底座的視訊生成模型是CogVideoX,它能將文字、時間、空間三個維度融合起來,參考了Sora 的演算法設計,它也是一個DiT 架構,透過最佳化,CogVideoX 相比前代(CogVideo)推理速度提升了6 倍。 OpenAI 的 Sora 橫空出世,讓 AI 在視訊生成方面取得了顯著進展,但大多數模型在產生具有連貫性和邏輯一致性的視訊內容方面仍然存在困難。 為了解決這些問題,智譜AI 自研了一個高效的三維變分自編碼器結構(3D VAE),可以將原視頻空間極致壓縮到2%,使得模型訓練成本大幅下降,訓練難度也大大降低。 模型結構採用因果三維卷積(Causal 3D convolution)為主要模型組件,並將自編碼器中常用的注意力模組移除,使得模型具備不同分辨率遷移使用的能力。 同時,在時間維度上因果卷積使得模型視頻編解碼具備從前向後的序列獨立性, 這有助於透過微調將模型擴展到更高幀率和更長時間的場景。 除此以外,視頻生成還面臨這樣一個問題,即視頻數據大多缺乏對應的描述性文本或者描述質量低下,為此智譜AI 自研了一個端到端的視頻理解模型,用於為海量的視訊資料產生詳細的、貼合內容的描述,進而建立海量的高品質視訊文字對,使得訓練出的模型指令遵循度高。 最後值得一提的是,智譜AI 自研了一個將文本、時間、空間融合起來的transformer 架構,該架構沒有採用傳統cross attention 模組,而是在輸入階段就將文本嵌入和視頻嵌入連接起來,以便更充分地進行兩種模態的交互作用。 然而文字和視訊特徵空間存在很大差異,智譜 AI 透過 expert adaptive layernorm 對兩者分別進行處理,使得模型能夠高效利用參數來更好地將視覺訊息與語義資訊對齊。 智譜 AI 表示,透過最佳化技術,智譜 AI 生成式視訊模型的推理速度提升了 6 倍。目前產生 6s 視頻,模型花費的理論時間是 30 秒鐘。 如今隨著「清影」的上線,視頻生成賽道又出現了智譜 AI 這位重磅玩家。 除了人人都能嘗試的應用之外,清影API 也同步上線大模型開放平台bigmodel.cn,企業和開發者可以透過調用API 的方式,體驗和使用文生視頻以及圖生視頻的模型能力。 隨著各家公司 AI 影片產生功能的不斷上線,今年的生成式 AI 競賽已經進入白熱化階段。對於大多數用戶來說,選擇也更多了:現在,無論是完全沒有影片製作基礎的人,還是專業的內容創作者,都能藉助大模型能力實現影片創作。 Atas ialah kandungan terperinci Zhipu AI memasuki penjanaan video: 'Qingying' dalam talian, 6 saat panjang, percuma dan tidak terhad. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!