首頁 科技週邊 人工智慧 快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

Jun 21, 2024 am 01:13 AM
快手 產業 文生影片

短短一年後,AI 生成的「吃麵」已經如此自然流暢?這讓全球網友都感受到了億點震撼。

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

                            個人資料
右側的這些生成視頻,都來自快手剛剛推出的文生視頻大模型“可靈」(Kling)。

不是預發布、不是純 Demo 合集,而是直接開放測試的產品級應用,人人都能申請。而且,可靈支持生成最長 2 分鐘、30fps 的 1080P 視頻,主打從頭腦風暴到可發布作品的“一鍵轉化”。 (官方網址:https://kling.kuaishou.com/)

最早一批用上的使用者已經「真香」:

 圖源:https://x.com/ op7418/status/1799047146089619589

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

     .com/7714861068/Oig1Qm8Or?refer_flag=1001030103_

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

500 人上限的交流群,很快就滿員了,滿屏都是tql:

還沒用上的外國友人只能幹著急,在社群媒體上發「求求了」:

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

不誇張地說,可靈現在是「一誇張地說,可靈現在是「一誇張號難求」:
快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
消息傳到矽谷創投圈,更是引發了一場熱議。 快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
Stability AI 前CEO Emad Mostaque 表示:「中國的AI 技術有自己的優點。」

   
快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
 ostaque/status/1799133463003684918

YC CEO 也在X 平台轉發了可靈生成的Demo:
就圖中這個「吃漢堡」的案例而言,在相同的提示詞下,可靈的生成效果確實比Sora 更生動、真實:快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

Prompt:Une personne tapant son meilleur croc dans son hamburger

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

🎜🎜🎜
                    視訊位址:https://x.com/AngryTomtweets/status/1799787209651859910幾天一定陸陸續續看過很多可靈生成的作品了。本站也是第一時間就點進了申請頻道,並拿到了試用資格。

接下來,我們不妨一邊試用、一邊分析可靈爆火的原因。

國內首個文生視頻產品級應用

或許你還記得這個曾經非常火爆的「氣球人」影片。三位創作者花費近兩週時間,使用 Sora 製作了這本 1 分 21 秒的影片短片,讓人感到十分驚艷。不過,負責後製的 Patrick Cederberg 坦白了過程中的許多問題,例如氣球的顏色在每次生成中都會改變、鏡頭中會出現一些瑕疵等等。
                             Sora 產生中中。完整影片地址:https://youtu.be/9oryIMNVtto?si=F6oDzvrhzfVcQGeh

對於先前的影片產生模型來說,「一氣呵成」產生1 分鐘以上的內容確實有難度,特別要求畫面中的各種元素保持前後一致。

獵豹移動董事長兼CEO、獵戶星空董事長傅盛公開了自己用可靈製作的“氣球人”視頻,並表示自己僅用了“幾十分鐘”,就做出了連續性、真實度、清晰度都很優秀的短片。 快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
在內測的過程中,我們還發現了一個專業創作者社區自發建立的教程與 Demo 文檔,包含了上百個可靈生成的作品,還提供了測試維度的指導。

有興趣的讀者請戳:https://waytoagi.feishu.cn/wiki/GevKwyEt1i4SUVk0q2JcqQFtnRd

的,你看得出來嗎? 快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求在創作者@AIGC 十三的作品《瘋狂動物城賽車大賽》中,這20 秒包含了疾速行駛的賽車(大幅度運動)、動物駕駛車輛(考驗想像力的概念組合)等生成困難快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求還有一個很有趣的案例是@八級技工創作的《假期開啟方式》,這段56 秒的短頻共花了3 小時製作,包含23 個鏡頭。然後在可靈的生成結果之上加上配音,詼諧的感覺馬上就有了:
                  /  

看完這些,我們應該已經意識到,可靈所代表的視訊生成技術的影響力,遠遠超出了單純的創作。在不同的研究領域和產業賽道,這項技術的落地正在加速,為從自動內容生成到複雜決策過程的各種任務提供了變革潛力。
快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
哪些產業最早被改變?
傳統的遊戲開發通常受到預先渲染的環境和腳本事件的限制。一旦將影片生成模型整合到遊戲領域,遊戲的開發、玩耍和體驗方式都將得到創新,為講故事、互動和沈浸式體驗帶來新的可能性。對於遊戲開發者來說,最直觀的一種玩法是,根據使用者敘述產生自訂的視覺效果甚至角色動作。
在下方的demo 中,我們可以看到,使用者能夠藉助可靈創造出無與倫比的身臨其境體驗:

 https://x.com/dustinhollywood /status/1800056286215553444

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

                           

另外一個將被顛覆的產業就是影視製作。傳統的電影製作是一個艱鉅而昂貴的過程,往往需要數年的努力、大量的設備和資金投入。視訊生成技術的出現預示著電影製作進入了一個新的「民主化時代」,從簡單的文字輸入中自主生成個人影視作品的夢想正在成為現實。

現在,我們用可靈生成的是 5 秒的單鏡頭片段,伴隨著技術的不斷演進,用戶單次能夠生成的視頻時長也會增加。比如說,我們未來或許能夠一次生成更長的影片內容,保持故事場景的連貫性和觀賞性。其中的運鏡手法也許會更高級,例如連貫的長鏡頭。

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

                              /status/1800007000849629674

下面這段剪影作品再次印證了一點:AI 對藝術的理解力與美學水準,絲毫不遜於人類。

Prompt:「A dancer’s silhouette transitions seamlessly through different dance styles, from hip-hop to ballet, in one continuous shot”🜎
                             可靈產生。圖來源:https://x.com/dustinhollywood/status/1799970059957555210

科幻電影的風格完全拿取             來源:可靈創作者@狗狗李快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
AI 同樣能為奢侈品大片的製作注入靈感:

              快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
我們可以看一下可靈生成的這段「蜂蜜」廣告片,AI 在模擬傾倒蜂蜜特寫鏡頭的表現完全不會輸專業攝影團隊:
                                       
快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求 可靈背後有哪些技術?
我們無法從OpenAI 簡略的技術報告中獲得足夠的Sora 研發細節,但可靈大模型官網卻披露了更具參考意義的信息,主要包括從數據準備、模型架構、訓練方案及優化策略幾個方面。

資料準備

依托快手在視頻技術領域的多年積累,可靈大模型團隊已經構建了完備的標籤體系,包括從視頻基礎質量、美學、自然度等多個美學、自然度維度將影片資料品質刻畫,並針對每個維度設計多種客製化的標籤特徵,以此來精細化篩選訓練資料或調整訓練資料的分佈。

為了滿足訓練文生視頻模型過程中成對的視頻和文本描述需求,可靈大模型團隊自研了視頻描述模型,可以產生精確、詳盡、結構化的視頻描述,顯著提升視頻生成模型的文字指令響應能力。
模型架構

高品質的標註資料準備完畢後,可靈大模型又是如何獲得模擬物理世界特性與概念組合的能力呢?

在整體架構設計上,可靈採用了目前火熱的 Diffusion Transformer (DiT) 。傳統的擴散模型主要利用包含下採樣和上採樣塊的捲積 U-Net 作為去噪網絡骨幹。但一些研究表明,U-Net 架構對擴散模型的良好性能並非至關重要。透過採用更靈活的 Transformer 架構,擴散模型可以使用更多的訓練資料和更大的模型參數。 DiT 就是這個研究思路下的代表作之一。
這幾個月來,業內形成一個共識,視頻生成模型的成功,歸根結底是 Scaling Law 的作用。這項共識正是基於DiT 論文的發現,使用Transformer 能穩定地擴大模型規模:隨著訓練計算量的增加(訓練模型的時間延長或模型增大,或兩者兼而有之),性能也會隨之提高。

這意味著,對於影片產生模型,只要用更多的算力、更多的數據去 Scale up,產生品質還會持續提升。

可靈之所以能夠將用戶的文本提示轉化為具體的畫面,包括那些真實世界中不會出現的虛構場景,就是基於對文本- 視頻語義的深刻理解和Diffusion Transformer 架構的強大能力。在自研架構和 Scaling Law 激發出的強大建模能力推動下,可靈能夠很好地模擬真實世界的物理特性,產生符合物理規律的影片。

與此同時,基於團隊自研的3D VAE 網絡,可靈大模型能夠生成1080p 分辨率的電影級視頻,無論是浩瀚壯大的宏大場景,還是細膩入微的特寫鏡頭,都能夠生動呈現。

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

                              自然場景下,並在光線中流動的變化非常流暢。測試者:@杉杉

當然,對於視頻生成模型來說,另一個必須考慮的因素是:視頻是一種具有時間維度的視覺內容,不連貫的內容會讓用戶的觀看體驗大打折扣。

為了確保畫面中運動的呈現更加合理,可靈大模型採用3D 時空聯合注意力機制,更好地建模複雜時空運動,即可產生較大幅度運動的視頻內容,同時能夠符合運動規律。

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

訓練及優化策略

如果你已經親自測試過,就會發現可靈支持推理過程中同樣的內容輸出多種視頻寬高比。這是因為可靈採用了可變解析度的訓練策略,目的是滿足更豐富場景中的視訊素材使用需求。

與此同時,得益於高效的訓練基礎設施、極致的推理優化和可擴展的基礎架構,可靈大模型能夠生成長達 2 分鐘的視頻,且幀率達到 30fps。

視頻生成,不再是一場「追趕OpenAI」的遊戲

2024 年被稱為視頻生成技術的爆發之年,但在可靈
2024 年被稱為視頻生成技術的爆發之年,但在可靈
Sora 等級的可用產品,而Sora 何時開放也是未知數。

某種意義上說,可靈是第一個真正的「中國版 Sora」,並讓這項技術真正進入了可用、好用、實用的階段。

正如傅盛所說:「這可能是今天在全世界範圍內,你能夠使用到的最好的文生視頻產品。」任何親自試用過可靈的人,都會明白這絕不是過譽。

傅盛的影片也給了另一個觀點:「反過來也說明,Sora 並不是技術性的突破,而是產品型的突破。」

還記得幾個月前,Sora 以長達60 秒的連貫視頻、高清畫面質感、連貫的鏡頭移動、運動方式等優點,拉高了整個視頻生成賽道的技術水平,掀起了文生視頻賽道的競爭浪潮。

我們以為,影片產生領域會像去年的文字大模型一樣,演化為國內對海外的技術追趕。但可靈的發布,意味著國產文生視頻大模型技術的探索已經達到了一個全新的高度,而且在產品落地層面做到了實質領先。我們可能不需要再重新經歷一次「追趕 OpenAI」的遊戲了。
快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求有人給出判斷:中國正在人工智慧領域超越美國。

可靈的誕生,或許意味著一個新時代開啟了。在生成式 AI 時代,生成和編輯影片或許會像今天我們用手機 P 圖一樣簡單,想像力與現實之間的阻隔將被徹底打破。
快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求由於太過火爆,目前在排隊測試可靈的人數已經超過了 5 萬人。如果你對 AI 生成影片的玩法感興趣,不妨先關注「可靈 AI 影片號」,收穫更多優質案例。
🎜🎜🎜

以上是快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1657
14
CakePHP 教程
1415
52
Laravel 教程
1309
25
PHP教程
1257
29
C# 教程
1231
24
DeepMind機器人打乒乓球,正手、反手溜到飛起,全勝人類初學者 DeepMind機器人打乒乓球,正手、反手溜到飛起,全勝人類初學者 Aug 09, 2024 pm 04:01 PM

但可能打不過公園裡的老大爺?巴黎奧運正在如火如荼地進行中,乒乓球項目備受關注。同時,機器人打乒乓球也取得了新突破。剛剛,DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址:https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢?大概和人類業餘選手不相上下:正手反手都會:對手採用多種打法,機器人也能招架得住:接不同旋轉的發球:不過,比賽激烈程度似乎不如公園老大爺對戰。對機器人來說,乒乓球運動

首配機械爪!元蘿蔔亮相2024世界機器人大會,發布首個走進家庭的西洋棋機器人 首配機械爪!元蘿蔔亮相2024世界機器人大會,發布首個走進家庭的西洋棋機器人 Aug 21, 2024 pm 07:33 PM

8月21日,2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相,並最新發布元蘿蔔AI下棋機器人-國際象棋專業版(以下簡稱「元蘿蔔國象機器人」),成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品,全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新,首次在家用機器人上實現了透過機械爪拾取立體棋子,並進行人機對弈、人人對弈、記譜複盤等功能,

Claude也變懶了!網友:學會給自己放假了 Claude也變懶了!網友:學會給自己放假了 Sep 02, 2024 pm 01:56 PM

開學將至,該收心的不只即將開啟新學期的同學,可能還有AI大模型。前段時間,Reddit擠滿了吐槽Claude越來越懶的網友。 「它的水平下降了很多,經常停頓,甚至輸出也變得很短。在發布的第一周,它可以一次性翻譯整整4頁文稿,現在連半頁都輸出不了!」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”,滿滿地

世界機器人大會上,這家承載「未來養老希望」的國產機器人被包圍了 世界機器人大會上,這家承載「未來養老希望」的國產機器人被包圍了 Aug 22, 2024 pm 10:35 PM

在北京舉行的世界機器人大會上,人形機器人的展示成為了現場絕對的焦點,在星塵智能的展台上,由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲,能文能武,吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏,讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道,公司創始人來傑解釋到,絲滑動作的背後,是硬體側追求最好力控和最仿人身體指標(速度、負載等),而是在AI側則採集人的真實動作數據,讓機器人遇強則強,快速學習進化。而敏捷

ACL 2024獎項發表:華科大破解甲骨文最佳論文之一、GloVe時間檢驗獎 ACL 2024獎項發表:華科大破解甲骨文最佳論文之一、GloVe時間檢驗獎 Aug 15, 2024 pm 04:37 PM

本屆ACL大會,投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。一直以來,ACL在NLP領域的學術影響力都名列第一,它也是CCF-A類推薦會議。今年的ACL大會已是第62屆,接收了400餘篇NLP領域的前沿工作。昨天下午,大會公佈了最佳論文等獎項。此次,最佳論文獎7篇(兩篇未公開)、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎(ResourceAward)3篇、社會影響力獎(

李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o 李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o Sep 03, 2024 pm 05:18 PM

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時,加上最近老上頭條的1X人形機器人NEO,你可能會產生一種感覺:我們似乎開始進入機器人時代了。事實上,這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道,有用的機器人往往需要與環境進行複雜精妙的交互,而環境則可被表示成空間域和時間域上的限制。舉個例子,如果要讓機器人倒茶,那麼機器人首先需要抓住茶壺手柄並使之保持直立,不潑灑出茶水,然後平穩移動,一直到讓壺口與杯口對齊,之後以一定角度傾斜茶壺。這

鴻蒙智行享界S9全場景新品發表會,多款重磅新品齊發 鴻蒙智行享界S9全場景新品發表會,多款重磅新品齊發 Aug 08, 2024 am 07:02 AM

今天下午,鸿蒙智行正式迎来了新品牌与新车。8月6日,华为举行鸿蒙智行享界S9及华为全场景新品发布会,带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕昇激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品,从智慧出行、智慧办公到智能穿戴,华为全场景智慧生态持续构建,为消费者带来万物互联的智慧体验。鸿蒙智行:深度赋能,推动智能汽车产业升级华为联合中国汽车产业伙伴,为

分散式人工智慧盛會DAI 2024徵稿:Agent Day,強化學習之父Richard Sutton將出席!顏水成、Sergey Levine以及DeepMind科學家將做主旨報告 分散式人工智慧盛會DAI 2024徵稿:Agent Day,強化學習之父Richard Sutton將出席!顏水成、Sergey Levine以及DeepMind科學家將做主旨報告 Aug 22, 2024 pm 08:02 PM

會議簡介隨著科技的快速發展,人工智慧成為了推動社會進步的重要力量。在這個時代,我們有幸見證並參與分散式人工智慧(DistributedArtificialIntelligence,DAI)的創新與應用。分散式人工智慧是人工智慧領域的重要分支,這幾年引起了越來越多的關注。基於大型語言模型(LLM)的智能體(Agent)異軍突起,透過結合大模型的強大語言理解和生成能力,展現了在自然語言互動、知識推理、任務規劃等方面的巨大潛力。 AIAgent正在接棒大語言模型,成為目前AI圈的熱門話題。 Au

See all articles