首頁 科技週邊 人工智慧 騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析

騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析

Oct 26, 2023 pm 09:13 PM
產業 混元大模型 文生圖大模型

2023 年,大模型的落地按下加速鍵,文生圖便是最火熱的應用方向之一。

自從 Stable Diffusion 誕生以來,海內外的文生圖大模型不斷湧現,一時有「神仙打架」之感。每一次技術迭代,都帶來了模型生成效果和速度的快速提升。

就在今天,騰訊混元大模型也宣布了最新進展:文生圖能力正式上線。

一手試用,我們就看到了混幣大模型對於博大精深的中餐文化的理解。這裡選取了讓許多大模型犯難的「螞蟻上樹」,但混元輕鬆產生:

騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析

問題來了,現在的文生圖大模型這麼卷,混元大模型還有沒有其他特別的優勢?

根據官方介紹,如果從演算法、模型方面來講,目前文生圖大模型還存在一些挑戰,例如語意理解不夠精準、生成圖片結構不合理、畫面細節不夠質感不高等問題。

騰訊很早就開始在廣告場景進行 AI 自動產生影像的探索,相關的累積不可謂不深。這次混元大模型升級的文生圖能力,恰恰希望解決「語意、內容、質感」這三點難題。

據介紹,相較於其他大模型,騰訊混元的文生圖在人像真實感、場景真實感上有比較明顯的優勢,同時,在中國風景、動漫遊戲等場景等生成上有較好的表現。

上手實測:混元文生圖,有什麼不一樣?

做好「文生圖」這件事,對「文」的充分理解至關重要。

語意理解方面,混元文生圖模型採用了中英文雙語細粒度的模型,同時基於中英文雙語建模實現雙語理解,且透過最佳化演算法提升了模型對細節的感知能力與生成效果。

在此之前,像Stable Diffusion 這樣的熱門模型雖然支援一定程度的中文,但其核心資料集LAION-5B 仍以西方化內容為主,對中國的語言、美食、文化、習俗都理解不夠。

而混元文生圖模型是中文原生的文生圖模型,無論使用者輸入的中文詩句或成語,都可以直接要求其創作畫作。

內容合理性方面,混元文生圖透過增強演算法模型的影像二維空間位置感知能力,並將人體骨架和人手結構等先驗資訊引入生成過程中,讓生成的影像結構更合理,改善了AI 生成人體結構和手部不合理的問題。

畫面質感方面,混元文生圖基於多模型融合的方法,提升生成質感。經過優化後,混元文生圖的人像模型(髮絲、皺紋等)效果提升了 30%,場景模型(草木、波紋等)效果提升了 25%。

這三個面向的技術優勢,對於混元大模型文生圖產品體驗的提升是顯而易見的。

為了驗證上述能力,本站設定了一些題目,第一時間對混元大模型進行了摸底測試。

鑑於混元是中文原生模型,自然也比其他同類產品更懂「古代中國的語言」,我們首先讓它根據古詩詞進行繪畫。

我們選取一句非常有意願的古詩「醉後不知天在水,滿船清夢壓星河」來測試,看混元大模型能否生成極具畫面感的圖。
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
在《泊船瓜洲》這首詩中,一句「春風又綠江南岸,明月何時照我還」,寫出了無數遊子的鄉愁。混元的生成結果,提取出「春光」、「水岸」、「明月」等意象進行有機組合,讓人看到之後彷彿置身詩句場景之中:
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
接著是有趣的「中國菜畫」環節,來一道「魚香肉絲」經典考題:
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
從讓人san 值狂掉的中餐繪畫,到現在看圖下飯的水準,我們也能感受到文生圖技術的不斷進化。

接下來看看在業界公認的「人像真實感」難題上,混元做得如何:

我們知道最初Midjourney 爆火,就是因為下面這張情侶照片,讓人無法分辨這竟然無AI 生成的。
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
                               用midjourney v5 生成的情侶圖

現在,我們檢視一下混元大模型生成「照騙」的能力。使用的 Prompt 是:
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
你覺得真實感如何?在我們看來,Prompt 中提到的細節拉滿。

這也就是騰訊重點強調的:混元大模型透過最佳化演算法提升了對細節的感知能力與生成效果。這種能力,在許多具體的場景中才得以體現。

例如在動畫場景中,生成「一頭小鹿在森林中奔跑、帶動落葉飛起、月亮很亮很大、小鳥在空中飛翔,氛圍感, CG 風格,側面視角」。
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
是特別像是小時候看的動畫中的畫面?

此外,在動畫創作中,文生圖應用潛力巨大。

我們給到混元大模型的Prompt 是「生成3D,動畫風格,1 個女孩,金色頭髮,微笑,短髮,城市背景」:
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
你覺得生成效果如何?是不是可以直接拿當桌布了?

文生圖背後,有哪些自研技術?

工欲善其事,必先利其器,對於大模型也是如此。

我們了解到,除了創新模型演算法,騰訊混元大模型實現這樣接中文地氣的文生圖效果,其背後還離不開高質​​量的圖文匹配數據、自研的機器學習框架以及強大的算力基礎設施。

騰訊混元大模型已經形成了從模型演算法到機器學習框架再到 AI 基礎設施的全鏈路自研技術路徑。多層次的技術沉澱,意味著大模型的進化需要一步一腳印,從實踐出發,在實踐中提升。

首先來看支撐模型訓練的資料工程。

對於任何 AI 特別是大模型而言,資料都是不可或缺的三大要素之一。大模型文生圖功能亦是如此,圖文資料尤其是圖文之間的配對資料對產生效果的影響舉足輕重。

但是網路上已有資料並不是都能拿來即用的,其中很大的問題是文字對圖片的描述不一定準確,這就導致大多數圖文匹配資料品質比較差。如果拿來用,即使訓練時間很長,模型生成效果仍達不到預期,也會影響生成品質的穩定性和後續的迭代效率。

因此,提升圖文資料品質成為保證文生圖效果的「第一道關」。這時候往往需要透過工程化的方式提升資料質量,支撐模型訓練、最佳化和升級,構築演算法模型的護城河。

面對圖文配對資料問題,騰訊混元文生圖團隊的因應策略是這樣的:首先細緻地完善中文prompt,提升圖文相關性,最大化資料品質;然後採取訓練資料分層、分級的策略,逐步優化模型,最大化資料效果;最後建造資料飛輪,它是大模型快速迭代的關鍵。團隊基於線上使用者使用大模型的回饋,自動化建立訓練數據,加快模型迭代,最大化數據效率。

資料品質、效果和效率提上去了,這就為良好的文生圖效果打下了基礎。而接下來要講的機器學習框架也同樣重要。

強大的機器學習架構或平台會大幅提升開發者建置、訓練和部署模型的速度和效率。騰訊針對大模型訓練和推理場景,自研了 Angel 機器學習平台,主要包括負責訓練的 AngelPTM 和負責推理的 AngelHCF 兩大部分。

其中AngelPTM 採用ZeRO-Cache 最佳化策略,成為超大模型訓練利器,它透過儲存管理擴大單機模型容量,透過多流非同步提高資源利用率,透過顯存管理提高顯存效率。另外利用 4D 並行提高可用顯存上限,減少千卡通訊壓力,釋放計算潛能。自動續訓機制支援千卡故障自動容錯,減少中斷時間。模型訓練情況也在即時監控之下,協同演算法優化模型訓練方向。

目前,AngelPTM 基於業界首創的ZeRO-Cache 機制4D 並行實現了千億混元基座模型的高速訓練,訓練速度相比主流開源框架(DeepSpeed -Chat)提升1 倍。
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
                                    ZeRO-Cache 上。

AngelHCF 主要從客製化多樣化服務策略、平行策略、框架加速(涵蓋常用GPU 加速方法)、模型壓縮(支援業界常用壓縮方法)與高效模型Debug 能力五個層面提升大模型的推理表現。推理速度相比業界主流架構(FasterTransformer)提升 1.3 倍。

騰訊表示,其 Angel 機器學習平台具備了領先性能,能夠幫助提供更好的基建體系,助力大模型們高速運行。這使得混元大模型產生高質圖片的同時,生成速度也大大改善。

擁有了高品質的資料、高效率的機器學習框架,大模型的持續運作也面臨著算力層面的考驗。畢竟,大模型時代,算力為王。

騰訊混元文生圖功能離不開騰訊雲提供的強大算力基礎設施。 2023 年4 月,騰訊雲端發布新一代HCC 高效能運算集群,採用最新一代星星海自研伺服器,並基於自研網路和儲存架構,實現了3.2T 超高互聯頻寬、TB 級吞吐能力和千萬級IOPS。新一代集群算力效能較前代提升了 3 倍,較傳統算力集群方案提升 12 倍以上。
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
夯實底層硬體的同時,上層軟體能力也要並進。新一代 HCC 集群整合了騰訊雲自研的 TACO 訓練加速引擎,從網路協定、通訊策略、AI 框架、模型編譯層面做了大量系統級最佳化。這套全生態的訓練加速方案不僅可以幫助客戶降低 AI 優化門檻,提升 AI 訓練性能,還使訓練調校和算力成本大大降低。

看起來,制約大模型的三大要素演算法、資料和算力,在騰訊混元大模型這裡都不成問題了。自然而然,文生圖品質和效果也得到了保障。

效果「以假亂真」,
#文生圖能力已嵌入騰訊廣告場景

今天我們看到的混合大模型文生圖能力,並非一蹴而就,而是一個實實在在的演進過程。

在上個月舉行的 2023 騰訊全球數位生態大會上,騰訊混元大模型正式亮相。騰訊集團副總裁蔣傑當時表示,混元永遠在路上。騰訊會一直演進混元的能力,並希望每個月都會帶給大家驚喜。

目前,騰訊已有180 個內部業務存取混元大模型,包括包括騰訊會議、騰訊文件、企業微信、騰訊廣告和微信搜一搜等。同時來自零售、教育、金融、醫療、傳媒、交通、政務等多個行業的客戶也透過騰訊雲調用騰訊混元 API,應用領域涉及智慧問答、內容創作、數據分析、程式碼助理等多個場景。

這次開放的文生圖能力就是騰訊混元大模型帶給我們的最大驚喜,展示其在影像自動生成領域的領先能力。當然,騰訊混元文生圖也在逐漸進化中,後續會發展出更多文生圖相關以及圖生圖功能。我們可以狠狠期待一波了。

目前,混元文生圖能力已經嵌入了騰訊廣告場景中,例如產生商品廣告或廣告配圖。在廣告業務下的多輪測評中,騰訊混元文生圖的案例優秀率和廣告主採納率分別達到 86% 和 26%,均高於同類模型。

我們先來看下面這個範例,要求混元大模型產生一個飯店房間。從效果來看,升級後混元文生圖效果明顯更好,設計感、品質感提升很大,細節更豐富。即使與 Midjourney 比較一番,效果也不相上下。
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
人物類別生成場景也有類似的效果。升級後混元生成的人像真實感更強,例如臉部膚色、皺紋等細節。
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
廣告場景之外,騰訊內部也不斷探索其他文生圖的需求場景,例如遊戲場景中產生遊戲元素和遊戲角色、內容場景中生成小說配圖、插圖,雲端業務場景中將混元能力開放給不同產業的客戶。

大浪淘沙,再強悍的模型,也要讓更多人用上並持續獲得回饋,才有可能百尺竿頭更進一步。

可以預見,未來騰訊產品中將迎來混元文生圖能力的大爆發,使用者也將體驗更多 AIGC 帶來的魅力。

以上是騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

DeepMind機器人打乒乓球,正手、反手溜到飛起,全勝人類初學者 DeepMind機器人打乒乓球,正手、反手溜到飛起,全勝人類初學者 Aug 09, 2024 pm 04:01 PM

但可能打不過公園裡的老大爺?巴黎奧運正在如火如荼地進行中,乒乓球項目備受關注。同時,機器人打乒乓球也取得了新突破。剛剛,DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址:https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢?大概和人類業餘選手不相上下:正手反手都會:對手採用多種打法,機器人也能招架得住:接不同旋轉的發球:不過,比賽激烈程度似乎不如公園老大爺對戰。對機器人來說,乒乓球運動

首配機械爪!元蘿蔔亮相2024世界機器人大會,發布首個走進家庭的西洋棋機器人 首配機械爪!元蘿蔔亮相2024世界機器人大會,發布首個走進家庭的西洋棋機器人 Aug 21, 2024 pm 07:33 PM

8月21日,2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相,並最新發布元蘿蔔AI下棋機器人-國際象棋專業版(以下簡稱「元蘿蔔國象機器人」),成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品,全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新,首次在家用機器人上實現了透過機械爪拾取立體棋子,並進行人機對弈、人人對弈、記譜複盤等功能,

Claude也變懶了!網友:學會給自己放假了 Claude也變懶了!網友:學會給自己放假了 Sep 02, 2024 pm 01:56 PM

開學將至,該收心的不只即將開啟新學期的同學,可能還有AI大模型。前段時間,Reddit擠滿了吐槽Claude越來越懶的網友。 「它的水平下降了很多,經常停頓,甚至輸出也變得很短。在發布的第一周,它可以一次性翻譯整整4頁文稿,現在連半頁都輸出不了!」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”,滿滿地

世界機器人大會上,這家承載「未來養老希望」的國產機器人被包圍了 世界機器人大會上,這家承載「未來養老希望」的國產機器人被包圍了 Aug 22, 2024 pm 10:35 PM

在北京舉行的世界機器人大會上,人形機器人的展示成為了現場絕對的焦點,在星塵智能的展台上,由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲,能文能武,吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏,讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道,公司創始人來傑解釋到,絲滑動作的背後,是硬體側追求最好力控和最仿人身體指標(速度、負載等),而是在AI側則採集人的真實動作數據,讓機器人遇強則強,快速學習進化。而敏捷

ACL 2024獎項發表:華科大破解甲骨文最佳論文之一、GloVe時間檢驗獎 ACL 2024獎項發表:華科大破解甲骨文最佳論文之一、GloVe時間檢驗獎 Aug 15, 2024 pm 04:37 PM

本屆ACL大會,投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。一直以來,ACL在NLP領域的學術影響力都名列第一,它也是CCF-A類推薦會議。今年的ACL大會已是第62屆,接收了400餘篇NLP領域的前沿工作。昨天下午,大會公佈了最佳論文等獎項。此次,最佳論文獎7篇(兩篇未公開)、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎(ResourceAward)3篇、社會影響力獎(

李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o 李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o Sep 03, 2024 pm 05:18 PM

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時,加上最近老上頭條的1X人形機器人NEO,你可能會產生一種感覺:我們似乎開始進入機器人時代了。事實上,這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道,有用的機器人往往需要與環境進行複雜精妙的交互,而環境則可被表示成空間域和時間域上的限制。舉個例子,如果要讓機器人倒茶,那麼機器人首先需要抓住茶壺手柄並使之保持直立,不潑灑出茶水,然後平穩移動,一直到讓壺口與杯口對齊,之後以一定角度傾斜茶壺。這

鴻蒙智行享界S9全場景新品發表會,多款重磅新品齊發 鴻蒙智行享界S9全場景新品發表會,多款重磅新品齊發 Aug 08, 2024 am 07:02 AM

今天下午,鸿蒙智行正式迎来了新品牌与新车。8月6日,华为举行鸿蒙智行享界S9及华为全场景新品发布会,带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕昇激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品,从智慧出行、智慧办公到智能穿戴,华为全场景智慧生态持续构建,为消费者带来万物互联的智慧体验。鸿蒙智行:深度赋能,推动智能汽车产业升级华为联合中国汽车产业伙伴,为

分散式人工智慧盛會DAI 2024徵稿:Agent Day,強化學習之父Richard Sutton將出席!顏水成、Sergey Levine以及DeepMind科學家將做主旨報告 分散式人工智慧盛會DAI 2024徵稿:Agent Day,強化學習之父Richard Sutton將出席!顏水成、Sergey Levine以及DeepMind科學家將做主旨報告 Aug 22, 2024 pm 08:02 PM

會議簡介隨著科技的快速發展,人工智慧成為了推動社會進步的重要力量。在這個時代,我們有幸見證並參與分散式人工智慧(DistributedArtificialIntelligence,DAI)的創新與應用。分散式人工智慧是人工智慧領域的重要分支,這幾年引起了越來越多的關注。基於大型語言模型(LLM)的智能體(Agent)異軍突起,透過結合大模型的強大語言理解和生成能力,展現了在自然語言互動、知識推理、任務規劃等方面的巨大潛力。 AIAgent正在接棒大語言模型,成為目前AI圈的熱門話題。 Au

See all articles