首頁 科技週邊 人工智慧 基於DiT,支援4K影像生成,華為諾亞0.6B文生圖模型PixArt-Σ來了

基於DiT,支援4K影像生成,華為諾亞0.6B文生圖模型PixArt-Σ來了

Mar 11, 2024 pm 01:07 PM
產業

這個模型和 Sora 一樣採用了 DiT 框架。

#眾所周知,開發頂級的文生圖(T2I)模型需要大量資源,因此資源有限的個人研究者基本上都不可能承擔得起,這也成為了AIGC(人工智慧內容生成)社群創新的一大阻礙。同時隨著時間的推移,AIGC 社群又能獲得持續更新的、更高品質的資料集和更先進的演算法。

於是關鍵的問題來了:我們能以怎樣的方式將這些新元素高效地整合進現有模型,依託有限的資源讓模型變得更強大?

為了探索這個問題,華為諾亞方舟實驗室等研究機構的一個研究團隊提出一種新的訓練方法:由弱到強式訓練(weak- to-strong training)。

基於DiT,支援4K影像生成,華為諾亞0.6B文生圖模型PixArt-Σ來了

論文標題:PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
論文地址:https: //arxiv.org/pdf/2403.04692.pdf
專案頁:https://pixart-alpha.github.io/PixArt-sigma-project/

他們的研究是基於他們去年十月提出的一種高效的文生圖訓練方法PixArt-α,參閱本站報道《超低訓練成本文生圖模型PixArt 來了,效果媲美MJ,只需SD 10% 訓練時間》。 PixArt-α 是 DiT(擴散 Transformer)框架的一種早期嘗試。而現在,隨著 Sora 登上熱搜以及 Stable Diffusion 層出不窮的應用,DiT 架構的有效性得到了研究社區越來越多工作的驗證,例如 PixArt, Dit-3D, GenTron 等“1”。

該團隊使用 PixArt-α 的預訓練基礎模型,透過整合進階元素以促進其持續提升,最終得到了一個更強大的模型 PixArt-Σ。圖 1 展示了一些生成結果範例。

基於DiT,支援4K影像生成,華為諾亞0.6B文生圖模型PixArt-Σ來了

PixArt-Σ 如何煉成?

具體來說,為了實現由弱到強式訓練,造出 PixArt-Σ,團隊採用了以下改進措施。

更高品質的訓練數據

#該團隊收集了一個高品質數據集Internal-Σ,其主要關注兩個面向:

(1) 高品質影像:此資料集包含3,300 萬張來自網路的高解析度影像,全都超過1K 分辨率,包括230 萬張分辨率大約為4K 的圖像。這些圖像的主要特點是美觀度高並且涵蓋廣泛的藝術風格。

(2) 密集且準確的描述:為了給上述圖像更精準和詳細的描述,團隊將PixArt-α 中使用的LLaVA 替換成了一種更強大的圖像描述器Share-Captioner。

不僅如此,為了提升模型對齊文字概念和視覺概念的能力,該團隊將文字編碼器(即Flan-T5)的token 長度擴展到了大約300 字。他們觀察到,這些改進可以有效消除模型產生幻覺的傾向,實現更高品質的文字 - 圖像對齊。

下表 1 展示了不同資料集的統計資料。

基於DiT,支援4K影像生成,華為諾亞0.6B文生圖模型PixArt-Σ來了

高效的token 壓縮

#為了增強PixArt-α,該團隊將其生成解析度從1K 提升到了4K。為了產生超高解析度(如 2K/4K)的影像,token 數量會大幅成長,這會導致運算需求大幅成長。

為了解決這個難題,他們引入了專門針對 DiT 框架調整過的自註意力模組,其中使用了鍵和值 token 壓縮。具體來說,他們使用了步長為 2 的分組卷積來執行鍵和值的局部聚合,如下圖 7 所示。

基於DiT,支援4K影像生成,華為諾亞0.6B文生圖模型PixArt-Σ來了

此外,團隊還採用了一種專門設計的權重初始化方案,可在不使用 KV(鍵 - 值)壓縮的前提下從預訓練模型實現平滑適應。這項設計可有效將高解析度影像產生的訓練和推理時間降低約 34%。

由弱到強式訓練策略

#該團隊提出了多種微調技術,可快速且有效率地將弱模型調整為強模型。其中包括:
(1) 替換使用了更強大的變分自動編碼器(VAE):將 PixArt-α 的 VAE 替換成了 SDXL 的 VAE。

(2) 從低解析度到高解析度擴展,這個過程為了應對效能下降的問題,他們使用了位置嵌入(PE)插值方法。

(3) 從不使用 KV 壓縮的模型演進為使用 KV 壓縮的模型。

實驗結果驗證了由弱到強式訓練方法的可行性和有效性。

透過上述改進,PixArt-Σ 能以盡可能低的訓練成本和盡可能少的模型參數產生高品質的 4K 解析度影像。

具體來說,透過從一個已經預先訓練的模型開始微調,該團隊僅額外使用PixArt-α 所需的9% 的GPU 時間,就得到了能生成1K 高解析度影像的模型。如此表現非常出色,因為其中還取代使用了新的訓練資料和更強大的 VAE。

此外,PixArt-Σ 的參數量也只有 0.6B,相較之下,SDXL 和 SD Cascade 的參數量分別為 2.6B 和 5.1B。

PixArt-Σ 產生的影像的美觀程度足以比肩目前最頂級的文生圖產品,例如 DALL・E 3 和 MJV6。此外,PixArt-Σ 也展現出了與文字 prompt 細粒度對齊的卓越能力。

圖 2 展示了一張 PixArt-Σ 產生 4K 高解析度影像的結果,可以看到產生結果很好地遵從了複雜且資訊密集的文字指令。

基於DiT,支援4K影像生成,華為諾亞0.6B文生圖模型PixArt-Σ來了

實驗

實作細節

#訓練細節:對於執行條件特徵提取的文本編碼器,團隊按照Imagen 和PixArt-α 的做法使用了T5 的編碼器(即Flan-T5-XXL)。基礎擴散模型就是 PixArt-α。不同於大多數研究提取固定的77 個文本token 的做法,這裡將文本token 的長度從PixArt-α 的120 提升到了300,因為Internal-Σ 中整理的描述信息更加密集,可以提供高細粒度的細節。另外 VAE 使用了 SDXL 的已預先訓練的凍結版 VAE。其它實現細節與 PixArt-α 一樣。

模型是基於 PixArt-α 的 256px 預訓練檢查點開始微調的,並使用了位置嵌入插值技術。

最終的模型(包括 1K 解析度)是在 32 塊 V100 GPU 上訓練的。他們還額外使用了 16 塊 A100 GPU 來訓練 2K 和 4K 影像生成模型。

評估指標:為了更好地展示美觀度和語義能力,團隊收集了3 萬對高品質文字- 圖像,以對最強大的文生圖模型進行基準評估。這裡主要是透過人類和 AI 偏好來評估 PixArt-Σ,因為 FID 指標可能無法適當地反映生成品質。

效能比較

# 影像品質評估:團隊定性地比較了PixArt- Σ 與閉源文生圖(T2I)產品與開源模型的生成品質。如圖 3 所示,相較於開源模型 SDXL 和該團隊之前的 PixArt-α,PixArt-Σ 生成的人像的真實感更高,並且也有更好的語義分析能力。與 SDXL 相比,PixArt-Σ 能更好地遵循使用者指令。

基於DiT,支援4K影像生成,華為諾亞0.6B文生圖模型PixArt-Σ來了

PixArt-Σ 不僅優於開源模型,而且與目前的閉源產品相比也頗具競爭力,如圖 4 所示。

基於DiT,支援4K影像生成,華為諾亞0.6B文生圖模型PixArt-Σ來了

產生高解析度影像:新方法可以直接產生 4K 解析度的影像,而無需任何後處理。此外,PixArt-Σ 也能準確遵從使用者提供的複雜和詳細的長文本。因此,使用者無需費心設計 prompt 也能得到讓人滿意的結果。

人類 / AI(GPT-4V)偏好研究:團隊也研究了人類和 AI 對生成結果的偏好。他們收集了 6 個開源模型的生成結果,包括 PixArt-α、PixArt-Σ、SD1.5、Stable Turbo、Stable XL、Stable Cascade 和 Playground-V2.0。他們開發了一個網站,透過展現 prompt 和對應的圖像來收集人類偏好回饋。

人類評估者可根據生成品質以及與 prompt 的匹配程度來給予影像排名。結果見圖 9 的藍色長條圖。

可以看出人類評估者對 PixArt-Σ 的熱愛勝過其它 6 個生成器。相較於先前的文生圖擴散模型,如SDXL(2.6B 參數)和SD Cascade(5.1B 參數),PixArt-Σ 能以少得多的參數(0.6B)產生更高品質且更符合用戶prompt 的圖像。

基於DiT,支援4K影像生成,華為諾亞0.6B文生圖模型PixArt-Σ來了

此外,團隊也使用了先進的多模態模型 GPT-4 Vision 來執行 AI 偏好研究。他們的做法是給 GPT-4 Vision 提供兩張圖像,讓它基於圖像品質和圖像 - 文字對齊程度進行投票。結果見圖 9 中的橘色和綠色長條圖,可以看到情況與人類評估基本一致。

團隊也進行了消融研究來驗證各種改進措施的有效性。更多詳情,請訪問原論文。

參考文章:1.https://www.shoufachen.com/Awesome-Diffusion-Transformers/
#

以上是基於DiT,支援4K影像生成,華為諾亞0.6B文生圖模型PixArt-Σ來了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1664
14
CakePHP 教程
1423
52
Laravel 教程
1318
25
PHP教程
1269
29
C# 教程
1248
24
DeepMind機器人打乒乓球,正手、反手溜到飛起,全勝人類初學者 DeepMind機器人打乒乓球,正手、反手溜到飛起,全勝人類初學者 Aug 09, 2024 pm 04:01 PM

但可能打不過公園裡的老大爺?巴黎奧運正在如火如荼地進行中,乒乓球項目備受關注。同時,機器人打乒乓球也取得了新突破。剛剛,DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址:https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢?大概和人類業餘選手不相上下:正手反手都會:對手採用多種打法,機器人也能招架得住:接不同旋轉的發球:不過,比賽激烈程度似乎不如公園老大爺對戰。對機器人來說,乒乓球運動

首配機械爪!元蘿蔔亮相2024世界機器人大會,發布首個走進家庭的西洋棋機器人 首配機械爪!元蘿蔔亮相2024世界機器人大會,發布首個走進家庭的西洋棋機器人 Aug 21, 2024 pm 07:33 PM

8月21日,2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相,並最新發布元蘿蔔AI下棋機器人-國際象棋專業版(以下簡稱「元蘿蔔國象機器人」),成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品,全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新,首次在家用機器人上實現了透過機械爪拾取立體棋子,並進行人機對弈、人人對弈、記譜複盤等功能,

Claude也變懶了!網友:學會給自己放假了 Claude也變懶了!網友:學會給自己放假了 Sep 02, 2024 pm 01:56 PM

開學將至,該收心的不只即將開啟新學期的同學,可能還有AI大模型。前段時間,Reddit擠滿了吐槽Claude越來越懶的網友。 「它的水平下降了很多,經常停頓,甚至輸出也變得很短。在發布的第一周,它可以一次性翻譯整整4頁文稿,現在連半頁都輸出不了!」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”,滿滿地

世界機器人大會上,這家承載「未來養老希望」的國產機器人被包圍了 世界機器人大會上,這家承載「未來養老希望」的國產機器人被包圍了 Aug 22, 2024 pm 10:35 PM

在北京舉行的世界機器人大會上,人形機器人的展示成為了現場絕對的焦點,在星塵智能的展台上,由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲,能文能武,吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏,讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道,公司創始人來傑解釋到,絲滑動作的背後,是硬體側追求最好力控和最仿人身體指標(速度、負載等),而是在AI側則採集人的真實動作數據,讓機器人遇強則強,快速學習進化。而敏捷

ACL 2024獎項發表:華科大破解甲骨文最佳論文之一、GloVe時間檢驗獎 ACL 2024獎項發表:華科大破解甲骨文最佳論文之一、GloVe時間檢驗獎 Aug 15, 2024 pm 04:37 PM

本屆ACL大會,投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。一直以來,ACL在NLP領域的學術影響力都名列第一,它也是CCF-A類推薦會議。今年的ACL大會已是第62屆,接收了400餘篇NLP領域的前沿工作。昨天下午,大會公佈了最佳論文等獎項。此次,最佳論文獎7篇(兩篇未公開)、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎(ResourceAward)3篇、社會影響力獎(

李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o 李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o Sep 03, 2024 pm 05:18 PM

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時,加上最近老上頭條的1X人形機器人NEO,你可能會產生一種感覺:我們似乎開始進入機器人時代了。事實上,這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道,有用的機器人往往需要與環境進行複雜精妙的交互,而環境則可被表示成空間域和時間域上的限制。舉個例子,如果要讓機器人倒茶,那麼機器人首先需要抓住茶壺手柄並使之保持直立,不潑灑出茶水,然後平穩移動,一直到讓壺口與杯口對齊,之後以一定角度傾斜茶壺。這

分散式人工智慧盛會DAI 2024徵稿:Agent Day,強化學習之父Richard Sutton將出席!顏水成、Sergey Levine以及DeepMind科學家將做主旨報告 分散式人工智慧盛會DAI 2024徵稿:Agent Day,強化學習之父Richard Sutton將出席!顏水成、Sergey Levine以及DeepMind科學家將做主旨報告 Aug 22, 2024 pm 08:02 PM

會議簡介隨著科技的快速發展,人工智慧成為了推動社會進步的重要力量。在這個時代,我們有幸見證並參與分散式人工智慧(DistributedArtificialIntelligence,DAI)的創新與應用。分散式人工智慧是人工智慧領域的重要分支,這幾年引起了越來越多的關注。基於大型語言模型(LLM)的智能體(Agent)異軍突起,透過結合大模型的強大語言理解和生成能力,展現了在自然語言互動、知識推理、任務規劃等方面的巨大潛力。 AIAgent正在接棒大語言模型,成為目前AI圈的熱門話題。 Au

鴻蒙智行享界S9全場景新品發表會,多款重磅新品齊發 鴻蒙智行享界S9全場景新品發表會,多款重磅新品齊發 Aug 08, 2024 am 07:02 AM

今天下午,鸿蒙智行正式迎来了新品牌与新车。8月6日,华为举行鸿蒙智行享界S9及华为全场景新品发布会,带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕昇激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品,从智慧出行、智慧办公到智能穿戴,华为全场景智慧生态持续构建,为消费者带来万物互联的智慧体验。鸿蒙智行:深度赋能,推动智能汽车产业升级华为联合中国汽车产业伙伴,为

See all articles