AI繪畫新想法：國產開源50億參數新模型，合成可控性、品質實現飛躍-人工智慧-PHP中文網

方法

實驗

首頁

科技週邊

人工智慧

AI繪畫新想法：國產開源50億參數新模型，合成可控性、品質實現飛躍

PHPz

Apr 13, 2023 am 10:37 AM

ai 繪畫

AI繪畫新想法：國產開源50億參數新模型，合成可控性、品質實現飛躍

論文網址：https://arxiv.org/pdf/2302.09778v2.pdf
專案網址：https://github.com/damo-vilab/composer

近年來來，在大數據上學習的大規模生成模型能夠出色地合成影像，但可控性有限。可控影像生成的關鍵不僅依賴條件，更重要的是依賴組合性。後者可以透過引入龐大數量的潛在組合來指數級地擴展控制空間（例如 100 個圖像，每個有 8 個表徵，產生大約 100^8 種組合）。類似的概念在語言和場景理解領域得到了探索，其中的組合性被稱為組合泛化，即從有限的已知成分中識別或生成潛在的無限數量的新組合的技能。

最新的一項研究提供了一種新的生成範式—— 可以在靈活控制輸出圖像（如空間佈局和調色板）的同時保持合成品質和模型創造力。

這項研究以組合性為核心思想，首先將圖像分解為具有代表性的因子，然後以這些因子為條件訓練擴散模型，對輸入進行重組。在推理階段，豐富的中間表徵形式作為可組合元素，為可自訂內容的創建提供了巨大的設計空間 (即與分解因子的數量成指數比例)。值得注意的是，名為 Composer 的方法支援各種層級的條件，例如將文字描述作為全局訊息，將深度圖和草圖作為局部指導，將顏色直方圖作為低級細節等。

除了提高可控性之外，該研究還確認了 Composer 可以作為通用框架，在無需再訓練的情況下促進廣泛的經典生成任務。

方法

本文所介紹的架構包含分解階段（影像被分成一組獨立的元件）與合成階段（元件利用條件擴散模型重新組合）。這裡首先簡要介紹擴散模型和使用 Composer 實現的導引方向，然後將詳細說明影像分解和合成的實現。

2.1. 擴散模型

#擴散模型是一種生成模型，透過迭代去噪過程從高斯噪聲中產生數據。通常使用簡單的均方誤差作為去雜訊目標：

AI繪畫新想法：國產開源50億參數新模型，合成可控性、品質實現飛躍

#其中，x_0 是具有可選條件c 的訓練數據， AI繪畫新想法：國產開源50億參數新模型，合成可控性、品質實現飛躍是加性高斯噪聲，a_t、σ_t 是t 的標量函數，是具有可學習參數θ 的擴散模型。無分類器引導在最近的工作中得到了最廣泛的應用，用於擴散模型的條件資料取樣，其中預測的雜訊透過以下方式進行調整：

AI繪畫新想法：國產開源50億參數新模型，合成可控性、品質實現飛躍

公式 AI繪畫新想法：國產開源50億參數新模型，合成可控性、品質實現飛躍

#中，ω 為引導權重。 DDIM 和 DPM-Solver 常被用來加速擴散模型的取樣過程。 DDIM 也可用於將樣本 x_0 反推到其純雜訊潛在 x_T，從而實現各種影像編輯操作。

引導方向：Composer 是一個可以接受多種條件的擴散模型，可以在無分類器引導下實現各種方向：

AI繪畫新想法：國產開源50億參數新模型，合成可控性、品質實現飛躍

c_1 和c_2 是兩組條件。 c_1 和 c_2 的不同選擇表徵對條件的不同強調。

(c_2 c_1) 內的條件強調為ω， (c_1 c_2) 內的條件抑制為(1−ω)， c1∩c2 內的條件的指導權重為1.0. 。雙向指導：透過使用條件c_1 將影像x_0 反轉到潛在的x_T，然後使用另一個條件c_2 從x_T 取樣，研究能夠使用Composer 以解糾纏的方式操作影像，其中操作方向由c_2 和c_1 之間的差異來定義。

分解

#研究將影像分解為捕捉影像各個方面的去耦表徵，並且描述了該任務中使用的八種表徵，這幾種表徵都是在訓練過程中即時提取的。

說明（Caption）#：研究直接使用圖像- 文字訓練資料中的標題或描述資訊（例如，LAION-5B (Schuhmann et al., 2022)）作為圖像說明。當註解不可用時，也可以利用預先訓練好的圖像說明模型。研究使用預先訓練的 CLIP ViT-L /14@336px (Radford et al., 2021) 模型提取的句子和單字嵌入來表徵這些標題。

語意與風格（Semantics and style）：研究使用預先訓練的CLIP ViT-L/14@336px 模型擷取的影像嵌入來表徵影像的語意和風格，類似unCLIP。

顏色（Color）：研究使用平滑的 CIELab 直方圖來表徵影像的色彩統計。將 CIELab 色彩空間量化為 11 個色調值，5 個飽和度和 5 個光值，使用平滑 sigma 為 10。經驗所得，這樣設定的效果更好。

草圖（Sketch）：研究應用邊緣偵測模型，然後使用草圖簡化演算法來擷取影像的草圖。草圖捕捉影像的局部細節，具有較少的語義。

實例（Instances）：研究使用預訓練的 YOLOv5 模型對影像應用實例分割來提取其實例遮罩。實例分割遮罩反映了視覺物件的類別和形狀資訊。

深度圖（Depthmap）#：研究使用預訓練的單目深度估計模型來擷取影像的深度圖，大致捕捉影像的佈局。

強度（Intensity）：研究引入原始灰階影像作為表徵，迫使模型學習處理顏色的解糾纏自由度。為了引入隨機性，研究統一從一組預先定義的 RGB 通道權重中取樣來創建灰階影像。

掩碼（Masking）：研究引入影像掩碼，使Composer 能夠將影像產生或操作限制在可編輯的區域。使用 4 通道表徵，其中前 3 個通道對應於遮罩 RGB 影像，而最後一個通道對應於二進位遮罩。

要注意的是，雖然本文使用上述八種條件進行了實驗，但使用者可以使用 Composer 自由自訂條件。

構成

研究使用擴散模型從一組表徵中重新組合影像。具體來說，研究利用 GLIDE 架構並修改其調節模組。研究探討了兩種不同的機制來根據表徵調整模型：

全局調節：對於包括 CLIP 句子嵌入、影像嵌入和調色板在內的全局表徵，研究將它們投影並添加到時間步嵌入中。此外，研究還將圖像嵌入和調色板投射到八個額外的 token 中，並將它們與 CLIP 單字嵌入連接起來，然後將其用作 GLIDE 中交叉注意的上下文，類似於 unCLIP 。由於條件要麼是相加的，要麼可以在交叉注意中選擇性地掩蓋，所以在訓練和推理期間可以直接放棄條件，或者引入新的全局條件。

局部化調節：對於局部化表徵，包括草圖、分割遮罩、深度映射、強度影像和遮罩影像，研究使用堆疊卷積層將它們投射到與雜訊潛在x_t 具有相同空間大小的均維嵌入。然後計算這些嵌入的和，並將結果連接到 x_t，然後將其輸入到 UNet。由於嵌入是可添加的，因此很容易適應缺失的條件或合併新的局部化條件。

共同訓練策略：設計一種聯合訓練策略，使模型能夠從各種條件組合中學習解碼圖像，這一點很重要。該研究對幾種配置進行了實驗，並確定了一個簡單而有效的配置，其中對每個條件使用獨立的退出機率為 0.5，刪除所有條件的機率為 0.1，保留所有條件的機率為 0.1。對於強度影像使用 0.7 的特殊退出機率，因為它們包含了關於影像的絕大多數信息，並且在訓練過程中可能會弱化其他條件。

基本擴散模型產生 64 × 64 解析度的影像。為了產生高解析度影像，研究訓練了兩個無條件擴散模型用於上取樣，分別將影像從 64 × 64 提升到 256 × 256，以及從 256 × 256 提升到 1024 × 1024 解析度。上採樣模型的架構是從 unCLIP 修改的，其中研究在低解析度層中使用更多通道，並引入自註意區塊來擴大容量。此外還引入了一個可選的先驗模型，該模型從字幕生成圖像嵌入。根據經驗，先驗模型能夠在特定的條件組合下提高生成影像的多樣性。

實驗

變體：使用Composer 可以創建與給定圖像相似的新圖像，但透過對其表徵的特定子集所進行的條件反射在某些方面有些不同。透過仔細選擇不同表徵的組合，人們可以靈活地控制影像變化的範圍 (圖 2a)。在納入更多的條件後，研究所介紹的方法比僅以圖像嵌入為條件的unCLIP 生成變體：使用Composer 可以創建與給定圖像相似的新圖像，但透過對其表徵的特定子集進行條件反射，在某些方面有所不同。透過仔細選擇不同表徵的組合，人們可以靈活地控制影像變化的範圍 (圖 2a)。在納入更多的條件後，研究所介紹的方法比僅以影像嵌入為條件的 unCLIP 的重建準確率更高。

AI繪畫新想法：國產開源50億參數新模型，合成可控性、品質實現飛躍

###################################

以上是AI繪畫新想法：國產開源50億參數新模型，合成可控性、品質實現飛躍的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7831

Java教學

1648

CakePHP 教程

1402

Laravel 教程

1300

PHP教程

1239

Related knowledge

大宗交易的虛擬貨幣交易平台排行榜top10最新發布 Apr 22, 2025 am 08:18 AM

選擇大宗交易平台時應考慮以下因素：1. 流動性：優先選擇日均交易量超50億美元的平台。 2. 合規性：查看平台是否持有美國FinCEN、歐盟MiCA等牌照。 3. 安全性：冷錢包存儲比例和保險機制是關鍵指標。 4. 服務能力：是否提供專屬客戶經理和定制化交易工具。

數字貨幣交易所App前十名蘋果版下載入口匯總 Apr 22, 2025 am 09:27 AM

提供各種複雜的交易工具和市場分析。覆蓋 100 多個國家，日均衍生品交易量超 300 億美元，支持 300 多個交易對與 200 倍槓桿，技術實力強大，擁有龐大的全球用戶基礎，提供專業的交易平台、安全存儲解決方案以及豐富的交易對。

排名前十的虛擬貨幣交易app有哪些十大數字貨幣交易所平台推薦 Apr 22, 2025 pm 01:12 PM

2025年安全的數字貨幣交易所排名前十依次為：1. Binance，2. OKX，3. gate.io，4. Coinbase，5. Kraken，6. Huobi，7. Bitfinex，8. KuCoin，9. Bybit，10. Bitstamp，這些平台均採用了多層次的安全措施，包括冷熱錢包分離、多重簽名技術以及24/7的監控系統，確保用戶資金的安全。

穩定幣有哪些？穩定幣如何交易？ Apr 22, 2025 am 10:12 AM

常見的穩定幣有：1. 泰達幣（USDT），由Tether發行，與美元掛鉤，應用廣泛但透明性曾受質疑；2. 美元幣（USDC），由Circle和Coinbase發行，透明度高，受機構青睞；3. 戴幣（DAI），由MakerDAO發行，去中心化，DeFi領域受歡迎；4. 幣安美元（BUSD），由幣安和Paxos合作，交易和支付表現出色；5. 真實美元（TUSD），由TrustTo

目前有多少穩定幣交易所？穩定幣種類有多少？ Apr 22, 2025 am 10:09 AM

截至2025年，穩定幣交易所數量約為千家。 1. 法定貨幣支持的穩定幣包括USDT、USDC等。 2. 加密貨幣支持的穩定幣如DAI、sUSD。 3. 算法穩定幣如TerraUSD。 4. 還有混合型穩定幣。

幣圈十大交易所有哪些最新幣圈app推薦 Apr 24, 2025 am 11:57 AM

選擇可靠的交易所至關重要，Binance、OKX、Gate.io等十大交易所各具特色，CoinGecko、Crypto.com等新app也值得關注。

2025下一個千倍幣可能有哪些 Apr 24, 2025 pm 01:45 PM

截至2025年4月，有七个加密货币项目被认为具有显著增长潜力：1. Filecoin（FIL）通过分布式存储网络实现快速发展；2. Aptos（APT）以高性能Layer 1公链吸引DApp开发者；3. Polygon（MATIC）提升以太坊网络性能；4. Chainlink（LINK）作为去中心化预言机网络满足智能合约需求；5. Avalanche（AVAX）以快速交易和

DLC是什麼幣 DLC幣前景怎麼樣 Apr 24, 2025 pm 12:03 PM

DLC幣是基於區塊鏈的加密貨幣，旨在提供高效、安全的交易平台，支持智能合約和跨鏈技術，適用於金融和支付領域。

See all articles

AI繪畫新想法：國產開源50億參數新模型，合成可控性、品質實現飛躍

方法

實驗

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題