簡化文生圖prompt,LLM模型產生高品質影像
擴散模型已經成為主流的文字到圖像生成模型,它可以透過文字提示來引導產生高品質且內容豐富的圖像
如果輸入的提示過於簡潔,現有的模型在語義理解和常識推理方面都存在局限,這將導致生成的圖像品質明顯下降
中山大學HCP實驗室的林倞團隊提出了一種名為SUR-adapter的簡單而有效的微調方法,旨在提高模型對敘述性提示的理解能力。該方法是一種語義理解和推理適配器,適用於預訓練的擴散模型,並具有參數高效的特點
##請點擊以下鏈接檢視論文:https://arxiv.org/abs/2305.05189
開源位址:https://github.com/Qrange-group/SUR-adapter
#為了達到這個目標,研究者首先收集並標註了一個名為SURD的資料集。這個資料集包含了超過5.7萬個多模態樣本,每個樣本都包含一個簡單的敘述性提示、一個複雜的基於關鍵字的提示以及一張高質量的圖像
研究人員將敘事提示的語義表示與複雜提示對齊,並透過知識蒸餾將大型語言模型(LLM)的知識遷移到SUR適配器,以便能夠獲得強大的語義理解和推理能力來構建高品質的文本語義表徵用於文字到圖像生成。然後,他們將敘事提示的語義表示與複雜提示對齊,並透過知識蒸餾將大型語言模型(LLM)的知識遷移到SUR適配器,以便能夠獲得強大的語義理解和推理能力來構建高品質的文本語義表徵用於文字到圖像生成
我們透過整合多個LLM和預訓練擴散模型進行實驗,發現該方法能夠有效地使擴散模型理解和推理簡潔的自然語言描述,同時不會降低圖像品質
這種方法可以使得文字到圖像的擴散模型更易於使用,提供更好的用戶體驗,進一步推動用戶友好的文本到圖像生成模型的發展,並彌補簡單敘事提示和基於關鍵字提示之間的語義差距
背景介紹目前,以穩定擴散為代表的文本到圖像預訓練模型已經成為人工智慧生成內容領域最重要的基礎模型之一,在圖像編輯、視頻生成、3D對像生成等任務中起著重要角色
目前,這些預先訓練的擴散模型的語意能力主要取決於文字編碼器(如CLIP),其語意理解能力直接影響到擴散模型的生成效果
本文首先透過建構視覺問答任務(VQA)中常見的問題類別,如"計數"、"顏色"和"動作",來測試Stable diffusion的圖文匹配準確度。我們將人工統計並進行測試
以下是建構各種提示的範例,詳見下表
#方法概述
重寫後的內容:1. 資料預處理
#首先,我們可以從常用的擴散模型線上網站lexica.art、civitai.com和stablediffusionweb中獲取大量的圖片文字對。然後,我們需要對這些數據進行清洗和篩選,以獲得超過57000張高品質的三元組數據(包括複雜提示、簡單提示和圖片),並將其構成SURD數據集# 在下圖中所示,複雜提示是指產生影像時擴散模型所需的文字提示條件,通常這些提示具有複雜的格式和描述。簡單提示是透過BLIP對圖像產生的文字描述,它採用符合人類描述的語言格式 #一般來說,符合正常人類語言描述的簡單提示很難讓擴散模型生成足夠符合語義的圖像,而複雜提示(用戶戲稱為擴散模型的「咒語」)則可以達到令人滿意的效果 需要重新編寫的內容是:2. 大型語言模型的語意蒸餾 本文介紹了一種使用Transformer結構的Adapter來蒸餾大型語言模型在特定隱藏層中的語意特徵的方法,並且透過將Adapter引導的大型語言模型訊息與原始文字編碼器輸出的語意特徵進行線性組合,得到最終的語意特徵 大語言模型選用的是不同大小的LLaMA模型,而擴散模型的UNet部分在整個訓練過程中的參數都是凍結的 需要重寫的內容是:3. 影像品質恢復 為了保持原意不變,需要將內容改寫為中文:
由於本文結構在預訓練大模型推理過程引入了可學習模組,一定程度破壞了預訓練模型的原圖生成質量,因此需要將圖像生成的質量拉回原預訓練模型的生成質量水平 本文使用SURD資料集中的三元組,在訓練過程中引入了對應的品質損失函數,以恢復影像產生的品質。具體而言,本文希望透過新模組後獲得的語意特徵能夠與複雜提示的語意特徵盡可能對齊 下圖展示了SUR-adapter對預訓練擴散模型的fine-tuning框架。右側為Adapter的網路結構 對於SUR-adapter的性能,本文從語義匹配和圖像質量兩個方面進行了分析 一方面,根據下表顯示,SUR-adapter能夠有效地解決文生圖擴散模型中常見的語義不匹配問題,適用於不同的實驗設定。在不同類別的語意準則下,準確度也有一定的提升 另一方面,本文利用常用的BRISQUE等常用的影像品質評估指標下,對原始pretrain擴散模型和使用了SUR-adapter後的擴散模型所產生圖片的品質進行統計檢驗,我們可以發現兩者沒有顯著的差異。 我們也進行了一個人類偏好的問卷測試 #透過以上分析,可以得出結論,所提出的方法能夠在保持圖像生成品質的同時,緩解預訓練文字到圖像的固有圖文不匹配問題 我們也可以透過以下影像產生的範例來定性展示,更詳細的分析和細節請參閱本文和開源倉庫 需要進行改寫的內容是: 林倞教授於2010年創辦了中山大學人機物智慧融合實驗室(HCP Lab)。近年來,該實驗室在多模態內容理解、因果及認知推理、具身智能等領域取得了豐富的學術成果。實驗室多次榮獲國內外科技獎項和最佳論文獎,並致力於開發產品級的人工智慧技術和平台實驗結果
HCP實驗室簡介
以上是簡化文生圖prompt,LLM模型產生高品質影像的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

選擇大宗交易平台時應考慮以下因素:1. 流動性:優先選擇日均交易量超50億美元的平台。 2. 合規性:查看平台是否持有美國FinCEN、歐盟MiCA等牌照。 3. 安全性:冷錢包存儲比例和保險機制是關鍵指標。 4. 服務能力:是否提供專屬客戶經理和定制化交易工具。

提供各種複雜的交易工具和市場分析。覆蓋 100 多個國家,日均衍生品交易量超 300 億美元,支持 300 多個交易對與 200 倍槓桿,技術實力強大,擁有龐大的全球用戶基礎,提供專業的交易平台、安全存儲解決方案以及豐富的交易對。

2025年安全的數字貨幣交易所排名前十依次為:1. Binance,2. OKX,3. gate.io,4. Coinbase,5. Kraken,6. Huobi,7. Bitfinex,8. KuCoin,9. Bybit,10. Bitstamp,這些平台均採用了多層次的安全措施,包括冷熱錢包分離、多重簽名技術以及24/7的監控系統,確保用戶資金的安全。

常見的穩定幣有:1. 泰達幣(USDT),由Tether發行,與美元掛鉤,應用廣泛但透明性曾受質疑;2. 美元幣(USDC),由Circle和Coinbase發行,透明度高,受機構青睞;3. 戴幣(DAI),由MakerDAO發行,去中心化,DeFi領域受歡迎;4. 幣安美元(BUSD),由幣安和Paxos合作,交易和支付表現出色;5. 真實美元(TUSD),由TrustTo

截至2025年,穩定幣交易所數量約為千家。 1. 法定貨幣支持的穩定幣包括USDT、USDC等。 2. 加密貨幣支持的穩定幣如DAI、sUSD。 3. 算法穩定幣如TerraUSD。 4. 還有混合型穩定幣。

選擇可靠的交易所至關重要,Binance、OKX、Gate.io等十大交易所各具特色,CoinGecko、Crypto.com等新app也值得關注。

截至2025年4月,有七个加密货币项目被认为具有显著增长潜力:1. Filecoin(FIL)通过分布式存储网络实现快速发展;2. Aptos(APT)以高性能Layer 1公链吸引DApp开发者;3. Polygon(MATIC)提升以太坊网络性能;4. Chainlink(LINK)作为去中心化预言机网络满足智能合约需求;5. Avalanche(AVAX)以快速交易和
