目錄
「客製化」大師
如何運作?
網友熱評
首頁 科技週邊 人工智慧 Midjourney勁敵來了! GoogleStyleDrop王牌「客製化大師」引爆AI藝術圈

Midjourney勁敵來了! GoogleStyleDrop王牌「客製化大師」引爆AI藝術圈

Jun 05, 2023 pm 01:33 PM
Google 模型

GoogleStyleDrop一出,瞬間在網路上刷螢幕了。

給定梵谷的星空,AI化身梵谷大師,對這種抽象風格頂級理解後,做出無數幅類似的畫作。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

再來一張卡片通風,想要繪製的物件呆萌了很多。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

甚至,它還能精確把控細節,設計出原風格的logo。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

StyleDrop的魅力在於,只需要一張圖作為參考,無論多麼複雜的藝術風格,都能解構再復刻。

網友紛紛表示,又是淘汰設計師的那種AI工具。

StyleDrop爆火研究便是來自Google研究團隊最新出品。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

#論文網址:https://arxiv.org/pdf/2306.00983.pdf

現在,有了StyleDrop這樣的工具,不但可以更可控地繪畫,還可以完成之前難以想像的精細工作,例如繪製logo。

就連英偉達科學家稱之為「現象級」成果。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

「客製化」大師

論文作者介紹道,StyleDrop的靈感來源Eyedropper(吸色/取色工具)。

同樣,StyleDrop同樣希望大家可以快速、毫不費力地從單一/少數參考圖像中「挑選」樣式,以產生該樣式的圖像。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

一隻樹懶能夠有18種風格:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

#一隻熊貓有24種風格:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

#小朋友畫的水彩畫,StyleDrop完美把控,甚至連紙張的褶皺都還原出來了。

不得不說,太強了。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

還有StyleDrop參考不同風格對英文字母的設計:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

同樣是梵谷風的字母。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

還有線條畫。線條畫是對影像的高度抽象,對畫面生成構成合理性要求非常高,過去的方法一直很難成功。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

原文中起司陰影的筆觸還原到每個圖片的物件上。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

參考安卓LOGO創作。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

此外,研究人員也拓展了StyleDrop的能力,不僅能客製化風格,結合DreamBooth,還能客製化內容。

例如,還是梵谷風,為小柯基生成類似風格的畫作:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

再來一個,下面這隻柯基有種埃及金字塔上的「獅身人面像」的感覺。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

如何運作?

StyleDrop基於Muse構建,由兩個關鍵部分組成:

一個是產生視覺Transformer的參數有效微調,另一個是帶有回饋的迭代訓練。在

之後,研究人員再從兩個微調模型合成影像。

Muse是一種基於掩碼生成圖像Transformer最新的文字到圖像的合成模型。它包含兩個用於基礎影像生成(256 × 256)和超解析度(512 × 512或1024 × 1024)的合成模組。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

每個模組都由一個文字編碼器T,一個transformer G,一個取樣器S,一個圖像編碼器E和解碼器D組成。

T將文字提示t∈T對應到連續嵌入空間E。 G處理文字嵌入e∈E以產生視覺token序列的對數l∈L。 S透過迭代解碼從對數中提取視覺token序列v∈V,該迭代解碼運行幾步的transformer推理,條件是文本嵌入e和從前面步驟解碼的視覺token。

最後,D將離散token序列對應到像素空間I。總的來說,給定一個文字提示t,圖像I的合成如下:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

#圖2是一個簡化了的Muse transformer層的架構,它進行了部分修改,為的是支援參數高效微調(PEFT)與適配器。

使用L層的transformer處理在文字嵌入e的條件下以綠色顯示的視覺token序列。學習參數θ被用來建構適配器調優的權重。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

#

為了訓練θ,在許多情況下,研究人員可能只給出圖片作為風格參考。

研究人員需要手動附加文字提示。他們提出了一個簡單的、模板化的方法來建構文字提示,包括對內容的描述,後面跟著描述風格的短語。

例如,研究者在表1中以「貓」描述一個對象,並附加「水彩畫」作為風格描述。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

在文字提示中包含內容和風格的描述至關重要,因為它有助於從風格中分離出內容,這是研究人員的主要目標。

圖3則是帶有回饋的迭代訓練。

當在單一風格參考圖像(橙色框)上進行訓練時,StyleDrop生成的一些圖像可能會顯示出從風格參考圖像中提取的內容(紅色框,圖像背景中含有與風格圖像類似的房子)。

其他圖像(藍色框)則能更好地從內容中分割出風格。對StyleDrop進行好樣本(藍色框)的迭代訓練,結果在風格和文字保真度之間取得了更好的平衡(綠色框)。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

這裡研究者也用到了兩個方法:

-CLIP分數

此方法用於測量影像和文字的對齊程度。因此,它可以透過測量CLIP分數(即視覺和文字CLIP嵌入的餘弦相似度)來評估生成影像的品質。

研究人員可以選擇得分最高的CLIP影像。他們稱這種方法為CLIP回饋的迭代訓練(CF)。

在實驗中,研究人員發現,使用CLIP得分來評估合成影像的品質是提高召回率(即文字保真度)的有效方式,而不會過多損失風格保真度。

然而從另一方面看,CLIP分數可能無法完全與人類的意圖對齊,也無法捕捉到微妙的風格屬性。

-HF

#人工回饋(HF)是一種將使用者意圖直接注入到合成影像品質評估中的更直接的方式。

在強化學習的LLM微調中,HF已經證明了它的強大和有效。

HF可以用來補償CLIP分數無法捕捉到微妙風格屬性的問題。

目前,已有大量研究關注了文本到圖像的擴散模型的個人化問題,以合成包含多種個人風格的圖像。

研究人員展示瞭如何以簡單的方式將DreamBooth和StyleDrop結合起來,從而使風格和內容都能個性化。

這是透過從兩個修改後的生成分佈中取樣來完成的,分別由風格的θs和內容的θc指導,分別是在風格和內容參考影像上獨立訓練的適配器參數。

與現有的成品不同,團隊的方法不需要在多個概念上對可學習的參數進行聯合訓練,這就帶來了更大的組合能力,因為預先訓練的適配器是分別在單一主題和風格上進行訓練的。

研究人員的整體取樣過程遵循等式(1)的迭代解碼,每個解碼步驟中取樣對數的方式有所不同。

設t為文字提示,c為無風格描述符的文字提示,在步驟k計算對數如下:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

#其中:γ用於平衡StyleDrop和DreamBooth——如果γ為0,我們得到StyleDrop,如果為1,我們得到DreamBooth。

透過合理設定γ,我們就可以得到合適的圖像。

實驗設定

#目前為止,還沒對文字-圖像生成模型的風格調整進行廣泛的研究。

因此,研究者提出了一個全新實驗方案:

#-資料收集

研究者收集了數十張不同風格的圖片,從水彩和油畫,平面插圖,3D生動到不同材質的雕塑。

-模型配置

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈研究人員使用適配器調優基於Muse的StyleDrop 。所有實驗,使用Adam優化器更新1000步驟的轉接器權重,學習速率為0.00003。除非另有說明,研究人員使用StyleDrop來表示第二輪模型,該模型在10多個帶有人工回饋的合成圖像上進行訓練。

-評估

研究報告的量化評估是基於CLIP,衡量風格一致性和文字對齊。此外,研究人員進行了使用者偏好研究,以評估風格一致性和文字對齊。 Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

如圖,研究人員收集的18個不同風格的圖片,StyleDrop處理的結果。

可以看到,StyleDrop能夠捕捉各種樣式的紋理、陰影和結構的細微差別,並且能夠比以前更好地控制風格。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

為了比較,研究人員也介紹了DreamBooth在Imagen上的結果,DreamBooth在Stable Diffusion上的LoRA實現和文本反演的結果。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

具體結果如表所示,圖像-文字對齊(Text)和視覺風格對齊(Style)的人類評分(上)及CLIP評分(下)的評估指標。

##################(a) DreamBooth,(b) StyleDrop,和(c) DreamBooth StyleDrop的質性比較:### ########################這裡,研究人員應用了上述的CLIP分數的兩個指標-文字和風格分數。 ############對於文字得分,研究人員測量圖像和文字嵌入之間的餘弦相似度。對於風格得分,研究人員測量風格參考和合成影像嵌入之間的餘弦相似度。 ######

研究人員為190個文字提示產生總共1520個圖像。雖然研究人員希望最終得分能高一些,但其實這些指標並不完美。

而迭代訓練(IT)提高了文字得分,這符合研究人員的目標。

然而,作為權衡,它們在第一輪模型上的風格得分有所降低,因為它們是在合成圖像上訓練的,風格可能因選擇偏見而偏移。

Imagen上的DreamBooth在風格分數上不如StyleDrop(HF的0.644對比0.694)。

研究人員注意到,Imagen上的DreamBooth的風格分數增加並不明顯(0.569 → 0.644),而Muse上的StyleDrop的增加更加明顯(0.556 →0.694)。

研究人員分析,Muse上的風格微調比Imagen上的風格更有效。

另外,在細粒度控制上, StyleDrop捕捉微妙的風格差異,如顏色偏移,層次,或銳角的把控。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

網友熱評

要是設計師有了StyleDrop,10倍速工作效率,已經起飛。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

AI一天,人間10年,AIGC正以光速發展,那種晃瞎人眼的光速!

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

工具只是順應了潮流,該被淘汰的已經早被淘汰了。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

對於製作Logo來說這個工具比Midjourney好用很多。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

以上是Midjourney勁敵來了! GoogleStyleDrop王牌「客製化大師」引爆AI藝術圈的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

芝麻開門交易所網頁版登入口 最新版gateio官網入口 芝麻開門交易所網頁版登入口 最新版gateio官網入口 Mar 04, 2025 pm 11:48 PM

詳細介紹芝麻開門交易所網頁版登入口操作,含登錄步驟、找回密碼流程,還針對登錄失敗、無法打開頁面、收不到驗證碼等常見問題提供解決方法,助你順利登錄平台。

芝麻開門交易所網頁註冊鏈接 gate交易app註冊網址最新 芝麻開門交易所網頁註冊鏈接 gate交易app註冊網址最新 Feb 28, 2025 am 11:06 AM

本文詳細介紹了芝麻開門交易所(Gate.io)網頁版和Gate交易App的註冊流程。 無論是網頁註冊還是App註冊,都需要訪問官方網站或應用商店下載正版App,然後填寫用戶名、密碼、郵箱和手機號等信息,並完成郵箱或手機驗證。

加密數字資產交易APP推薦top10(2025全球排名) 加密數字資產交易APP推薦top10(2025全球排名) Mar 18, 2025 pm 12:15 PM

本文推荐十大值得关注的加密货币交易平台,涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋,例如币安以其全球最大的交易量和丰富的功能著称,而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。 希望本文能帮助您找到最适合自

芝麻開門交易平台下載手機版 gateio交易平台下載地址 芝麻開門交易平台下載手機版 gateio交易平台下載地址 Feb 28, 2025 am 10:51 AM

選擇正規渠道下載App,保障您的賬戶安全至關重要。

歐易okex賬號怎麼註冊、使用、註銷教程 歐易okex賬號怎麼註冊、使用、註銷教程 Mar 31, 2025 pm 04:21 PM

本文詳細介紹了歐易OKEx賬號的註冊、使用和註銷流程。註冊需下載APP,輸入手機號或郵箱註冊,完成實名認證。使用方面涵蓋登錄、充值提現、交易以及安全設置等操作步驟。而註銷賬號則需要聯繫歐易OKEx客服,提供必要信息並等待處理,最終獲得賬號註銷確認。 通過本文,用戶可以輕鬆掌握歐易OKEx賬號的完整生命週期管理,安全便捷地進行數字資產交易。

2025年Bitget最新下載地址:獲取官方App的步驟 2025年Bitget最新下載地址:獲取官方App的步驟 Feb 25, 2025 pm 02:54 PM

本指南提供了 Bitget 交易所官方 App 的詳細下載和安裝步驟,適用於安卓和 iOS 系統。指南整合了來自多個權威來源的信息,包括官網、App Store 和 Google Play,並強調了下載和賬戶管理過程中的注意事項。用戶可以從官方渠道下載 App,包括應用商店、官網 APK 下載和官網跳轉,並完成註冊、身份驗證和安全設置。此外,指南還涵蓋了常見問題和注意事項,例如

如何在Bitget官網註冊並下載最新App 如何在Bitget官網註冊並下載最新App Mar 05, 2025 am 07:54 AM

本指南提供了 Bitget 交易所官方 App 的詳細下載和安裝步驟,適用於安卓和 iOS 系統。指南整合了來自多個權威來源的信息,包括官網、App Store 和 Google Play,並強調了下載和賬戶管理過程中的注意事項。用戶可以從官方渠道下載 App,包括應用商店、官網 APK 下載和官網跳轉,並完成註冊、身份驗證和安全設置。此外,指南還涵蓋了常見問題和注意事項,例如

為什麼說Bittensor是AI賽道的'比特幣”? 為什麼說Bittensor是AI賽道的'比特幣”? Mar 04, 2025 pm 04:06 PM

原文標題:Bittensor=AIBitcoin?原文作者:S4mmyEth,DecentralizedAIResearch原文編譯:zhouzhou,BlockBeats編者按:本文討論了Bittensor,一個去中心化的AI平台,希望通過區塊鏈技術打破集中式AI公司的壟斷,推動開放、協作的AI生態系統。 Bittensor採用子網模型,允許不同AI解決方案的出現,並通過TAO代幣激勵創新。儘管AI市場已成熟,但Bittensor面臨競爭風險,可能會受到其他開源

See all articles