ControlNet作者新作:AI繪畫能分圖層了!專案未開源就斬獲660 Star
「絕不是簡單的摳圖。」
ControlNet作者最新推出的研究受到了一波高度關注—
給一句prompt,用Stable Diffusion可以直接產生單一或多個透明圖層(PNG)!
例如來一句:
頭髮凌亂的女性,在臥室裡。
Woman with messy hair, in the bedroom.
#可以看到,AI不僅產生了符合prompt的完整圖像,就連背景和人物也能分開。
而且把人物PNG圖像放大細看,髮絲那叫一個根根分明。
再看一個例子:
燃燒的柴火,在一張桌子上,在鄉下。
Burning firewood, on a table, in the countryside.
#同樣,放大「燃燒的火柴」的PNG,就連火焰週邊的黑煙都能分離出來:
這就是ControlNet作者提出的新方法-LayerDiffusion,允許大規模預訓練的潛在擴散模型(Latent Diffusion Model)產生透明影像。
值得再強調一次的是,LayerDiffusion絕不是摳圖那麼簡單,重點在於生成。
如網友所說:
這是現在動畫、影片製作最核心的工序之一。這一步能夠過,可以說SD一致性就不再是問題了。
還有網友以為類似這樣的工作並不難,只是「順便加上alpha通道」的事,但令他意外的是:
結果這麼久才有出來的。
那麼LayerDiffusion到底是如何實現的呢?
PNG,現在開始走生成路線了
LayerDiffusion的核心,是一種叫做潛在透明度(latent transparency)的方法。
簡單來說,它可以允許在不破壞預訓練潛在擴散模型(如Stable Diffusion)的潛在分佈的前提下,為模型添加透明度。
在具體實現上,可以理解為在潛在圖像上添加一個精心設計過的小擾動(offset),這種擾動被編碼為一個額外的通道,與RGB通道一起構成完整的潛在圖像。
為了實現透明度的編碼和解碼,作者訓練了兩個獨立的神經網路模型:一個是潛在透明度編碼器(latent transparency encoder),另一個是潛在透明度解碼器(latent transparency decoder)。
編碼器接收原始影像的RGB通道和alpha通道作為輸入,將透明度資訊轉換為潛在空間中的一個偏移量。
而解碼器則接收調整後的潛在影像和重建的RGB影像,從潛在空間中提取出透明度訊息,以重建原始的透明影像。
為了確保添加的潛在透明度不會破壞預訓練模型的潛在分佈,作者提出了一種「無害性」(harmlessness)度量。
這個測量值透過比較原始預訓練模型的解碼器對調整後潛在影像的解碼結果與原始影像的差異,來評估潛在透明度的影響。
在訓練過程中,作者也使用了一個聯合損失函數(joint loss function),它結合了重建損失( reconstruction loss)、身分損失(identity loss)和判別器損失(discriminator loss)。
它們的作用分別是:
- 重建損失:用於確保解碼後的圖像與原始圖像盡可能相似;
- 身份損失:用於確保調整後的潛在影像能夠被預先訓練的解碼器正確解碼;
- 判別器損失:則是用來提高生成影像的真實感。
透過此方法,任何潛在擴散模型都可以轉換為透明影像產生器,只需對其進行微調以適應調整後的潛在空間。
潛在透明度的概念還可以擴展到生成多個透明圖層,以及與其他條件控制系統結合,實現更複雜的影像生成任務,如前景/背景條件產生、聯合圖層產生、圖層內容的結構控制等。
值得一提的是,作者也展示如何把ControlNet引入進來,豐富LayerDiffusion的功能:
與傳統摳圖的區別
至於LayerDiffusion與傳統摳圖上的區別,我們可以簡單歸整為以下幾點。
原生生成 vs. 後處理
LayerDiffusion是一種原生的透明圖像生成方法,它直接在生成過程中考慮並編碼透明度資訊。這意味著模型在生成圖像的同時就創建了透明度通道(alpha channel),從而產生了具有透明度的圖像。
傳統的摳圖方法通常涉及先生成或獲取一個圖像,然後透過圖像編輯技術(如色鍵、邊緣檢測、用戶指定的遮罩等)來分離前景和背景。這種方法通常需要額外的步驟來處理透明度,並且可能在複雜背景或邊緣產生不自然的過渡。
潛在空間操作 vs. 像素空間操作
#LayerDiffusion在潛在空間(latent space)中進行操作,這是一個中間表示,它允許模型學習並產生更複雜的圖像特徵。透過在潛在空間中編碼透明度,模型可以在生成過程中自然地處理透明度,而不需要在像素層級上進行複雜的計算。
傳統的摳圖技術通常在像素空間中進行,這可能涉及對原始影像的直接編輯,如顏色替換、邊緣平滑等。這些方法可能在處理半透明效果(如火焰、煙霧)或複雜邊緣時遇到困難。
資料集和訓練
LayerDiffusion使用了一個大規模的資料集進行訓練,這個資料集包含了透明影像對,使得模型能夠學習到生成高品質透明影像所需的複雜分佈。
傳統的摳圖方法可能依賴較小的資料集或特定的訓練集,這可能限制了它們處理多樣化場景的能力。
靈活性和控制
LayerDiffusion提供了更高的靈活性和控制能力,因為它允許使用者透過文字提示(text prompts)來指導圖像的生成,並且可以生成多個圖層,這些圖層可以被混合和組合以創建複雜的場景。
傳統的摳圖方法可能在控制方面更為有限,尤其是在處理複雜的影像內容和透明度時。
品質比較
用戶研究顯示,LayerDiffusion產生的透明圖像在大多數情況下(97%)被用戶偏好,這表明其產生的透明內容在視覺上與商業透明資產相當,甚至可能更優。
傳統的摳圖方法可能在某些情況下無法達到相同的質量,尤其是在處理具有挑戰性的透明度和邊緣時。
總而言之,LayerDiffusion提供的是一種更先進且靈活的方法來產生和處理透明影像。
它在生成過程中直接編碼透明度,並且能夠產生高品質的結果,這在傳統的摳圖方法中是很難實現的。
關於作者
正如我們剛才提到的,這項研究的作者之一,正是大名鼎鼎的ControlNet的發明人-張呂敏。
他本科就畢業於蘇州大學,大一的時候就發表了與AI繪畫相關的論文,本科期間更是發了10篇頂會一作。
目前張呂敏在史丹佛大學攻讀博士,但他為人可以說是非常低調,連Google Scholar都沒有註冊。
就目前來看,LayerDiffusion在GitHub中並沒有開源,但即便如此也擋不住大家的關注,已經斬獲660顆星。
畢竟張呂敏也被網友調侃為“時間管理大師”,對LayerDiffusion感興趣的小伙伴可以提前mark一波了。
以上是ControlNet作者新作:AI繪畫能分圖層了!專案未開源就斬獲660 Star的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高
