楊冪與泰勒的混合風格:小紅書AI推出SD和ControlNet合適的風格
不得不說,現在拍寫真是「簡單到放肆」了。
真人不用出鏡頭,不用費心凹姿勢、搞髮型,只需一張本人圖像,等待幾秒鐘,就能獲得7種完全不同風格:
仔細看,造型/pose全都給你整得明明白白,原圖直出修也不用修了。
這擱以前,不得在寫真館耗上至少整整一天,把咱和攝影師、化妝師都累個半死不活。
以上,便是一個叫做InstantID AI的厲害之處。
除了現實寫真,它還能整點「非人類的」:
例如貓頭貓身,但仔細看又有你的臉部特徵。
各種虛擬風格就更不用說了:
#像style 2,真人直接變石像。
當然,輸入石像也能直接變:
#對了,還能進行兩個人臉融合的高能操作,看看20%的楊冪80%的泰勒長什麼樣子:
一張圖無限高品質變身,可是叫它玩明白了。
所以,這是怎麼做到的?
基於擴散模型,可與SD無縫整合
作者介紹,目前的影像風格化技術已經可以做到只需一次前向推理即可完成任務(即基於ID embedding)。
但這種技術也有問題:要麼需要對眾多模型參數進行廣泛微調,要麼與社群開發的預訓練模型缺乏相容性,要麼無法保持高保真度的臉部特徵。
為了解決這些挑戰,他們開發了InstantID。
InstantID基於擴散模型打造,其即插即用(plug-and-play)模組僅靠單張面部圖像即可熟練地處理各種風格化變身,同時確實高保真度。
最值得一提的是,它可與時下流行的文本到圖像預訓練擴散模型無縫集成(例如SD1.5、SDXL),作為插件使用。
具體來看,InstantID由三個關鍵組成部分:
(1)捕捉魯棒語義人臉資訊的ID embedding;
(2)具有解耦交叉注意力的輕量級適配模組,方便圖像作為視覺提示;
(3)IdentityNet網絡,它通過額外的空間控制對參考圖像的詳細特徵進行編碼,最終完成圖像生成。
而比業界先前的工作,InstantID有幾點不同:
一是不用訓練UNet,因此可以保留原始文字到圖像模型的生成能力,並與社區中現有的預訓練模型和ControlNet相容。
二是不需要test-time調整,因此對於特定風格,不需要收集多張影像進行微調,只需要對單一影像進行一次推斷即可。
三是除了實現更好的臉部保真度,也保留了文字可編輯性。如下圖所示,只需幾個字,即可讓形象變性別、換套裝、改髮型以及髮色。
再次強調,以上所有效果只需1張參考影像在幾秒鐘內即可完成。
如下圖實驗證明,多來幾張參考圖的作用基本上不大,1張就能做得很好。
以下是一些具體對比。
比較物件是現有的免調優SOTA方法:IP-Adapter (IPA)、IP-Adapter-FaceID以及前兩天騰訊剛出品的PhotoMaker。
可以看到,大家都挺「卷」的,效果都不賴——但仔細對比的話,PhotoMaker和IP-Adapter-FaceID保真度都不錯,但文字控制能力明顯差一點。
相比之下,InstantID的臉和樣式能更好地融合,在實現了更好保真度的同時,還保留了良好的文本可編輯性。
除此之外,還有與InsightFace Swapper模型的比較,你覺得哪個效果比較好呢?
作者介紹
本文共5位作者,來自神秘的InstantX團隊(網路上沒有搜到太多資訊)。
不過一作是來自小紅書的Qixun Wang。
通訊作者王浩帆也是小紅書的工程師,從事可控和條件內容生成(AIGC)方面的研究,是CMU’20屆校友。
以上是楊冪與泰勒的混合風格:小紅書AI推出SD和ControlNet合適的風格的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高

最近,軍事圈被這個消息刷屏了:美軍的戰鬥機,已經能由AI完成全自動空戰了。是的,就在最近,美軍的AI戰鬥機首次公開,揭開了神秘面紗。這架戰鬥機的全名是可變穩定性飛行模擬器測試飛機(VISTA),由美空軍部長親自搭乘,模擬了一對一的空戰。 5月2日,美國空軍部長FrankKendall在Edwards空軍基地駕駛X-62AVISTA升空注意,在一小時的飛行中,所有飛行動作都由AI自主完成! Kendall表示——在過去的幾十年中,我們一直在思考自主空對空作戰的無限潛力,但它始終顯得遙不可及。然而如今,
