美圖AI局部重繪技術大揭密!想怎麼改,就怎麼改!美圖局部重繪讓你隨心所欲
最近,「AI擴圖」功能以其突如其來的擴大效果引發了轟動,其滑稽而又有趣的自動填充結果頻頻走紅,在網路上掀起了熱潮。用戶積極嘗試這項功能,其180度的巨大轉變也讓人們感嘆不可思議,話題熱度持續攀升。
在引發笑聲和熱情的同時,也意味著人們不斷關注著AI是否能夠真正幫助他們解決現實問題並改善使用者體驗。隨著AIGC技術的快速發展,AI應用場景正在加速實現落地,這預示著我們將迎來一場全新的生產力變革。
近日,美圖公司旗下WHEE等產品上線AI擴圖及AI改圖功能,只需簡單的提示性輸入,用戶就可以任意修改圖像、移除畫面元素、擴充畫面,憑藉便捷的操作與驚豔的效果,大幅降低工具使用門檻,為使用者帶來高效率、高品質的影像創作體驗。
MiracleVision(奇想智慧)消除結果
MiracleVision(奇想智慧)替換效果前
MiracleVision(奇想智能)替換效果後
MiracleVision(奇想智能)AI改圖效果
#強大模型能力,讓影像編輯隨心所欲
美圖AI局部重繪模型基於擴散模型(Diffision Model)技術建構了完整的inpaint & outpaint模型框架,將內部區域重繪、前景目標消除以及外部區域擴展等任務統一到同一個方案中進行解決,並針對一些特定的效果問題做了專門的最佳化設計。
MiracleVision(奇想智慧)模型屬於文生圖模型,雖然可以透過改造第一卷積層,並將unet整體微調的方式,使其適應inpaint任務,但這樣需要修改unet原有的權重,在訓練資料量不足時可能會導致模型效能的下降。
因此,為了充分利用MiracleVision(奇想智能)已有的生成能力,團隊在局部重繪模型中不對MiracleVision(奇想智能)的unet模型進行直接微調,而是使用controlnet的方式增加一個mask的輸入分支進行控制。
同時,為了節省訓練成本,加快推理速度,使用壓縮後的controlnet模組進行訓練,盡可能減少計算量。在訓練的過程中,unet模型的參數會被固定,只有controlnet模組會更新,最後讓整個模型獲得inpaint的能力。
美圖AI局部重繪模型架構圖
#outpaint任務則是crop任務的反向操作。 crop任務是沿著圖像邊界對原始圖像進行剪裁,只保留需要的部分,是一種圖像內容的減法操作;而outpiant任務則是沿著圖像邊界向外進行擴展,借助模型的生成能力來憑空創造出原本不存在的內容,是一種圖像內容的加法操作。
本質上,outpaint任務也可以看作是一種特殊的inpaint任務,只不過mask區域位於圖像的外圍。
MiracleVision(奇想智慧)AI擴圖效果
由於outpaint任務中的mask區域只能從影像內部獲取引導訊息,其他的方向上都是影像邊界,因此生成的內容更具有隨機性,會更加的發散。為了填補影像外圍的空白區域,同時確保畫面拓展的準確性,團隊依托場景辨識演算法對影像風格及內容進行推斷,並充分利用影像內容的相關性,透過在擴展邊緣處鏡像複製原圖中的像素並疊加隨機噪聲,為模型提供適合的初始先驗,從而確保生成內容的合理性,並使得邊界過渡更加平滑。
透過多種訓練策略,自由控制物件生成與消除
一般的擴散模型在執行inpaint任務時更擅長替換而不是消除,當需要消除某一目標時,模型很容易在mask區域中繪製出一些原本不存在的新前景目標,特別是當mask區域的面積比較大的時候這現象尤其明顯,即使這些目標並沒有出現在prompt中。究其原因,主要是以下3個面向:
1.訓練集的prompt中,一般只描述了圖像中有什麼,而不會描述圖像中沒有什麼,因此讓訓練後的模型根據提示產生某一目標很容易,但是不要讓它產生目標卻很難。即使有Classifier-Free Guidance策略,可以透過把不想要的物體加到負詞中的方式來抑制該目標的生成,但始終無法將所有可能的目標全部寫到負詞中,因此模型還是會傾向於產生一些意想不到的目標;
2.從訓練資料的分佈來看,由於大規模圖像訓練集中的絕大部分圖像都是由前景和背景組合而成的,純背景的圖像佔比較小,這意味著擴散模型在訓練時就已經學習到了一種潛在的規律,即一幅圖像中大概率存在著某一個目標前景(即使prompt中並沒有提到它),這也導致模型在執行inpaint任務時更傾向於在mask區域中生成些什麼,從而使輸出圖像更接近於訓練時的分佈;
3.待填充的mask區域的形狀有時也會包含一定的語義訊息,例如在沒有其他引導的情況下,模型會更傾向於在一個形狀為貓的mask區域內填充一隻新的貓,從而導致消除任務失敗。
為了使MiracleVision(奇想智能)同時具備目標生成以及目標消除的能力,團隊採用了多任務的訓練策略:
1.在訓練階段,當mask區域落在紋理當較少的純背景區域上時,增加一個特定的prompt關鍵字作為觸發引導詞,並在模型推理階段,將這個關鍵字作為正向引導詞加入到prompt embedding 中,促使模型更多地產生背景區域。
2.由於純背景圖像在整個訓練集中佔比較小,為了提高其對於訓練的貢獻程度,在每個訓練batch中,手動採樣一定比例的背景圖像加入到訓練,使背景圖像在訓練樣本中的佔比總體保持穩定。
3.為了降低模型對於mask形狀的語意依賴,在訓練階段還會隨機產生各種不同形態mask,增加mask形狀的多樣性。
高精度紋理生成,融合更自然
由於訓練集中高清的紋理資料只佔全部訓練資料的一小部分,因此在執行inpaint任務時,通常不會產生紋理非常豐富的結果,導致在原圖紋理比較豐富的場景中,容易出現融合不自然、存在邊界感的情況。
為了解決這個問題,團隊基於自研紋理細節模型作為引導模型,以此來輔助MiracleVision(奇想智能)提高生成質量,抑制過擬合,使得生成區域和原圖的其他區域之間能夠更好地貼合在一起。
原圖v.s未增加紋理細節v.sMiracleVision擴圖效果
速度更快、效果更優、互動更有效率!
擴散模型類別方案在推理時通常需要進行多步驟逆擴散過程,導致單張圖片的處理耗時過長。為了在維持生成品質的同時優化使用者體驗,美圖影像研究院(MT Lab)團隊為AI局部重繪技術打造了專案調優方案,最終達到效能與效果的最佳平衡。
首先,將MiracleVision(奇想智能)前後處理與推理過程中大量的矩陣計算,盡可能地移植到GPU上並行計算,從而有效地加快了計算速度,並減少CPU端的負載。同時,在組圖的過程中,盡可能的對layer進行fuse,使用FlashAttention來降低顯存佔用,提升推理性能,並對Kernel實現進行Tuning,針對NVIDIA不同的顯示卡最大化GPU算力使用。
除此之外,依託自研的模型參數量化方法,將MiracleVision量化至8bit而不明顯損失精度。由於不同的GPU顯示卡對8bit量化的支援存在差異性,因此創新性採用混合精度策略,在不同的伺服器資源環境下自適應地選取最優算子,從而實現整體加速的最優解。
而對於解析度較高的使用者輸入影像,由於受限於伺服器資源與時間成本,很難在原始解析度情況下直接進行推理。對此,團隊透過先壓縮影像解析度至適當的大小,再基於MiracleVision(奇想智慧)進行推理,其後使用超分演算法復原影像至初始解析度下,再與原圖進行影像融合,從而既保持產生影像的清晰效果,又節約推理過程中的顯存佔用和執行時間。
美圖與三星深度合作,以AI打造手機影像編輯新體驗
#1月25日,三星電子舉辦Galaxy S24系列中國新品發表會。美圖公司深化與三星合作,為三星新品Galaxy S24系列手機相簿打造全新的AI影像編輯體驗,美圖影像研究院(MT Lab)自主研發的生成式編輯-AI擴圖與AI改圖功能也已正式上線,協助手機影像編輯創作開啟新空間。
透過AI改圖功能,使用者只需長按要編輯的影像,即可輕鬆移動、消除或調整影像大小。此外,在畫面水平線不垂直時,AI擴圖功能可以在使用者調整角度後,智慧填滿照片的缺失區域,修正畫面構圖。
基於MiracleVision(奇想智能)帶來的AI功能,美圖不僅助力用戶在手機端輕鬆實現專業級的編輯效果,創造出更具個性的照片作品,也將持續推動和提升整個手機產業的AI影像處理能力。
依托美圖影像研究院(MT Lab)強大的技術能力,MiracleVision(奇想智能)在不到半年時間已經迭代至4.0版本。未來,美圖將持續致力於提昇在電商、廣告、遊戲等產業的使用者體驗,並協助不同場景的從業人員工作流程。
以上是美圖AI局部重繪技術大揭密!想怎麼改,就怎麼改!美圖局部重繪讓你隨心所欲的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

但可能打不過公園裡的老大爺?巴黎奧運正在如火如荼地進行中,乒乓球項目備受關注。同時,機器人打乒乓球也取得了新突破。剛剛,DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址:https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢?大概和人類業餘選手不相上下:正手反手都會:對手採用多種打法,機器人也能招架得住:接不同旋轉的發球:不過,比賽激烈程度似乎不如公園老大爺對戰。對機器人來說,乒乓球運動

8月21日,2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相,並最新發布元蘿蔔AI下棋機器人-國際象棋專業版(以下簡稱「元蘿蔔國象機器人」),成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品,全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新,首次在家用機器人上實現了透過機械爪拾取立體棋子,並進行人機對弈、人人對弈、記譜複盤等功能,

開學將至,該收心的不只即將開啟新學期的同學,可能還有AI大模型。前段時間,Reddit擠滿了吐槽Claude越來越懶的網友。 「它的水平下降了很多,經常停頓,甚至輸出也變得很短。在發布的第一周,它可以一次性翻譯整整4頁文稿,現在連半頁都輸出不了!」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”,滿滿地

在北京舉行的世界機器人大會上,人形機器人的展示成為了現場絕對的焦點,在星塵智能的展台上,由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲,能文能武,吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏,讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道,公司創始人來傑解釋到,絲滑動作的背後,是硬體側追求最好力控和最仿人身體指標(速度、負載等),而是在AI側則採集人的真實動作數據,讓機器人遇強則強,快速學習進化。而敏捷

本屆ACL大會,投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。一直以來,ACL在NLP領域的學術影響力都名列第一,它也是CCF-A類推薦會議。今年的ACL大會已是第62屆,接收了400餘篇NLP領域的前沿工作。昨天下午,大會公佈了最佳論文等獎項。此次,最佳論文獎7篇(兩篇未公開)、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎(ResourceAward)3篇、社會影響力獎(

今天下午,鸿蒙智行正式迎来了新品牌与新车。8月6日,华为举行鸿蒙智行享界S9及华为全场景新品发布会,带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕昇激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品,从智慧出行、智慧办公到智能穿戴,华为全场景智慧生态持续构建,为消费者带来万物互联的智慧体验。鸿蒙智行:深度赋能,推动智能汽车产业升级华为联合中国汽车产业伙伴,为

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時,加上最近老上頭條的1X人形機器人NEO,你可能會產生一種感覺:我們似乎開始進入機器人時代了。事實上,這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道,有用的機器人往往需要與環境進行複雜精妙的交互,而環境則可被表示成空間域和時間域上的限制。舉個例子,如果要讓機器人倒茶,那麼機器人首先需要抓住茶壺手柄並使之保持直立,不潑灑出茶水,然後平穩移動,一直到讓壺口與杯口對齊,之後以一定角度傾斜茶壺。這

機器之能報道編輯:楊文以大模型、AIGC為代表的人工智慧浪潮已經在悄悄改變我們生活及工作方式,但絕大部分人依然不知道該如何使用。因此,我們推出了「AI在用」專欄,透過直覺、有趣且簡潔的人工智慧使用案例,來具體介紹AI使用方法,並激發大家思考。我們也歡迎讀者投稿親自實踐的創新用例。天啊嚕,AI真的成精了。最近,AI生圖真假難辨這事兒,鬧得那叫一個沸沸揚揚。 (查看詳情,請移步:AI在用|三步速成AI美女,又被AI一秒打回原形)除了火爆全網的AI谷歌小姐姐,社交平台上又冒出了形形色色的FLUX生成
