位元組復旦團隊創新的「元提示」策略提升了擴散模型影像理解的效能,達到了前所未有的水平!
Text-to-image(T2I)擴散模型在產生高清晰度影像方面表現卓越,這要歸功於其在大規模影像-文字對上的預訓練。
這引發了一個自然的問題:擴散模型是否可以用來解決視覺知覺任務?
最近,位元組跳動和復旦大學的團隊提出了擴散模型來處理視覺任務。
論文網址:https://arxiv.org/abs/2312.14733
開源專案: https://github.com/fudan-zvg/meta-prompts
#團隊的關鍵洞察是將可學習的元提示引入預訓練的擴散模型中,以提取適用於特定知覺任務的特徵。
技術介紹
團隊將text-to-image擴散模型作為特徵提取器應用於視覺感知任務。
首先,輸入影像經過VQVAE編碼器壓縮,解析度降低為原始大小的1/8,產生latent space特徵表示。值得注意的是,VQVAE編碼器參數固定,不參與後續訓練。
下一步,將未加入雜訊的資料送入UNet進行特徵擷取。為了更好地適應不同任務,UNet同時接收調製的時間步嵌入和多個元提示,以產生與形狀一致的特徵。
在整個過程中,為了增強特徵表達,該方法進行了步驟的recurrent refinement。這使得UNet內不同層的特徵能夠更好地互動融合。在第次循環中,UNet的參數由特定的可學習的時間調製特徵調節。
最終,UNet產生的多尺度特徵輸入到專為目標視覺任務設計的解碼器中。
可學習的元提示(meta prompts)設計
Stable diffusion model採用UNet架構,透過交叉注意力將文字提示融入圖像特徵中,實現了文生圖。這種整合確保了圖像生成在語境和語義上的準確性。
然而,視覺感知任務的多樣性超越了這個範疇,因為圖像理解面臨著不同的挑戰,往往缺乏文字訊息作為指導,使得以文字驅動的方法有時顯得不切實際。
為應對這項挑戰,技術團隊的方法採用了更為多樣的策略-不依賴外部文字提示,而是設計了一種內部的可學習元提示,稱為meta prompts,這些meta prompts被整合到擴散模型中,以適應感知任務。
Meta prompts以矩陣 的形式表示,其中表示meta prompts的數量,表示維度。具備meta prompts的感知擴散模型避免了對外部文字提示的需求,例如資料集類別標籤或圖像標題,也無需預先訓練的文字編碼器來產生最終的文字提示。
Meta prompts可以根據目標任務和資料集進行端到端的訓練,從而為去噪UNet建立特別客製化的適應條件。這些meta prompts包含豐富的、適應於特定任務的語意資訊。例如:
- 在語意分割任務中,meta prompts有效地展示了對類別的識別能力,相同的meta prompts傾向於激活同一類別的特徵。
- 在深度估計任務中,meta prompts表現出對深度的感知能力,激活值隨深度變化,使prompts能夠集中關註一致距離的物體。
- 在姿態估計中,meta prompts展現出一套不同的能力,特別是關鍵點的感知,這有助於人體姿態檢測。
這些定性結果共同突顯了技術團隊提出的meta prompts在各種任務中對任務相關激活能力的有效性。
作為文字提示的替代品,meta prompts很好地填補了text-to-image擴散模型與視覺感知任務之間的溝壑。
基於元提示的特徵重組
#擴散模型透過其固有的設計,在去雜訊UNet中生成多尺度特徵,這些特徵在接近輸出層時聚焦於更細緻、低階的細節資訊。
雖然這種低階細節對於強調紋理和細粒度的任務來說足夠,但視覺感知任務通常需要理解既包括低階細節的又包括高級語義解釋的內容。
因此,不僅需要產生豐富的特徵,確定這些多尺度特徵的哪種組合方式可以為當前任務提供最佳表徵也非常重要。
這就是meta prompts的作用所在-
#這些prompts在訓練過程中保存了與所使用資料集特定相關的上下文知識。這種上下文知識使meta prompts能夠充當特徵重組的過濾器,引導特徵選取過程,從UNet產生的眾多特徵中篩選出與任務最相關的特徵。
團隊使用點積的方式將UNet的多尺度特徵的豐富性與meta prompts的任務適應性結合。
考慮多尺度特徵,其中各。和表示特徵圖的高度和寬度。 Meta prompts 。每個尺度上重排的特徵的計算為:
最後,這些經過meta prompts過濾的特徵隨後輸入到特定任務的解碼器中。
基於可學習的時間調製特徵的recurrent refinement
在擴散模型中,加入雜訊然後多步去雜訊的迭代過程構成了影像產生的框架。
受此機制的啟發,技術團隊為視覺感知任務設計了一個簡單的recurrent refinement過程-沒有向輸出特徵中添加噪聲,而是直接將UNet的輸出特徵循環輸入到UNet中。
同時為了解決隨著模型通過循環,輸入特徵的分佈會發生變化但UNet的參數保持不變的不一致的問題,技術團隊對於每個循環引入了可學習的獨特的timestep embeddings,以調製UNet的參數。
這確保了網路對於不同步驟中輸入特徵的變化性保持適應性和響應性,優化了特徵提取過程,並增強了模型在視覺識別任務中的表現。
結果顯示,此方法在多個知覺任務資料集上都取得了最優。
#應用落地與展望
這篇文章提出的方法和技術有廣泛的應用前景,可以在多個領域內推動技術的發展和創新:
- 視覺感知任務的改進:研究能夠提升各種視覺感知任務的表現,如影像分割、深度估計和姿態估計。這些改進可應用於自動駕駛、醫學影像分析、機器人視覺系統等領域。
- 增強的電腦視覺模型:所提出的技術可以使電腦視覺模型在處理複雜場景時更加準確和高效,特別是在缺乏明確文字描述的情況下。這對於圖像內容理解等應用尤其重要。
- 跨領域應用:該研究的方法和發現可以激勵跨領域的研究和應用,例如在藝術創作、虛擬實境、擴增實境中,用於提高影像和影片的品質和互動性。
- 長期展望:隨著科技的進步,這些方法可能會進一步完善,帶來更先進的影像產生和內容理解技術。
團隊介紹
智慧創作團隊是位元組跳動AI&多媒體技術中台,涵蓋了電腦視覺、影音編輯、特效處理等技術領域,借助公司豐富的業務場景、基礎設施資源和技術協作氛圍,實現了前沿演算法-工程系統-產品全鏈路的閉環,旨在以多種形式為公司內部各業務提供業界前沿的內容理解、內容創作、互動體驗與消費的能力與產業解決方案。
目前,智慧創作團隊已透過位元組跳動旗下的雲端服務平台火山引擎向企業開放技術能力與服務。更多大模型演算法相關職位開放中,歡迎點選「閱讀原文」查看。
以上是位元組復旦團隊創新的「元提示」策略提升了擴散模型影像理解的效能,達到了前所未有的水平!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高
