華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」
Meta的「分割一切」的橫空出世,讓許多人驚呼CV不存在了。
基於這個模型,眾網友紛紛做了進一步工作,例如Grounded SAM。
將Stable Diffusion、Whisper、ChatGPT結合使用,就能做到透過語音讓一隻狗變成一隻猴子。
而現在,不僅僅是語音,你可以透過多模態提示實現一次性分割所有地方的一切。
具體怎麼做?
滑鼠點一下,直接選取分割內容。
張口一句話。
隨手一塗,完整的表情包就來了。
甚至,還能分割影片。
最新研究SEEM是由威斯康辛大學麥迪遜分校、微軟研究院等機構的學者共同完成。
透過SEEM使用不同種類的提示,視覺提示(點、標記、框、塗鴉和圖像片段)、以及語言提示(文字和音訊)輕鬆分割圖像。
論文網址:https://arxiv.org/pdf/2304.06718.pdf
#這個論文標題有趣的地方在於,與2022年上映的美國科幻電影《瞬息全宇宙》(Everything Everywhere All at Once)的名字非常相似。
英偉達科學家Jim Fan表示,奧斯卡最佳論文標題獎頒給「Segment Everything Everywhere All at Once」
擁有一個統一的、多功能的任務規範介面是擴大大型基礎模型規模的關鍵。多模態提示是未來的方向。
看過論文後,網友表示,CV現在也要開始擁抱大模型了,研究生未來出路在哪?
奧斯卡最佳標題論文
正是受到基於提示的LLMs通用介面發展的啟發,研究人員提出了SEEM。
如圖所示,SEEM模型可以在沒有提示的開放集中執行任何分割任務,例如語意分割、實例分割和全景分割。
此外,它還支援任意組合的視覺,文字和引用區域提示,允許多功能和互動的引用分割。
在模型架構上,SEEM採用了常見的編碼器-解碼器架構。其獨特的地方在於具有查詢和提示之間複雜的互動。
特徵和提示被對應的編碼器,或取樣器編碼到一個聯合的視覺語意空間。
可學習查詢是隨機初始化,SEEM解碼器接受可學習查詢、圖像特徵和文字提示作為輸入和輸出,包括類別和掩碼嵌入,用於掩碼和語義預測。
值得一提的是,SEEM模型有多輪交互作用。每一輪都包含一個人工循環和一個模型循環。
在人工循環中,人工接收上一次迭代的遮罩輸出,並透過視覺提示給予下一輪解碼的正回饋。在模型循環中,模型接收並更新未來預測的記憶提示。
透過SEEM,給一個擎天柱卡車的圖,就能分割任何目標影像上的擎天柱。
透過使用者輸入的文字產生掩模,進行一鍵分割。
另外,SEEM透過對引用圖像的簡單點擊,或塗鴉,就能夠對目標圖像上有相似語義的對象進行分割。
此外,SEEM非常了解解空間關係。左上行斑馬被塗鴉後,也會分割出最左邊的斑馬。
SEEM還可以將圖像引用到視頻掩碼,不需要任何視頻資料訓練,都能完美分割視頻。
#資料集和設定上,SEEM在三種資料集接受了訓練:全景分割,引用分割和互動式分割。
互動式分割
#在互動式分割上,研究者將SEEM與最先進的互動式分割模型進行了比較。
作為一個通用模型,SEEM獲得了RITM,SimpleClick等相當的效能。而且與SAM取得非常相似的效能,SAM也多用了50個分割資料進行訓練。
值得注意的是,與現有的互動模型不同,SEEM是第一個不僅支援經典的分割任務,而且還支援廣泛的多模態輸入,包括文本、點、塗鴉、邊界框和圖像,提供了強大的組合能力。
通用分割
##透過對所有分割任務預先訓練的一組參數,研究者可以直接評估它在通用分割資料集上的表現。
SEEM實作了比較好的全景視圖,實例和語意分割效能。
研究者對SEEM有四個期望目標:
1 . 多功能性:透過引入多功能提示引擎處理不同類型的提示,包括點、框、塗鴉、遮罩、文字和另一個圖像的引用區域;
2.複合性:透過學習一個聯合視覺-語意空間,為視覺和文字提示組合即時查詢進行推理;
3. 互動性:透過整合可學習的記憶提示,透過掩碼引導的交叉注意力保留對話歷史資訊;
4. 語意感知:透過使用文本編碼器對文本查詢和遮罩標籤進行編碼,實現開放詞彙表的分割。
和SAM區別
#Meta提出的SAM模型,可以在一個統一框架prompt encoder內,指定一個點、一個邊界框、一句話,一鍵分割出物體。
SAM具有廣泛的通用性,即具有了零樣本遷移的能力,足以涵蓋各種用例,不需要額外訓練,就可以開箱即用地用於新的影像領域,無論是水下照片,還是細胞顯微鏡。
研究者就三個分割任務(邊緣偵測、開放式集合和互動式分割)的交互作用和語意能力對SEEM和SAM進行了比較。
在開放集分割上,同樣需要高水準的語義,且不需要交互作用。
與SAM相比,SEEM涵蓋了更廣泛的互動和語意層次。
SAM只支援有限的互動類型,例如點和邊界框,而忽略了高語意任務,因為它本身不輸出語意標籤。
對於SEEM,研究者點出了兩個亮點:
#首先,SEEM有一個統一的提示編碼器,將所有的視覺和語言提示編碼到一個聯合表示空間。因此,SEEM可以支援更通用的用法,它有可能擴展到自訂提示。
其次,SEEM在文字遮罩和輸出語意感知預測方面做得很好。
作者介紹
論文一作Xueyan Zou
她目前是威斯康辛大學麥迪遜分校的電腦科學系博士生,導師是Yong Jae Lee教授。
在此之前,Zou在加州大學戴維斯分校度過了三年時光,由同一位導師指導,並與Fanyi Xiao博士密切合作。
她在香港浸會大學獲得了學士學位,由PC Yuen教授和褚曉文教授指導。
#Jianwei Yang
Jianwei Yang
Yang是Redmond微軟研究院深度學習組的高級研究員,由高劍峰博士指導。
Yang的研究主要集中在電腦視覺、視覺與語言和機器學習。他主要研究不同層次的結構化視覺理解,以及如何進一步利用它們透過語言和環境的體現與人類進行智慧互動。 在2020年3月加入微軟之前,Yang在喬治亞理工學院互動計算學院獲得了電腦科學博士學位,他的導師是Devi Parikh教授,他也與Dhruv Batra教授密切合作。
高劍峰
#高劍峰是微軟研究院的傑出科學家和副總裁,IEEE會員,以及ACM傑出會員。
目前,高劍峰領導深度學習小組。該小組的任務是推動深度學習的最先進技術及其在自然語言和圖像理解方面的應用,並在對話模型和方法方面取得進展。
研究主要包括,用於自然語言理解和產生的神經語言模型、神經符號計算、視覺語言的基礎和理解、對話式人工智慧等等。
2014年到2018年,高劍峰在微軟人工智慧與研究部和Redmond微軟研究院的深度學習技術中心(DLTC)擔任商業人工智慧的合作夥伴研究經理。 2006年到2014年,高劍峰在自然語言處理組擔任首席研究員。
Yong Jae Lee
#Lee是華盛頓大學麥迪遜分校計算機科學系的副教授。
他在2021年秋天加入華盛頓大學麥迪遜分校之前,曾在Cruise擔任過一年的人工智慧客座教師,在此之前,他在加州大學戴維斯分校擔任了6年的助理和副教授。
他也曾在卡內基美隆大學的機器人研究所當了一年的博士後研究員。
###他於2012年5月在德州大學奧斯汀分校獲得博士學位,師從Kristen Grauman,並於2006年5月在伊利諾大學厄巴納-香檳分校獲得學士學位。 ############他也曾以微軟研究院的暑期實習生與Larry Zitnick和Michael Cohen一起工作。 ######目前,Lee的研究集中在電腦視覺和機器學習。 Lee對創建強大的視覺識別系統格外感興趣,該系統可以在最少的人類監督下理解視覺數據。
目前,SEEM已經開啟了示範demo:
#https://huggingface.co/spaces/xdecoder/SEEM
#快上手試試吧。
以上是華人團隊顛覆CV! SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

瀏覽器快取影片在哪個資料夾在日常使用網路瀏覽器時,我們經常會觀看各種線上視頻,例如在YouTube上看音樂影片或在Netflix上觀看電影等。而這些影片在載入過程中會被瀏覽器快取下來,以便日後再次播放時能夠快速載入。那麼問題來了,這些快取的影片實際上儲存在哪個資料夾中呢?不同瀏覽器的快取視訊資料夾保存位置是不同的。以下我們將分別介紹幾種常見的瀏覽器以及它們

隨著短影片平台的興起,抖音成為了大家日常生活中不可或缺的一部分。在抖音上,我們可以看到來自世界各地的有趣影片。有些人喜歡發布他人的視頻,這就引發了一個問題:抖音發布他人視頻侵權嗎?本文將圍繞這個問題展開討論,告訴大家怎樣剪輯影片不算侵權,以及如何避免侵權問題。一、抖音發布他人影片侵權嗎?根據我國《著作權法》的規定,未經著作權人許可,擅自使用其作品,屬於侵權行為。因此,在抖音上發布他人視頻,如果未經原作者或著作權人許可,就屬於侵權行為。二、怎樣剪輯影片不算侵權? 1.使用公共領域或授權的內容:公共

Wink如何去視訊浮水印?winkAPP中是有去除掉視訊浮水印的工具,但是多數的小伙伴不知道wink中如何去除掉視頻中的水印,接下來就是小編為玩家帶來的Wink視頻去水印方法圖文教程,有興趣的用戶快來一起看看吧! Wink如何去視訊浮水印1、先開啟winkAPP,在首頁面專區中選擇【去浮水印】功能;2、然後在相簿中選擇你需要去除水印的影片;3、接著選擇影片之後,剪輯影片之後點擊右上角【√】;4、最後點選如下圖的【一鍵去印】之後點選【處理】即可。

在iOS設備上,「相機」應用程式可讓您拍攝慢動作視頻,如果您使用的是最新的iPhone,甚至可以以每秒240幀的速度錄製視頻。此功能讓您能夠捕捉到豐富細節的高速動作。但有時候,您可能希望將慢動作影片以正常速度播放,這樣可以更好地欣賞影片中的細節和動作。在這篇文章中,我們將解釋從iPhone上的現有影片中刪除慢動作的所有方法。如何從iPhone上的影片中刪除慢動作[2種方法]您可以使用「照片」App或iMovie剪輯App從裝置上的影片中刪除慢動作。方法1:使用「照片」應用程式在iPhone上開啟

抖音,這個全民短視頻平台,不僅讓我們在閒暇時間享受到各種有趣、新奇的短視頻,同時也給了我們一個展示自我、實現價值的舞台。那麼,如何在抖音發布影片中賺取收益呢?本文將詳細解答這個問題,幫助你在抖音上賺取更多的收益。一、抖音發布影片如何賺收益?發布影片在抖音上獲得一定的播放量後,可以有機會參與廣告分成計畫。這項收益方式是抖音用戶最熟悉的之一,也是許多創作者主要的收入來源。抖音根據帳號權重、影片內容以及觀眾回饋等多種因素來決定是否提供廣告分成的機會。抖音平台允許觀眾透過發送禮物來支持自己喜歡的創作者,

隨著短影片平台的興起,小紅書成為了許多人分享生活、表達自我、獲取流量的平台。在這個平台上,發布影片作品是一種非常受歡迎的互動方式。那麼,如何發布小紅書影片作品呢?一、如何發布小紅書影片作品?首先,確保準備好一段適合分享的影片內容。你可以利用手機或其他攝影設備拍攝,需要注意畫質和聲音的清晰度。 2.剪輯影片:為了讓作品更具吸引力,可以剪輯影片。可使用專業的影片剪輯軟體,如抖音、快手等,加入濾鏡、音樂、字幕等元素。 3.選擇封面:封面是吸引用戶點擊的關鍵,選擇一張清晰、有趣的圖片作為封面,讓

uc瀏覽器下載的影片怎麼變成本機影片?許多手機用戶都喜歡使用UC瀏覽器,不僅可用它進行網頁瀏覽,還可在線上觀看各種影片和電視節目,並將喜愛的影片下載至手機。實際上,我們可以將下載的視頻轉換為本地視頻,但很多人不清楚如何操作。因此,小編特地為大家帶來了將uc瀏覽器快取的影片轉為本地影片方法,希望可以幫助到各位。將uc瀏覽器快取的影片轉為本機影片方法1、開啟uc瀏覽器,點選「選單」選項。 2、點選「下載/影片」。 3、點選「已快取影片」。 4.長按任意一個視頻,彈出選項後,點選「開啟目錄」。 5.勾選要下載的

1.先打開手機微博,點選右下角【我】(如圖所示)。 2、接著點選右上角【齒輪】打開設定(如圖所示)。 3.然後找到並開啟【通用設定】(如圖所示)。 4.隨後進入【影片隨著】選項(如圖所示)。 5.再開啟【影片上傳清晰度】設定(如圖)。 6.最後選擇【原畫質】就能不壓縮了(如圖)。
