華為天才少年謝凌曦:關於視覺辨識領域發展的個人觀點
最近,我參加了幾個高強度的學術活動,包括CCF電腦視覺專委會的閉門研討會和VALSE線下大會。經過與其他學者的交流,我產生了許多想法,千頭萬緒,便希望把它們整理下來,供自己和同行們參考。當然,受限於個人的水平和研究範圍,文章中一定會存在許多不準確甚至錯誤的地方,當然也不可能涵蓋所有重要的研究方向。我期待與有興趣的學者們交流,以充實這些觀點,更好地探討未來發展方向。
在這篇文章中,我將專注於分析電腦視覺領域,特別是視覺感知(即識別)方向所面臨的困難和潛在的研究方向。相較於針對具體演算法的細節改進,我更希望探討當前演算法(尤其是基於深度學習的預訓練微調範式)的限制和瓶頸,並且由此得出初步的發展性結論,包括哪些問題是重要的、哪些問題是不重要的、哪些方向值得推進、哪些方向的性價比較低等。
在開始之前,我先畫出以下心智圖。為了尋找合適的切入點,我將從電腦視覺和自然語言處理(人工智慧中兩個最受關注的研究方向)的區別開始談起,引出圖像訊號的三個根本性質:資訊稀疏性、域間差異性、無限粒度性,並將它們與幾個重要的研究方向相對應。這樣,我們就能更了解每個研究方向所處的狀態:它已經解決了哪些問題、還有哪些重要的問題沒有解決,然後針對性地分析今後的發展趨勢。
導圖:CV與NLP的差異、CV三大挑戰及因應方法
#CV的三大基本困難和對應的研究方向
一直以來,NLP都走在CV的前面。不論是深度神經網路超越手工方法,還是預訓練大模型開始出現大一統的趨勢,這些事情都先發生在NLP領域,並在不久之後被搬運到了CV領域。這裡的本質原因是NLP的起點更高:自然語言的基礎單元是單詞,而圖像的基礎單元是像素;前者俱有天然的語義訊息,而後者可能無法表達語義。從根本上說,自然語言是人類創造出來,用於儲存知識和交流資訊的載體,所以必然具有高效和資訊密度高的特性;而圖像則是人類透過各種感測器捕捉的光學訊號,它能夠客觀地反映真實情況,但相應地就不具有強語義,且資訊密度可能很低。從另一個角度來看,圖像空間比文字空間大得多,空間的結構也要複雜得多。這意味著,如果希望在空間中採樣大量樣本,並且用這些數據來表徵整個空間的分佈,採樣的圖像數據就要比採樣的文本數據大許多個數量級。順帶一提,這也是為什麼自然語言預訓練模型比視覺預訓練模型用得更好的本質原因——我們在後面還會提到這一點。
根據上述分析,我們已經透過CV和NLP的差別,引出了CV的第一個基本困難,即語義稀疏性。而另外兩個困難,域間差異性和無限粒度性,也多少與上述本質差異有關。正是由於影像採樣時沒有考慮到語義,因而在採樣不同域(即不同分佈,如白天和黑夜、晴天和雨天等場景)時,採樣結果(即影像像素)與域特性強相關,導致了域間差異性。同時,由於圖像的基本語義單元很難定義(而文字很容易定義),且圖像所表達的信息豐富多樣,使得人類能夠從圖像中獲取近乎無限精細的語義信息,遠遠超出當前CV領域任何一種評價指標所定義的能力,這就是無限粒度性。關於無限粒度性,我曾經寫過一篇文章,專門討論這個問題。 https://zhuanlan.zhihu.com/p/376145664
以上述三大基本困難為牽引,我們將業界近年來的研究方向總結如下:
#- 語意稀疏性:解決方案為建立高效能運算模型(神經網路)和視覺預訓練。此處的主要邏輯在於,想要提升資料的資訊密度,就必須假設資料的非均勻分佈(資訊理論)並對其建模(即學習資料的先驗分佈)。目前,最有效率的建模方式有兩類,一類是透過神經網路架構設計,來捕捉資料無關的先驗分佈(例如捲積模組對應於影像資料的局部性先驗、transformer模組對應於影像數據的注意力先驗);一類是透過在大規模資料上的預訓練,來捕捉資料相關的先驗分佈。這兩個研究方向,也是視覺辨識領域最為基礎、受到最多關注的研究方向。
- 域間差異性#:解決方案為資料高效的微調演算法。根據上述分析,網路體量越大、預訓練資料集體量越大,計算模型中儲存的先驗就越強。然而,當預訓練域和目標域的資料分佈有較大差異時,這種強先驗反而會帶來壞處,因為資訊理論告訴我們:提升某些部分(預訓練域)的資訊密度,就一定會降低其他部分(預訓練域沒有包含的部分,即預訓練過程中認為不重要的部分)的資訊密度。現實中,目標域很可能部分或全部落在沒有包含的部分,導致直接遷移預訓練模型的效果很差(即過度擬合)。此時,就需要透過在目標域進行微調來適應新的資料分佈。考慮到目標域的資料體量往往遠小於預訓練域,因而資料高效是不可或缺的假設。此外,從實用的角度來看,模型必須能夠適應隨時變化的領域,因而終身學習是必須。
- 無限粒度性:解決方案為開放域識別演算法。無限粒度性包含開放域特性,是更高的追求目標。這個方向的研究還很初步,特別是業界還沒有能被普遍接受的開放域辨識資料集和評估指標。這裡最本質的問題之一,是如何向視覺辨識引入開放域能力。可喜的是,隨著跨模態預訓練方法的湧現(特別是2021年的CLIP),自然語言越來越接近成為開放域識別的牽引器,我相信這會是未來2-3年的主流方向。然而,我並不贊成在追求開放域辨識的過程中,湧現的各種zero-shot辨識任務。我認為zero-shot本身就是一個偽命題,世界上並不存在也不需要zero-shot辨識方法。現有的zero-shot任務,都是使用不同方法,將資訊洩漏給演算法,而洩漏方式的千差萬別,導致不同方法之間難以進行公平比較。在這個方向上,我提出了一種被稱為按需視覺識別的方法,以進一步揭示、探索視覺識別的無限粒度。
這裡需要做一個補充說明。由於資料空間大小和結構複雜度的差異,至少到目前為止,CV領域還不能透過預訓練模型直接解決域間差異的問題,但是NLP領域已經接近了這一點。因此,我們看到了NLP學者利用prompt-based方法統一了數十上百種下游任務,但同樣的事情在CV領域並沒有發生。另外,在NLP中提出來的scaling law,其本質在於使用更大的模型來過擬合預訓練資料集。也就是說,對於NLP來說,過度擬合已經不再是一個問題,因為預訓練資料集配合小型prompt已經足以表徵整個語意空間的分佈。但是,CV領域還沒有做到這一點,因此還需要考慮域遷移,而域遷移的核心在於避免過度擬合。也就是說,在接下來2-3年,CV和NLP的研究重心會有很大的差異,因而將任何一個方向的思維模式生搬硬套在另一個方向上,都是很危險的。
以下簡單分析各個研究方向
#方向1a:神經網路架構設計
2012年的AlexNet,奠定了深度神經網路在CV領域的基礎。隨後10年(至今),神經網路架構設計,經歷了從手工設計到自動設計,再回到手工設計(引入更複雜的計算模組)的過程:##
- 2012-2017年,手工建立更深的捲積神經網絡,探索一般最佳化技巧。關鍵字:ReLU、Dropout、3x3卷積、BN、跳躍連接,等。在這個階段,卷積操作是最基本的單元,它對應於影像特徵的局部性先驗。
- 2017-2020年,自動建構更複雜的神經網路。其中,網路架構搜尋(NAS)盛行一時,最後定型為基礎工具。在任意給定的搜尋空間中,自動設計都能達到稍微更好的結果,並且能夠快速適應不同的計算開銷。
- 2020年至今,起源於NLP的transformer模組從被引入CV,利用attention機制,補足了神經網路的遠距離建模能力。現今,大部分視覺任務的最優結果,都藉助包含transformer的架構所達到。
對於這一方向的未來,我的判斷如下:
如果視覺辨識任務沒有明顯改變,那麼不論是自動設計,或是加入更複雜的運算模組,都無法將CV推向新的高度。視覺辨識任務的可能改變,大致可以分成輸入和輸出兩個部分。輸入部分的可能改變如event camera,它可能會改變規則化處理靜態或時序視覺訊號的現狀,催生特定的神經網路結構;輸出部分的可能改變,則是某種統一各種識別任務的框架(方向3會談到),它有可能讓視覺辨識從獨立任務走向大一統,從而催生出一種更適合視覺prompt的網路架構。
如果一定要在卷積和transformer之間做取捨,那麼transformer的潛力更大,主要因為它能夠統一不同的資料模態,尤其是文字和圖像這兩個最常見也最重要的模態。
- 可解釋性是一個很重要的研究方向,但是我個人對於深度神經網路的可解釋性持悲觀態度。 NLP的成功,也不是建立在可解釋性上,而是建立在過度擬合大規模語料庫上。對於真正的AI來說,這可能不是太好的訊號。
- 方向1b:視覺預訓練
- #作為如今CV領域炙手可熱的方向,預訓練方法被寄予厚望。在深度學習時代,視覺預訓練可以分為有監督、無監督、跨模態三類,大致敘述如下:
##有監督預訓練的發展相對清晰。由於影像級分類資料最容易獲取,因此早在深度學習爆發之前,就有了日後奠定深度學習基礎的ImageNet資料集,並且沿用至今。 ImageNet全集超過1500萬的資料規模,至今沒有被其他非分類資料集所超越,因此至今仍是有監督預訓練上最常用的資料。另外一個原因,則是影像級分類資料引進了較少bias,因而對於下游遷移更加有利-進一步減少bias,就是無監督預訓練。
#########無監督預訓練,則經歷了曲折的發展歷程。從2014年開始,出現了第一代基於幾何的無監督預訓練方法,如根據patch位置關係、根據圖像旋轉等進行判斷,同時生成式方法也在不斷發展(生成式方法可以追溯到更早的時期,此處不贅述)。此時的無監督預訓練方法,也顯著地弱於有監督預訓練方法。到了2019年,對比學習方法經過技術改進,首次顯現出在下游任務上超越有監督預訓練方法的潛力,無監督學習真正成為CV界關注的焦點。而2021年開始,視覺transformer的興起催生了一類特殊的生成式任務即MIM,它逐漸成為統治性方法。 ##################除了純粹的有監督和無監督預訓練,還有一類介於兩者之間的方法,是跨模態預訓練。它使用弱配對的圖像和文字作為訓練素材,一方面避免了圖像監督訊號帶來的bias,一方面又比無監督方法更能學習弱語義。此外,在transformer的加持下,視覺和自然語言的融合也更自然、更合理。 #####################基於上述回顧,我做出以下判斷:#########- 從實際應用來看,應該將不同的預訓練任務結合起來。也就是說,應收集混合數據集,其中包含少量有標籤數據(甚至是檢測、分割等更強的標籤)、中量圖文配對數據、大量無任何標籤的圖像數據,並且在這樣的混合數據集上設計預訓練方法。
- 從CV領域看,無監督預訓練是最能體現視覺本質的研究方向。即使跨模態預訓練給整個方向帶來了很大的衝擊,我仍然認為無監督預訓練非常重要,必須堅持下去。需要指出,視覺預訓練的想法很大程度上受到了自然語言預訓練的影響,但是兩者性質不同,因而不能一概而論。尤其是,自然語言本身就是人類創造出來的數據,其中每個單字、每個字元都是人類寫下來的,天然帶有語義,因此從嚴格意義上說,NLP的預訓練任務不能被視為真正的無監督預訓練,至多算是弱監督的預訓練。但是視覺不同,影像訊號是客觀存在、未經人類處理的原始數據,其中的無監督預訓練任務一定更難。總之,即使跨模態預訓練能夠在工程上推進視覺演算法,使其達到更好的辨識效果,視覺的本質問題還是要靠視覺本身來解決。
- 目前,純視覺無監督預訓練的本質在於從退化中學習。這裡的退化,指的是從影像訊號中去除某些已經存在的信息,要求演算法復原這些資訊:幾何類方法去除的是幾何分佈資訊(如patch的相對位置關係);對比類方法去除的是影像的整體資訊(透過抽取不同的觀點);生成類方法如MIM去除的是影像的局部資訊。這種基於退化的方法,都具有一個無法逾越的瓶頸,即退化強度和語義一致性的衝突。由於沒有監督訊號,視覺表徵學習完全依賴退化,因此退化必須足夠強;而退化足夠強時,就無法保證退化前後的圖像具有語義一致性,從而導致病態的預訓練目標。舉例說,對比學習從一張圖像中抽取的兩個view如果毫無關係,拉近它們的特徵就不合理;MIM任務如果去除了圖像中的關鍵信息(如人臉),重建這些信息也不合理。強行完成這些任務,就會引入一定的bias,弱化模型的泛化能力。未來,應該會出現一種無需退化的學習任務,而我個人相信,透過壓縮來學習是一條可行的路線。
方向2:模型微調與終身學習
作為一個基礎問題,模型微調已經發展出了大量的不同的setting。如果要把不同的setting統一起來,可以認為它們無非考慮三個資料集,即預訓練資料集 Dpre (不可見)、目標訓練集 Dtrain 、目標測試集 Dtest (不可見且不可預測)。根據三者之間關係的假設不同,比較流行的setting可以概括如下:
- 遷移學習:假設Dpre 或Dtrain 和Dtest 的資料分佈大不相同;
- 弱監督學習:假設Dtrain 只提供了不完整的標註資訊;
- #半監督學習:假設Dtrain 只有部分資料被標註;
- #帶雜訊學習:假設Dtrain 的部分資料標註可能有誤;
- 主動學習:假設Dtrain 可以透過互動形式標註(挑選其中最難的樣本)以提升標註效率;
- #持續學習:假設不斷有新的Dtrain 出現,從而學習過程中可能會遺忘從Dpre 學習的內容;
- ……
上說,很難找到統一的框架來分析模型微調方法的發展和流派。從工程和實用角度來看,模型微調的關鍵在於對域間差異大小的事先判斷。如果認為Dpre 和Dtrain 的差異可能很大,就要減少從預訓練網絡中遷移到目標網絡中權重的比例,或者增加一個專門的head來適應這種差異;如果認為Dtrain 和Dtest 的差異可能很大,就要在微調過程中加入更強的正則化以防止過擬合,或者在測試過程中引入某種在線統計量以盡量抵消差異。至於上述各種setting,則分別有大量研究工作,針對性很強,此處不再贅述。
關於這個方向,我認為有兩個重要問題:
- 從孤立的setting向終身學習的統一。從學術界到工業界,必須拋棄「一次性交付模型」的思維,將交付內容理解為以模型為中心,配套有資料治理、模型維護、模型部署等多種功能的工具鏈。用工業界的話來說,一個模型或一套系統,在整個專案的生命週期中,必須得到完整的看護。必須考慮到,用戶的需求是多變且不可預期的,今天可能會換個攝像頭,明天可能會新增要檢測的目標種類,等等。我們不追求AI能自主解決所有問題,但是AI演算法應該有一個規範操作流程,讓不懂AI的人能夠遵循這個流程,新增他們想要的需求、解決平時遇到的問題,這樣才能讓AI真正平民化,解決實際問題。對於學術界,必須盡快定義出符合真實場景的終身學習setting,建立起相應的benchmark,推動這一方向的研究。
- 在域間差異明顯的情況下,解決大數據和小樣本的衝突。這又是CV和NLP的不同點:NLP已經基本上不用考慮預訓練和下游任務的域間差異性,因為語法結構和常見單字完全一樣;而CV則必須假設上下游資料分佈顯著不同,以致於上游模型未經微調時,在下游資料中無法抽取底層特徵(被ReLU等單元直接濾除)。因此,用小數據微調大模型,在NLP領域不是大問題(現在的主流是只微調prompt),但在CV領域是個大問題。在這裡,設計視覺友善的prompt也許是個好方向,但目前的研究還沒有切入核心問題。
方向3:無限細緻視覺辨識任務
關於無限細粒度視覺辨識(以及類似的概念),目前還沒有很多相關的研究。所以,我以自己的思路來敘述這個問題。我在今年VALSE報告上,對已有方法和我們的proposal做了詳細解讀。以下我給出文字敘述,更詳細的解讀請參考我的專題文章或我在VALSE上做的報告:https://zhuanlan.zhihu.com/p/ 546510418https://zhuanlan.zhihu.com/p/555377882
###首先,我要闡述無限細粒度視覺辨識的意思。簡單地說,圖像中包含的語義資訊非常豐富,但不具有明確的基本語義單元。只要人類願意,就可以從一張圖像中識別出越來越細粒度的語義信息(如下圖所示);而這些信息,很難通過有限而規範的標註(即使花費足夠多的標註成本),形成語意上完整的資料集,供演算法學習。
即使如ADE20K這樣的精細標註資料集,也缺少了大量人類能夠辨識的語意內容
#我們認為,無限細粒度視覺辨識是比開放域視覺辨識更難,也更本質的目標。我們研究了已有識別方法,將其分為兩類,即基於分類的方法和語言驅動的方法,並論述它們無法實現無限細粒度的理由。
- 基於分類的方法:這包括傳統意義上的分類、偵測、分割等方法,其基本特點是給影像中的每個基本語意單元(圖像、box、mask、keypoint等)賦予一個類別標籤。這種方法的致命缺陷在於,當辨識的粒度增加時,辨識的確定性必然下降,也就是說,粒度和確定性是衝突的。舉例說,在ImageNet中,存在著“家具”和“電器”兩個大類;顯然“椅子”屬於“家具”,而“電視機”屬於“家電”,但是“按摩椅”屬於“家具”還是“家電”,就很難判斷——這就是語義粒度的增加所引發的確定性的下降。如果照片裡有一個分辨率很小的“人”,強行標註這個“人”的“頭部”甚至“眼睛”,那麼不同標註者的判斷可能會不同;但是此時,即使是一兩個像素的偏差,也會大大影響IoU等指標-這就是空間粒度的增加所引發的確定性的下降。
- 語言驅動的方法:這包括CLIP帶動的視覺prompt類別方法,以及存在更長時間的visual grounding問題等,其基本特點是利用語言來指涉影像中的語意資訊並加以辨識。語言的引入,確實增強了識別的靈活性,並帶來了天然的開放域性質。然而語言本身的指涉能力有限(想像一下,在一個具有上百人的場景中指涉某個特定個體),無法滿足無限細粒度視覺辨識的需要。歸根究底,在視覺辨識領域,語言應起到輔助視覺的作用,而已有的視覺prompt方法多少有些喧賓奪主的感覺。
上述研究告訴我們,目前的視覺辨識方法並不能達到無限細粒度的目標,而且在走向無限細粒度的路上還會遭遇難以克服的困難。因此,我們我們想分析人是如何解決這些困難的。首先,人類在大多數情況下並不需要明確地做分類任務:回到上述例子,一個人到商場裡買東西,不管商場把「按摩椅」放在「家具」區還是「家電」區,人類都可以透過簡單的指引,快速找到「按摩椅」所在的區域。其次,人類不僅限於用語言指涉影像中的物體,可以使用更靈活的方式(如用手指向物體)完成指涉,進而做更細緻的分析。
結合這些分析,要達到無限細粒度的目標,必須滿足以下三個條件。
#- 開放性:開放域識別,是無限細粒度識別的子目標。目前看,引入語言是實現開放性的最佳方案之一。
- 特異性:引入語言時,不應被語言束縛,而應設計視覺友善的指涉方案(即辨識任務)。
- 可變粒度性:並非總是要求識別到最細粒度,而是可以根據需求,靈活地改變識別的粒度。
在這三個條件的牽引下,我們設計出了按需視覺辨識任務。與傳統意義上的統一視覺識別不同,按需視覺識別以request為單位進行標註、學習和評測。目前,系統支援兩類request,分別實現了從instance到semantic的分割、以及從semantic到instance的分割,因而兩者結合起來,就能夠實現任意精細程度的圖像分割。按需視覺識別的另一個好處在於,在完成任意數量的request之後停止下來,都不會影響標註的精確性(即使大量資訊沒有被標註出來),這對於開放域的可擴展性(如新增語意類別)有很大的好處。具體細節,可以參考按需視覺識別的文章(連結見上文)。
統一視覺識別和按需視覺識別的對比
#在完成這篇文章之後,我還在不斷思考,按需視覺識別對於其他方向的影響是什麼。這裡提供兩個觀點:
- 按需視覺辨識中的request,本質上是一種視覺友善的prompt。它既能夠達到詢問視覺模型的目的,也避免了純語言prompt帶來的指涉模糊性。隨著更多類型的request被引入,這個體係有望更加成熟。
- 按需視覺識別,提供了在形式上統一各種視覺任務的可能性。例如,分類、偵測、分割等任務,在這框架下得到了統一。這一點可能對視覺預訓練帶來啟發。目前,視覺預訓練和下游微調的邊界並不清楚,預訓練模型究竟應該適用於不同任務,還是專注於提升特定任務,尚無定論。然而,如果出現了形式上統一的辨識任務,那麼這個論點也許就不再重要。順便說,下游任務在形式上的統一,也是NLP領域享有的一大優勢。
在上述方向之外
我將CV領域的問題分為三大類:辨識、產生、交互,識別只是其中最簡單的問題。關於這三個子領域,簡要的分析如下:
- 在辨識領域,傳統的辨識指標已經明顯過時,因此人們需要更新的評價指標。目前,在視覺辨識中引入自然語言,是明顯且不可逆的趨勢,但是這樣還遠遠不夠,業界需要更多任務層面的創新。
- 產生是比識別更高階的能力。人類能夠輕易地辨識出各種常見物體,但是很少人能夠畫出逼真的物體。從統計學習的語言上說,這是因為生成式模型需要對聯合分佈p(x,y) 進行建模,而判別式模型只需要對條件分佈p(y|x) 進行建模:前者能夠推導出後者,而後者不能推導出前者。從業界的發展來看,雖然影像產生品質不斷提升,但是生成內容的穩定性(不產生明顯非真實的內容)和可控性仍有待提升。同時,生成內容對於辨識演算法的輔助還相對較弱,人們也難以完全利用虛擬數據、合成數據,達到和真實數據訓練相媲美的效果。對於這兩個問題,我們的觀點都是,需要設計更好、更本質的評估指標,以取代現有的指標(生成任務上替代FID、IS等,而生成識別任務需要結合起來,定義統一的評價指標)。
- 1978年,電腦視覺先驅David Marr設想,視覺的主要功能,在於建立環境的三維模型,並且在互動中學習知識。相較於辨識和生成,互動更接近人類的學習方式,但是現在業界的研究相對較少。互動方向研究的主要困難,在於建構真實的互動環境——準確地說,當前視覺資料集的建構方式來自於對環境的稀疏採樣,但互動需要連續採樣。顯然,要解決視覺的本質問題,互動是本質。雖然業界已經有了許多相關研究(如具身智能),但還沒有出現通用的、任務驅動的學習目標。我們再次重複電腦視覺先驅David Marr提出的設想:視覺的主要功能,在於建立環境的三維模型,並且在互動中學習知識。電腦視覺,包括其他AI方向,都應該朝著這個方向發展,以走向真正的實用。
總之,在不同子領域,單純依靠統計學習(特別是深度學習)的強擬合能力的嘗試,都已經走到了極限。未來的發展,一定是建立在對CV更本質的理解上,而在各種任務上建立更合理的評價指標,則是我們需要踏出的第一步。
結語
經過幾次密集的學術交流,我能夠明顯地感受到業界的迷茫,至少對於視覺感知(辨識)而言,有意思、有價值的研究問題越來越少,門檻也越來越高。這樣發展下去,有可能在不久的將來,CV研究會走上NLP的道路,逐漸分化成兩類:
一類使用巨量計算資源進行預先訓練,不斷空虛地刷新SOTA;一類則不斷設計出新穎卻沒有實際意義的setting以強行創新。這對於CV領域顯然不是好事。為了避免這種事情,除了不斷探索視覺的本質、創造出更有價值的評測指標,還需要業界增加寬容性,特別是對於非主流方向的寬容性,不要一邊抱怨著研究同質化,一邊對於沒有達到SOTA的投稿痛下殺手。目前的瓶頸是所有人共同面對的挑戰,如果AI的發展陷入停滯,沒有人能夠獨善其身。感謝看到最後。歡迎友善的討論。
作者聲明
所有內容只代表作者本人觀點,均有可能被推翻,二次轉載務必連同聲明一起轉載。謝謝!
#以上是華為天才少年謝凌曦:關於視覺辨識領域發展的個人觀點的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

目標偵測是電腦視覺領域的重要任務,用於識別影像或影片中的物體並定位其位置。這項任務通常分為單階段和雙階段兩類演算法,它們在準確性和穩健性方面有所不同。單階段目標偵測演算法單階段目標偵測演算法將目標偵測轉換為分類問題,其優點是速度快,只需一步即可完成偵測。然而,由於過於簡化,精度通常不如雙階段目標偵測演算法。常見的單階段目標偵測演算法包括YOLO、SSD和FasterR-CNN。這些演算法一般以整個影像作為輸入,透過運行分類器來辨識目標物體。與傳統的兩階段目標偵測演算法不同,它們不需要事先定義區域,而是直接預

超解析度影像重建是利用深度學習技術,如卷積神經網路(CNN)和生成對抗網路(GAN),從低解析度影像中生成高解析度影像的過程。該方法的目標是透過將低解析度影像轉換為高解析度影像,從而提高影像的品質和細節。這種技術在許多領域都有廣泛的應用,如醫學影像、監視攝影、衛星影像等。透過超解析度影像重建,我們可以獲得更清晰、更具細節的影像,有助於更準確地分析和識別影像中的目標和特徵。重建方法超解析度影像重建的方法通常可以分為兩類:基於插值的方法和基於深度學習的方法。 1)基於插值的方法基於插值的超解析度影像重

舊照片修復是利用人工智慧技術對舊照片進行修復、增強和改善的方法。透過電腦視覺和機器學習演算法,該技術能夠自動識別並修復舊照片中的損壞和缺陷,使其看起來更加清晰、自然和真實。舊照片修復的技術原理主要包括以下幾個面向:1.影像去雜訊和增強修復舊照片時,需要先進行去雜訊和增強處理。可以使用影像處理演算法和濾波器,如均值濾波、高斯濾波、雙邊濾波等,來解決雜訊和色斑問題,進而提升照片的品質。 2.影像復原和修復在舊照片中,可能存在一些缺陷和損壞,例如刮痕、裂縫、褪色等。這些問題可以透過影像復原和修復演算法來解決

尺度不變特徵變換(SIFT)演算法是一種用於影像處理和電腦視覺領域的特徵提取演算法。該演算法於1999年提出,旨在提高電腦視覺系統中的物體辨識和匹配性能。 SIFT演算法具有穩健性和準確性,被廣泛應用於影像辨識、三維重建、目標偵測、視訊追蹤等領域。它透過在多個尺度空間中檢測關鍵點,並提取關鍵點周圍的局部特徵描述符來實現尺度不變性。 SIFT演算法的主要步驟包括尺度空間的建構、關鍵點偵測、關鍵點定位、方向分配和特徵描述子產生。透過這些步驟,SIFT演算法能夠提取出具有穩健性和獨特性的特徵,從而實現對影像的高效

目標追蹤是電腦視覺中一項重要任務,廣泛應用於交通監控、機器人、醫學影像、自動車輛追蹤等領域。它是透過深度學習方法,在確定了目標物件的初始位置後,預測或估計影片中每個連續幀中目標物件的位置。目標追蹤在現實生活中有著廣泛的應用,並且在電腦視覺領域具有重要意義。目標追蹤通常涉及目標檢測的過程。以下是目標追蹤步驟的簡要概述:1.物件偵測,其中演算法透過在物件周圍創建邊界框來對物件進行分類和檢測。 2.為每個物件分配唯一識別(ID)。 3.在儲存相關資訊的同時追蹤偵測到的物件在影格中的移動。目標追蹤的類型目標

會議簡介隨著科技的快速發展,人工智慧成為了推動社會進步的重要力量。在這個時代,我們有幸見證並參與分散式人工智慧(DistributedArtificialIntelligence,DAI)的創新與應用。分散式人工智慧是人工智慧領域的重要分支,這幾年引起了越來越多的關注。基於大型語言模型(LLM)的智能體(Agent)異軍突起,透過結合大模型的強大語言理解和生成能力,展現了在自然語言互動、知識推理、任務規劃等方面的巨大潛力。 AIAgent正在接棒大語言模型,成為目前AI圈的熱門話題。 Au

深度學習在電腦視覺領域取得了巨大成功,其中一項重要進展是使用深度卷積神經網路(CNN)進行影像分類。然而,深度CNN通常需要大量標記資料和運算資源。為了減少運算資源和標記資料的需求,研究人員開始研究如何融合淺層特徵和深層特徵以提高影像分類效能。這種融合方法可以利用淺層特徵的高運算效率和深層特徵的強表示能力。透過將兩者結合,可以在保持較高分類準確性的同時降低計算成本和資料標記的要求。這種方法對於那些資料量較小或計算資源有限的應用情境尤其重要。透過深入研究淺層特徵和深層特徵的融合方法,我們可以進一

在機器學習和電腦視覺領域,影像標註是將人工標註應用於影像資料集的過程。影像標註方法主要可分為兩大類:手動標註和自動標註。手動標註是指人工標註者透過手動操作對影像進行標註。這種方法需要人工標註者俱備專業知識和經驗,能夠準確地辨識和註釋影像中的目標物、場景或特徵。手動標註的優點是標註結果可靠且準確,但缺點是耗時且成本較高。自動標註是指利用電腦程式對影像進行自動標註的方法。這種方法利用機器學習和電腦視覺技術,透過訓練模型來實現自動標註。自動標註的優點是速度快且成本較低,但缺點是標註結果可能不
