USB:首個將視覺、語言和音訊分類任務進行統一的半監督分類學習基準
當前,半監督學習的發展如火如荼。但是現有的半監督學習基準大多局限於電腦視覺分類任務,排除了對自然語言處理、音訊處理等分類任務的一致和多樣化評估。此外,大部分半監督論文由大型機構發表,學術界的實驗室往往由於計算資源的限製而很難參與推動該領域的發展。
為此,微軟亞洲研究院的研究員們聯合西湖大學、東京工業大學、卡內基美隆大學、馬克斯-普朗克研究所等機構的科研人員提出了Unified SSL Benchmark(USB):第一個將視覺、語言和音訊分類任務進行統一的半監督分類學習基準。
該論文不僅引入了更多樣化的應用領域,還首次利用視覺預訓練模型大大縮減了半監督演算法的驗證時間,使得半監督研究對研究者,特別是小研究團體比較友善。相關論文已被國際人工智慧領域頂尖學術大會 NeurIPS 2022 接收。
文章連結:https://arxiv.org/pdf/2208.07204.pdf
程式碼連結:https://github.com/microsoft/Semi-supervised-learning
監督學習透過建立模型來擬合有標記數據,當使用監督學習 (supervised learning)對大量高品質的標記數據(labeled data)進行訓練時,神經網路模型會產生有競爭力的結果。
例如,根據 Paperswithcode 網站統計,在 ImageNet 這一百萬量級的資料集上,傳統的監督式學習方法可以達到超過88%的準確率。然而,取得大量有標籤的數據往往費時費力。
為了緩解對標註資料的依賴,半監督學習(semi-supervised learning/SSL)致力於在僅有少量的標註資料時利用大量無標籤資料(unlabeled data)來提升模型的泛化性。半監督學習亦是機器學習的重要主題之一。在深度學習之前,這一領域的研究者提出了諸如半監督支持向量機、熵正則化、協同訓練等經典演算法。
深度半監督學習
隨著深度學習的興起,深度半監督學習演算法也取得了長足的進步。同時,包括微軟、Google、和 Meta 等在內的科技公司也意識到了半監督學習在實際場景中的巨大潛力。
例如,Google利用噪音學生訓練(noisy student training)這一半監督演算法提高了其在搜尋方面的效能[1]。目前最具代表性的半監督演算法通常對標註資料使用交叉熵損失進行訓練,對無標註資料使用一致性正規技術(consistency regularization)鼓勵對輸入擾動進行不變預測。
例如,Google在NeurIPS 2020 提出的FixMatch[2] 演算法,利用增強錨定(augmentation anchoring)和固定閾值(fixed thresholding)技術來增強模型對不同強度增強數據的泛化性和減少雜訊偽標籤(noisy pseudo labels)的影響。在訓練中,FixMatch 過濾了低於使用者指定(user-provided / pre-defined)閾值的無標籤資料。
微軟亞洲研究院與東京工業大學等在NeurIPS 2021 合作提出的FlexMatch[3] 則考慮到了不同類別之間的學習難度不同,因此提出了課程偽標籤( curriculum pseudo labeling)技術,對於不同類別應該採用不同的閾值。
具體來說,對於容易學習的類別,模型應該設定高閾值以降低雜訊偽標籤的影響;對於難學習的類別,模型應該設定低閾值鼓勵該類別的擬合。每個類別的學習難度評估取決於落入該類別且高於固定值的未標記資料樣本的數量。
同時,微軟亞洲研究院的研究員們也合作提出了一個統一的基於Pytorch 的半監督方法程式碼庫TorchSSL[4],對該領域的深度方法、常用數據集和基準結果進行了統一的支援。
圖1:FlexMatch 演算法流程
#目前半監督學習程式碼庫存在的問題與挑戰
儘管半監督學習的發展如火如荼,但是,研究員們注意到目前大部分半監督方向的論文只關注計算機視覺(CV) 分類任務,對於其他領域,例如自然語言處理(NLP)、音頻處理(audio),研究者無法得知這些在CV 任務上有效的演算法到了不同領域是否依然有效。
另外,大部分半監督相關的論文都是由大型機構發表,學術界的實驗室往往由於計算資源的限製而很難參與到推動該領域的發展中。總的來說,半監督學習基準目前有以下兩個問題:
(1)多樣性不足。現有的半監督學習基準大多局限於CV 分類任務(即CIFAR-10/100,SVHN,STL-10 和ImageNet 分類),排除了對NLP、audio 等分類任務的一致和多樣化評估,而在NLP和audio 中缺乏足夠的標記資料也是一個普遍問題。
(2)耗時且對學術界不友善。現有的半監督學習基準(如 TorchSSL)通常是耗時且不環保的,因為它往往需要從頭開始訓練深度神經網路模型。具體而言,使用TorchSSL 評估 FixMatch[1]大約需要300個 GPU 日。如此高的訓練成本使得許多研究實驗室(尤其是學術界的實驗室或小型研究團體)無法負擔得起 SSL 的相關研究,從而阻礙了 SSL 的進展。
USB:任務多樣化且對研究者更友善的新基準庫
為了解決上述問題,微軟亞洲研究院的研究員們聯合西湖大學、東京工業大學、卡內基美隆大學、馬克斯-普朗克研究所等機構的科研人員提出了Unified SSL Benchmark(USB),這是第一個將視覺、語言和音頻分類任務進行統一的半監督分類學習基準。
比起先前的半監督學習基準(如TorchSSL)只專注於少量視覺任務,該基準不僅引入了更多樣化的應用領域,還首次利用視覺預訓練模型(pretrained vision Transformer)大幅縮減了半監督演算法的驗證時間(從7000 GPU 時縮減至900 GPU 時),從而使得半監督研究對研究者、特別是小研究團體更為友善。
相關論文已被國際人工智慧領域的頂尖學術大會 NeurIPS 2022 接收。 (點擊「閱讀原文」以了解更多)
USB 提供的解決方案
那麼,USB 如何一次解決目前半監督基準所存在的問題呢?研究員們主要進行瞭如下改進:
(1)為增強任務多樣性,USB 引入了5個CV 資料集,5個NLP 資料集和5個audio 資料集,並提供了一個多樣化且具有挑戰性的基準,從而能夠對來自不同領域的多個任務進行一致的評估。表1提供了 USB 與 TorchSSL 的任務和訓練時間等方面的詳細比較。
#表1:USB 與TorchSSL 框架的任務與訓練時間比較
#(2)為了提升訓練效率,研究員將預先訓練的vision Transformer 引入SSL,而不是從頭開始訓練ResNets。具體而言,研究員發現在不影響表現的情況下使用預訓練模型可以大幅減少訓練迭代次數(例如,將 CV 任務的訓練迭代次數從100萬步減少到20萬步)。
(3)為了對研究人員更加友好,研究員們開源實現了14種 SSL 演算法並開源了一個模組化程式碼庫和相關的設定檔以供研究者輕鬆再現 USB 報告中的結果。為了快速上手,USB 還提供了詳細的文件和教學。此外,USB 還提供了 pip 套件以供用戶直接呼叫 SSL 演算法。研究員們承諾未來在 USB 中不斷加入新的演算法(例如不平衡半監督演算法等)和更多更具挑戰性的資料集。表2展示了 USB 中已支援的演算法和模組。
表2:USB 中已支援的演算法與模組
半監督學習透過利用大量無標籤資料來訓練更精確、更穩健的模型,在未來有著重要的研究和應用價值。微軟亞洲研究院的研究員們期待透過 USB 這項工作,能夠予力學術界和工業界在半監督學習領域取得更大的進展。
以上是USB:首個將視覺、語言和音訊分類任務進行統一的半監督分類學習基準的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

恐怖走廊是模擬山羊3之中的一個任務,這個任務要怎麼樣才能夠去完成呢,掌握到詳細的過關方式和對應的流程,能夠完成這個任務的相應挑戰,下面就為大家帶來模擬山羊3恐怖走廊攻略,了解相關的資訊。模擬山羊3恐怖走廊攻略1、首先需要玩家前往地圖左上角的寂靜嶺處。 2.在這裡可以看到一個屋頂上寫著RESTSTOP的房子,玩家需要操作山羊進入這棟房子。 3.進入房間之後,我們先向前直走,然後向右轉,在這裡盡頭有一扇門,我們直接從這裡進去。 4.進入之後同樣是先向前走隨後右轉,在這裡走到門前門會關上,我們需要回頭找到

模擬山羊3是有著經典模擬玩法的遊戲,可讓玩家充分體驗到休閒動作類操作模擬的樂趣,遊戲中還擁有很多特色任務的精彩,其中模擬山羊3帝陵任務是需要玩家找尋到鐘塔上的三個鐘並操作的,有些玩家還不清楚要怎麼弄,下面帶來模擬山羊3帝陵任務攻略流程分享!模擬山羊3帝陵任務攻略流程按照順序敲擊鐘即可。詳細步驟拓展1、首先玩家需要打開地圖到霧丘公墓。 2.然後上到鐘樓上,裡面會有三個鐘。 3.接著按照從大到小的順序,依照222312312熟悉怒敲擊。 4、完成敲擊後即可完成任務,並打開大門以獲得光劍。

要自動化任務和管理多個系統,任務規劃軟體是您武器庫中的寶貴工具,尤其是對於系統管理員而言。 Windows任務規劃程式完美地完成了這項工作,但最近許多人報告說操作員拒絕了請求錯誤。這個問題存在於作業系統的所有迭代中,即使已經廣泛報告和涵蓋,也沒有有效的解決方案。繼續閱讀以找到真正對其他人有用的內容!操作員或管理員拒絕了任務計畫程式0x800710e0中的請求是什麼?任務計劃程式允許在沒有使用者輸入的情況下自動執行各種任務和應用程式。您可以使用它來安排和組織特定應用程式、配置自動通知、幫助傳遞訊息等。它

營救史蒂夫是模擬山羊3中的一個獨特任務,具體需要怎麼做才能夠完成呢,這個任務比較簡單,但是我們需要注意不要理解錯意思,下面就為大家帶來模擬山羊3營救史蒂夫任務攻略,能夠更好的完成相關的任務。模擬山羊3營救史蒂夫任務攻略1、先來到地圖中右下角的溫泉。 2.在來到溫泉邊之後就可以觸發營救史蒂夫的這個任務。 3.注意在溫泉裡有個男人,雖然他也叫史蒂夫,但是並不是這次任務的目標。 4.在這個溫泉裡找到一條叫史蒂夫的魚,並且將其帶上岸,即可完成這個任務。

抖音作為當下最受歡迎的社群媒體平台之一,吸引了大量用戶參與其中。在抖音上,有許多粉絲團任務可供用戶完成,以獲得一定的獎勵和福利。那麼,抖音粉絲團任務在哪裡可以找到呢?一、抖音粉絲團任務在哪裡看?為了找到抖音粉絲團任務,你需要造訪抖音的個人首頁。在主頁上,你會看到一個名為「粉絲團」的選項。點擊這個選項,你就可以瀏覽你所加入的粉絲團和相關任務。在粉絲團任務欄位中,你會看到各種不同類型的任務,例如按讚、留言、分享、轉發等。每個任務都有對應的獎勵和要求,一般來說,完成任務後會獲得一定數量的金幣或經驗值

寫在前面今天我們探討下深度學習技術如何改善在複雜環境中基於視覺的SLAM(同時定位與地圖建構)表現。透過將深度特徵提取和深度匹配方法相結合,這裡介紹了一種多功能的混合視覺SLAM系統,旨在提高在諸如低光條件、動態光照、弱紋理區域和嚴重抖動等挑戰性場景中的適應性。我們的系統支援多種模式,包括拓展單目、立體、單目-慣性以及立體-慣性配置。除此之外,也分析如何將視覺SLAM與深度學習方法結合,以啟發其他研究。透過在公共資料集和自採樣資料上的廣泛實驗,展示了SL-SLAM在定位精度和追蹤魯棒性方面優

1介紹神經輻射場(NeRF)是深度學習和電腦視覺領域的一個相當新的範式。 ECCV2020論文《NeRF:將場景表示為視圖合成的神經輻射場》(該論文獲得了最佳論文獎)中介紹了這項技術,該技術自此大受歡迎,迄今已獲得近800次引用[1 ]。此方法標誌著機器學習處理3D資料的傳統方式發生了巨大變化。神經輻射場場景表示和可微分渲染過程:透過沿著相機射線採樣5D座標(位置和觀看方向)來合成影像;將這些位置輸入MLP以產生顏色和體積密度;並使用體積渲染技術將這些值合成影像;此渲染函數是可微分的,因此可以透過

如何在Windows11和Windows10中暫停工作管理員進程更新按CTRL+視窗鍵+刪除開啟工作管理員。預設情況下,任務管理器將開啟「進程」視窗。正如您在此處看到的,所有應用程式都在無休止地移動,當您想要選擇它們時,可能很難將它們指向下方。因此,按CTRL並按住它,這將暫停任務管理器。您仍然可以選擇應用程序,甚至可以向下捲動,但您必須始終按住CTRL按鈕。
