2022 Top10自監督學習模型發布！美中兩國八項成果霸榜-人工智慧-PHP中文網

自監督學習使電腦能夠觀察世界，透過學習圖像、語音或文字的結構來了解世界。這推動了人工智慧最近的許多重大進展。

儘管世界科研人員在該領域投入大量精力，但目前自我監督學習演算法從圖像、語音、文字和其他模式中學習的方式存在很大差異。因此，人工智慧論壇Analytics India Magazine推出2022年十大自監督學習模型，以驍讀者。

Data2vec

2022 Top10自監督學習模型發布！美中兩國八項成果霸榜

#論文連結：https://arxiv.org/pdf/2202.03555.pdf

開源程式碼：https://t.co/3x8VCwGI2x pic.twitter.com/Q9TNDg1paj

Meta AI 在一月份發布了data2vec 演算法，用於語音、圖像和文字相關的電腦視覺模型。根據AI團隊，該模型在NLP任務中具有很強的競爭力。

它不使用對比學習或依賴輸入範例的重建。 Meta AI團隊表示，data2vec的訓練方式是透過提供輸入資料的部分視圖來進行預測模型表示。

該團隊表示：「我們首先在學生模型中對掩碼的訓練樣本編碼。之後，在相同模型中，對未掩碼的輸入樣本編碼，從而建立訓練目標。這個模型（教師模型）和學生模型只有參數上的不同。」

2022 Top10自監督學習模型發布！美中兩國八項成果霸榜

該模型根據遮罩的訓練樣本，預測未遮罩訓練樣本的模型表示形式。這消除了學習任務中對特定於模態的目標的依賴。

ConvNext

2022 Top10自監督學習模型發布！美中兩國八項成果霸榜

#論文連結：https://arxiv.org/pdf/2201.03545.pdf

開源程式碼：https://t.co/nWx2KFtl7X

ConvNext也叫ConvNet model for the 2020s，是Meta AI團隊於三月發布的一款模型。它完全基於 ConvNet的模組，因此準確、設計簡單且可擴展。

2022 Top10自監督學習模型發布！美中兩國八項成果霸榜

VICReg

2022 Top10自監督學習模型發布！美中兩國八項成果霸榜

論文連結：https:// t.co/H7crDPHCHV

開源程式碼：https://t.co/oadSBT61P3

方差不變性協方差正則化（VICReg）結合了方差項和基於冗餘約簡的去相關機制以及協方差正則化，以避免編碼器產生恆定或非資訊向量的崩潰。

2022 Top10自監督學習模型發布！美中兩國八項成果霸榜

VICReg不需要諸如分支之間的權重共享、批量標準化、特徵標準化、輸出量化、停止梯度、memory banks等技術，並在幾個下游任務上達到的結果與最先進水準相當。此外，透過實驗可證明，方差正則化項可以穩定其他方法的訓練，並促進表現的提升。

STEGO

2022 Top10自監督學習模型發布！美中兩國八項成果霸榜

#論文連結：https://arxiv.org/abs/2203.08414

麻省理工學院的電腦科學與人工智慧實驗室與微軟和康乃爾大學合作開發了基於能量的圖形優化的自我監督轉換器（STEGO），解決電腦視覺中最困難的任務之一：在沒有人工監督的情況下為影像的每一個像素分配標籤。

2022 Top10自監督學習模型發布！美中兩國八項成果霸榜

STEGO學習了「語意分割」－簡單來說，就是為影像中的每個像素分配標籤。

語意分割是當今電腦視覺系統的重要技能，因為影像可能會受到物件物體的干擾。更難的是，這些物件並不總是適合文字框。相較於植被、天空和馬鈴薯泥這樣難以量化的東西，演算法往往更適用於離散的「事物」，例如人和汽車。

以狗在公園玩耍的場景為例，以前的系統可能只能識別出狗，但是透過為圖像的每個像素分配一個標籤，STEGO可以將圖像分解為若干主要成分：狗、天空、草和它的主人。

2022 Top10自監督學習模型發布！美中兩國八項成果霸榜

可以「觀察世界」的機器對於自動駕駛汽車和醫療診斷預測模型等各種新興技術至關重要。由於STEGO可以在沒有標籤的情況下學習，它可以檢測不同領域的對象，甚至是人類尚未完全理解的對象。

CoBERT

2022 Top10自監督學習模型發布！美中兩國八項成果霸榜

#論文連結：https://arxiv.org/pdf/2210.04062.pdf

對於自我監督語音表示學習，香港中文大學（深圳）的研究人員提出了Code BERT（CoBERT）。與其他自蒸餾方法不同，他們的模型預測來自不同模態的表徵。該模型將語音轉換為一系列離散代碼，用於表示學習。

2022 Top10自監督學習模型發布！美中兩國八項成果霸榜

首先，研究團隊使用HuBERT預訓練程式碼模型在離散空間中進行訓練。然後，他們將程式碼模型提煉成語音模型，旨在跨模態執行更好的學習。 ST任務的顯著改進表明，與先前的工作相比，CoBERT的表示可能攜帶更多的語言訊息。

CoBERT在ASR任務上的表現優於目前最佳演算法的效能，並在SUPERB 語音翻譯（ST）任務中帶來重大改進。

FedX

2022 Top10自監督學習模型發布！美中兩國八項成果霸榜

#論文連結：https://arxiv.org/abs/2207.09158

FedX是微軟和清華大學、韓國科學技術院合作推出的無監督聯邦學習框架。透過局部和全局知識提煉和對比學習，該演算法從離散和異質的本地數據中無偏表示學習。此外，它是一種適應性強的演算法，可用作聯合學習情境中各種現有自監督演算法的附加模組。

TriBYOL

2022 Top10自監督學習模型發布！美中兩國八項成果霸榜

#論文連結：https://arxiv.org/pdf/2206.03012.pdf

日本北海道大學提出了TriBYOL，用於小批量的自監督表示學習。在模型下，研究人員不需要大批量的計算資源來學習良好的表示。此模型為三元組網路結構，結合了三視圖損失，從而在多個資料集上提高了效率並優於幾種自監督演算法。

2022 Top10自監督學習模型發布！美中兩國八項成果霸榜

ColloSSL

2022 Top10自監督學習模型發布！美中兩國八項成果霸榜

論文連結：https://arxiv.org/pdf/ 2202.00758.pdf

諾基亞貝爾實驗室的研究人員與喬治亞理工學院和劍橋大學合作開發了ColloSSL，這是一種用於人類活動識別的協作自我監督演算法。

2022 Top10自監督學習模型發布！美中兩國八項成果霸榜

多個裝置同時擷取的未標記感測器資料集可以被視為彼此的自然轉換，然後產生用於表示學習的訊號。本文提出了三種方法—設備選擇、對比採樣和多視圖對比損失。

LoRot

2022 Top10自監督學習模型發布！美中兩國八項成果霸榜

论文链接：https://arxiv.org/pdf/2207.10023.pdf

成均馆大学研究团队提出了一个简易的自监督辅助任务，该任务预测具有三个属性的可定位旋转（LoRot）以辅助监督目标。

2022 Top10自監督學習模型發布！美中兩國八項成果霸榜

该模型具有三大特点。第一，研究团队引导模型学习丰富的特征。第二，分布式培训在自监督转变的同时不会发生明显变化。第三，该模型轻量通用，对以前的技术具有很高的适配性。

2022 Top10自監督學習模型發布！美中兩國八項成果霸榜

TS2Vec

2022 Top10自監督學習模型發布！美中兩國八項成果霸榜

论文链接：https://arxiv.org/pdf/2106.10466.pdf

微软和北京大学提出了一个通用学习框架TS2Vec，用于在任意语义级别中时间序列的表示学习。该模型在增强的上下文视图中以分层技术执行对比学习，从而为各个时间戳提供强大的上下文表示。

2022 Top10自監督學習模型發布！美中兩國八項成果霸榜

结果显示，与最先进的无监督时间序列表示学习相比，TS2Vec模型在性能上有显著改进。

2022年，自监督学习和强化学习这两个领域都有巨大的创新。虽然研究人员一直在争论哪个更重要，但就像自监督学习大佬Yann LeCun说的那样：「强化学习就像蛋糕上的樱桃，监督学习是蛋糕上的糖衣，而自监督学习就是蛋糕本身。」

参考资料：

https://analyticsindiamag.com/top-10-self-supervised-learning-models-in-2022/

以上是2022 Top10自監督學習模型發布！美中兩國八項成果霸榜的詳細內容。更多資訊請關注PHP中文網其他相關文章！