自監督為何有效? 243頁普林斯頓博士論文「理解自監督表徵學習」,全面闡述對比學習、語言模型和自我預測三類方法
預訓練已成為一種替代和有效的範式,以克服這些缺點,其中模型首先使用容易獲得的數據進行訓練,然後用於解決感興趣的下游任務,標記數據比監督學習少得多。
使用未標記資料進行預訓練,即自我監督學習,尤其具有革命性,在不同領域取得了成功:文字、視覺、語音等。
這就提出了一個有趣且具有挑戰性的問題:為什麼對未標記資料進行預訓練應該有助於看似不相關的下游任務?
#論文網址:https://dataspace.princeton.edu/ handle/88435/dsp01t435gh21h
#本文提出了一些工作,提出並建立了一個理論框架,以研究為什麼自監督學習對下游任務有益。
此框架適用於對比學習、自迴歸語言建模和基於自我預測的方法。該框架的核心思想是預訓練有助於學習資料的低維表示,這隨後有助於用線性分類器解決感興趣的下游任務,需要較少的標記資料。
一個常見的主題是形式化用於建立自監督學習任務的無標記資料分佈的理想屬性。在適當的形式化下,可以表明,近似最小化正確的預訓練目標可以提取在無標記資料分佈中隱式編碼的下游訊號。
最後表明,該訊號可以用線性分類器從學習到的表示中解碼,從而為跨任務的「技能和知識」遷移提供了一種形式化。
引言
#在尋求設計智能體和資料驅動的問題解決方案的在此過程中,機器學習和人工智慧領域在過去十年中取得了巨大的進步。 隨著在具有挑戰性的監督學習基準上的初步成功,如ImageNet[Deng等人,2009],深度學習的創新隨後導致模型在不同領域的許多此類基準上具有超人的性能。訓練這種特定任務的模型當然令人印象深刻,並且具有巨大的實用價值。然而,它有一個重要的限制,即需要大量的標記或標註資料集,而這通常是昂貴的。此外,從智慧的角度來看,人們希望有更通用的模型,就像人類一樣[Ahn和Brewer, 1993],可以從先前的經驗中學習,將它們總結為技能或概念,並利用這些技能或概念來解決新任務,很少或沒有演示。畢竟,在沒有明確監督的情況下,嬰兒透過觀察和互動來學習很多東西。這些限制啟發了預訓練的另一個範式。
本文的重點是使用通常大量可用的未標記資料進行預訓練。使用未標記資料的想法一直是機器學習的興趣點,特別是透過無監督學習和半監督學習。 使用深度學習對其進行的現代適應通常稱為自監督學習(SSL),並已經開始透過對比學習和語言建模等思想改變機器學習和人工智慧的格局。自監督學習的想法是僅使用未標記的資料來建立某些任務,並訓練模型在建構的任務上表現良好。這類任務通常需要模型透過從觀察到的或保留的部分預測輸入的未觀察到的或隱藏的部分(或屬性)來編碼資料的結構屬性[LeCun和Misra, 2021]。自監督學習在許多感興趣的下游任務上顯示出了通用性和實用性,通常比從頭解決任務具有更好的樣本效率,從而使我們離通用智能體的目標更近了一步。事實上,最近,像GPT-3 [Brown等人,2020]等大型語言模型已經展示了大規模出現的令人著迷的“突發行為”,引發了人們對自監督預訓練想法的更多興趣。
儘管自監督學習在經驗上取得了成功,並繼續顯示出巨大的前景,但除了粗略的直覺之外,仍然缺乏對其工作原理的良好理論理解。這些令人印象深刻的成功提出了有趣的問題,因為先驗不清楚為什麼在一個任務上訓練的模型應該有助於另一個看似不相關的任務,為什麼在任務a上訓練應該有助於任務b。雖然對SSL(和一般的深度學習)的完整理論理解是具有挑戰性和難以實現的,但在任何抽象層次上理解這種現像都可能有助於開發更有原則的演算法。本文的研究動機是:
為什麼在自監督學習任務上進行訓練(使用大量未標記資料)有助於解決資料稀缺的下游任務?如何將「知識和技能」的遷移正式化?
雖然有大量關於監督學習的文獻,但來自SSL任務→下游任務的泛化與監督學習中來自訓練集→測試集的泛化有本質的不同。對於分類下游任務的監督學習,例如,從未知分佈中採樣的在輸入-標籤對的訓練集上訓練的模型,可以直接用於從相同分佈中採樣的未見過的測試集的評估。這個基本的分佈建立了從訓練集到測試集的連結。然而,從SSL任務→下游任務的概念連接就不那麼清晰了,因為SSL任務中使用的未標記資料沒有關於下游標籤的明確訊號。這意味著在SSL任務上預先訓練的模型(例如,從其餘部分預測輸入的一部分)不能直接用於下游任務(例如,從輸入預測類別標籤)。因此,「知識和技能」的遷移需要使用一些標記資料進行額外的訓練步驟,理想情況下比從頭開始監督學習所需的少。對SSL任務→下游任務泛化的任何理論理解都需要解決這些問題:「未標記資料的內在作用是什麼?以及「如何將預訓練模型用於下游任務?」本文針對分類的下游任務,透過對無標籤資料進行分佈假設,並利用表示學習的思想,研究這些問題:
(a)(分佈假設)未標記的資料分佈隱含地包含有關感興趣的下游分類任務的資訊。
(b)(表示學習)在適當的SSL任務上預先訓練的模型可以透過學習到的表示對該訊號進行編碼,這些表示隨後可以用線性分類器解決下游分類任務。
點(a)表明,未標記的某些結構屬性隱式地為我們提供了有關後續下游任務的提示,而自監督學習可以幫助從數據中梳理出這個訊號。點(b)提出了一種簡單且經驗上有效的方法來使用預訓練模型,利用模型的學習表示。本文識別並在數學上量化了未標記資料的分佈屬性,對於不同的SSL方法,如對比學習、語言建模和自我預測,可以證明可以學習到良好的表示。在下一節中,我們將深入研究表示學習的思想,並形式化解釋為什麼自監督學習有助於下游任務。
以上是自監督為何有效? 243頁普林斯頓博士論文「理解自監督表徵學習」,全面闡述對比學習、語言模型和自我預測三類方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

寫在前面今天我們探討下深度學習技術如何改善在複雜環境中基於視覺的SLAM(同時定位與地圖建構)表現。透過將深度特徵提取和深度匹配方法相結合,這裡介紹了一種多功能的混合視覺SLAM系統,旨在提高在諸如低光條件、動態光照、弱紋理區域和嚴重抖動等挑戰性場景中的適應性。我們的系統支援多種模式,包括拓展單目、立體、單目-慣性以及立體-慣性配置。除此之外,也分析如何將視覺SLAM與深度學習方法結合,以啟發其他研究。透過在公共資料集和自採樣資料上的廣泛實驗,展示了SL-SLAM在定位精度和追蹤魯棒性方面優

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP
