多模態再次統一! Meta發布自監督演算法data2vec 2.0:訓練效率最高提升16倍!
近几年人工智能领域的突破大多由自监督学习推动,比如BERT中提出的MLM (Masked Language Model) ,通过将文本中的部分单词遮盖后重新预测,使得海量无标记文本数据也能用来训练模型,自此开启了大规模预训练模型的新时代。但自监督学习算法也有明显的局限性,通常只适用于单一模态(如图像、文本、语音等)的数据,并且需要大量的算力从海量数据中进行学习。相比之下,人类的学习效率要显著高于当前的AI模型,并且可以从不同类型的数据中进行学习。
2022年1月,Meta AI发布了自监督学习框架data2vec,将三个模态的数据(语音、视觉和文本)通过一个框架整合起来,大有一统多模态的趋势。最近Meta AI发布了data2cec 2.0版本,主要在性能方面对上一代进行了改进:在精度相同的情况下,训练速度相比其他算法最高提升了16倍!
论文链接:https://ai.facebook.com/research/publications/efficient-self-supervised-learning-with-contextualized-target-representations-for-vision-speech-and-language
代码链接:https://github.com/facebookresearch/fairseq/tree/main/examples/data2vec
data2vec 1.0
目前来说,大部分机器学习模型仍然是基于有监督学习的模式,需要有专门的标注人员对目标数据打标签,但对于某些任务来说(比如地球上的几千种人类语言),收集标注数据是不可行的。
相比之下,自监督学习不需要告诉模型正确和错误,而是让机器通过观察世界来学习图像、语音和文本的结构。相关的研究成果促进了语音(如,wave2vec 2.0)、计算机视觉(例如,掩码自编码器)和自然语言处理(例如,BERT)等领域的发展。
data2vec的主要思路就是先建立一个教师网络,首先计算来自图像、文本或语音的目标表征。然后对数据进行掩码遮盖掉部分输入,并用一个学生网络重复该过程预测教师模型得到的表征。
也就是說,學生模型只能在接受「不完整輸入資訊」的同時預測「完整輸入資料」的表示。為了確保兩個模型的一致性,二者的參數時共享的,但在訓練初期會讓Teacher模型的參數更新更快。 在實驗結果上,data2vec在語音、視覺、文字等任務上比較baseline模型表現提昇明顯。
data2vec 2.0
data2vec提出了一個通用的自監督學習框架統一了語音、視覺和語言三個模態資料的學習,而data2vec2.0主要解決的痛點就是建構自監督模型需要大量的GPU做算力支撐才能完成訓練。與最初的 data2vec 演算法類似,data2vec 2.0預測資料的上下文化的表徵(contextualized representations),或是神經網路的層次,而非預測圖像的像素、文本段中的單字或語音。
與常見的其他演算法不同,這些所謂的目標表徵是上下文化的,這意味著演算法需要將整個訓練範例考慮在內。
比如說,模型學習單字bank 的表徵是基於包含bank的整個句子,從而更容易推導出單字的正確意義,例如區分具體指涉「金融機構」還是「河邊的土地」。研究人員認為上下文化的目標會促進更豐富的學習任務,並使 data2vec 2.0比其他演算法學習得更快。
data2vec 2.0透過以下三種方式提高了原始data2vec 演算法的效率:
1、為特定訓練範例建立目標表徵,並將此表徵重複使用在遮罩版本上。在遮罩版本中,訓練範例中的不同部分會被隨機隱藏。隨後兩個版本學到的表徵都會輸入到學生模型中,為不同的掩碼版本預測相同的上下文化的目標表徵,從而有效地分攤了創建目標表徵所需的計算量。
2、類似掩碼自編碼器(masked autoencoder, MAE),學生模型中的編碼器網路並不起作用訓練範例中的空白部分(blanked out)。在影像實驗中,大約80%的部分都是空白,從而顯著節省了計算週期。
3、使用了一個更有效的解碼器模型,不再依賴Transformer網絡,而是依賴一個多層卷積網。
實驗部分
為了更直觀地理解data2vec 2.0 比data2vec 和其他同類演算法的效率要高多少,研究人員在電腦視覺、語音和文字任務相關的基準測試中進行了廣泛的實驗。實驗中主要考慮最終的精確度以及預訓練模型所需的時間,實驗環境都是在相同的硬體上(GPU 的型號、數量等)來測量演算法的運行速度。
在電腦視覺任務上,研究人員在標準ImageNet-1K 影像分類基準上評估了data2vec 2.0,模型透過該資料集可以學習圖像表徵。實驗結果顯示,data2vec 2.0可以等同於遮罩自編碼器(MAE)的準確性,但是速度要快16倍。
如果繼續給data2vec 2.0演算法更多的運行時間,它可以達到更高的精度,並且仍然會比MAE的速度快。
在語音任務上,研究人員在 LibriLanguage 語音辨識基準上進行了測試,它的準確性是 wave2vec 2.0的11倍以上。
對於自然語言處理任務,研究人員在通用語言理解評估(GLUE)基準上評估了data2vec 2.0,僅需一半的訓練時間即可達到與BERT 的重新實現RoBERTa 相同的精度。
以上是多模態再次統一! Meta發布自監督演算法data2vec 2.0:訓練效率最高提升16倍!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制,在加密货币市场中脱颖而出,吸引了众多投资者的目光。WLD凭借其创新技术,特别是结合OpenAI人工智能技术,在众多山寨币中表现突出。但未来几年,数字资产的走势如何呢?让我们一起预测WLD的未来价格。2025年WLD价格预测预计2025年WLD将实现显著增长。市场分析显示,WLD平均价格可能达到1.31美元,最高可能触及1.36美元。然而,在熊市情况下,价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

繪製比特幣結構分析圖的步驟包括:1. 確定繪圖目的與受眾,2. 選擇合適的工具,3. 設計框架並填充核心組件,4. 參考現有模板。完整的步驟確保圖表準確且易於理解。

虛擬幣價格上漲因素包括:1.市場需求增加,2.供應量減少,3.利好消息刺激,4.市場情緒樂觀,5.宏觀經濟環境;下降因素包括:1.市場需求減少,2.供應量增加,3.利空消息打擊,4.市場情緒悲觀,5.宏觀經濟環境。

支持跨鏈交易的交易所有:1. Binance,2. Uniswap,3. SushiSwap,4. Curve Finance,5. Thorchain,6. 1inch Exchange,7. DLN Trade,這些平台通過各種技術支持多鏈資產交易。

適合新手的加密貨幣數據平台有CoinMarketCap和非小號。 1. CoinMarketCap提供全球加密貨幣實時價格、市值、交易量排名,適合新手與基礎分析需求。 2. 非小號提供中文友好界面,適合中文用戶快速篩選低風險潛力項目。

在加密貨幣的繁華世界裡,新機遇總是不斷湧現。當下,KernelDAO (KERNEL) 空投活動正備受矚目,吸引著眾多投資者的目光。那麼,這個項目究竟是什麼來頭? BNB Holder 又能從中獲得怎樣的好處?別急,下面將為你一一揭曉。

Aavenomics是修改AAVE協議令牌並引入令牌回購的提議,已為AAVEDAO實現了一個法定人數。 AAVE連鎖計劃(ACI)創始人馬克·澤勒(MarcZeller)在X上宣布了這一點,並指出它標誌著該協議的新時代。 AAVE連鎖倡議(ACI)創始人MarcZeller在X上宣布,Aavenomics提案包括修改AAVE協議令牌和引入令牌回購,已為AAVEDAO實現了法定人數。根據Zeller的說法,這標誌著該協議的新時代。 AaveDao成員以壓倒性的投票支持該提議,即在周三以每週100

在波動劇烈的加密貨幣市場中,投資者正尋求超越熱門幣種的替代方案。 Solana(SOL)、Cardano(ADA)、XRP和Dogecoin(DOGE)等知名加密貨幣,儘管佔據著一定的市場地位,但也面臨著市場情緒、監管不確定性和可擴展性等挑戰。然而,一個新興項目RexasFinance(RXS)正在嶄露頭角。它並非依靠名人效應或炒作,而是專注於將現實世界資產(RWA)與區塊鏈技術結合,為投資者提供一種創新的投資方式。這一策略使其有望成為2025年最成功的項目之一。 RexasFi
