【論文解讀】基於圖的自監督學習聯合嵌入預測架構-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

【論文解讀】基於圖的自監督學習聯合嵌入預測架構

PHPz

Oct 10, 2023 pm 01:41 PM

人工智慧影像論文理論圖像自監式學習方法

一、簡單介紹

【論文解讀】基於圖的自監督學習聯合嵌入預測架構本文示範了一種學習高度語意的圖像表示的方法，而不依賴於手工製作的資料增強。論文介紹了基於影像的聯合嵌入預測架構（I-JEPA），這是一種用於從影像中進行自監督學習的非生成性方法。 I-JEPA背後的idea很簡單：從單一上下文區塊中，預測同一影像中不同目標區塊的表示。指導I-JEPA產生語義表示的核心設計選擇是掩膜策略；具體來說，(a)預測圖像中的幾個目標塊，(b)採樣足夠大規模的樣本目標塊（佔圖像的15%- 20%），(c)使用足夠豐富的（空間分佈）上下文區塊，是至關重要的。根據經驗，當與視覺transformer結合時，論文發現I-JEPA具有高度的可縮放性。例如，論文在ImageNet上使用32個A100 GPU在38小時內訓練一個ViT-Huge/16，以在需要不同抽象級別的廣泛任務中實現強大的下游性能，從線性分類到對象計數和深度預測。

二、研究背景

在電腦視覺中，有兩種常見的圖像自監督學習方法。

基於不變性的方法和產生方法。透過基於不變性的預訓練方法優化編碼器，可以為相同影像的兩個或多個視圖產生相似的嵌入。通常，圖像視圖會使用一組手工製作的資料增強方法來構建，例如隨機縮放、裁剪、顏色抖動等。這些預訓練方法可以產生高語義等級的表示，但同時也會引入強烈的偏差，可能對某些下游任務甚至不同資料分佈的預訓練任務產生負面影響

認知學習理論認為，生物系統中表徵學習背後的一個驅動機制是如何適應一個內在模型來預測感官輸入反應。這個想法是自我監督生成方法的核心，它刪除或損壞部分輸入，並學習預測損壞的內容。特別是，掩膜去噪方法透過從輸入的像素或令牌層級重建隨機掩膜補丁來學習表示。與視圖不變性方法相比，掩膜的預訓練任務需要更少的先驗知識，並且很容易推廣到圖像模態之外。然而，所得到的表示通常具有較低的語義級別，並且在現成的評估（如線性探測）和對語義分類任務監督有限的轉移設定中缺乏基於不變性的預訓練。因此，需要一個更複雜的適應機制（例如，端到端微調）來獲得這些方法的充分優勢。

在這項工作中，論文探索如何提高自我監督表示的語義水平，而不使用額外的先驗知識編碼的圖像轉換。為此，論文引入了一種圖像聯合嵌入預測架構（I-JEPA）。圖3提供了該方法的一個說明。 I-JEPA背後的構思是預測抽象表示空間中的缺失資訊；例如，給定一個上下文區塊，預測同一影像中不同目標區塊的表示，其中目標表示是由學習到的目標編碼器網路計算的。

與在像素/標記空間中進行預測的生成方法相比，I-JEPA利用抽象的預測目標，可能消除不必要的像素級細節，從而導致模型學習更多的語義特徵。另一個指導I-JEPA產生語義表示的核心設計選擇是所提出的多塊掩膜策略。具體來說，論文演示了使用一個資訊豐富的（空間分佈的）上下文塊來預測圖像中的幾個目標塊（具有足夠大的規模）的重要性。重寫後的內容：相較於在像素/標記空間中進行預測的生成方法，I-JEPA利用抽象的預測目標，可能消除不必要的像素級細節，從而使模型能夠學習更多的語義特徵。 I-JEPA的另一個核心設計選擇是採用多塊掩膜策略來產生語義表示。具體而言，該論文展示了使用資訊豐富的（空間分佈的）上下文塊來預測圖像中幾個目標塊（具有足夠大的規模）的重要性

根據大量的實證評估，研究顯示：

I-JEPA學習了強大的現成的語意表示，而不使用手工製作的視圖增強(圖1)。 I-JEPA優於像素重建方法，例如在ImageNet-1K線性探測上的MAE、半監督的1% ImageNet-1K和語義傳輸任務。

【論文解讀】基於圖的自監督學習聯合嵌入預測架構 I-JEPA在語意任務上與視圖不變預訓練方法具有競爭力，並且在物件計數和深度預測等低階視覺任務上取得了更好的性能。透過使用一個更簡單的模型和更少的剛性歸納偏差，I-JEPA是適用於更廣泛的任務集。

I-JEPA也是可縮放的和高效的。在ImageNet上對ViT-H/14進行預訓練大約需要2400 GPU小時，比使用iBOT 預訓練的ViTB/16快50%，比使用MAE預訓練的ViT-L/16的效率快140%。在表示空間中的預測顯著減少了自我監督預訓練所需的總計算量。

自我監督學習是一種表徵學習的方法，其中一個系統學習捕捉其輸入之間的關係。這個目標可以很容易地使用基於能量的模型（EBMs）的框架來描述，其中自我監督的目標是為不相容的輸入分配高能，並為相容的輸入分配低能量。許多現有的生成式和非生成式的自我監督學習方法確實可以在這個框架中進行轉換；見圖2

#重寫後的內容：聯合嵌入式架構（Joint-Embedding Architectures）是一種基於不變性的預訓練方法，在EBM框架中使用可以進行強制轉換，見圖2a。聯合嵌入架構的學習目標是使相容的輸入x和y輸出相似的嵌入，而不相容的輸入則輸出不同的嵌入。在基於影像的預訓練中，通常會透過對相同的輸入影像隨機應用手工製作的資料增強來建立相容的x和y對

JEA的主要挑戰是表示坍縮，其中能量景觀是平坦的（即，編碼器產生一個恆定的輸出，而不管輸入如何）。在過去的幾年裡，已經研究了幾種方法來防止表示坍縮，例如明確推動負例子嵌入的對比損失，最小化嵌入的信息冗餘的非對比損失，以及基於聚類的方法來最大化平均嵌入的熵。也有一些啟發式的方法，利用x編碼器和y編碼器之間的非對稱架構設計來避免坍縮的。生成式架構（Generative Architectures）。基於重構的自監督學習方法也可以在使用生成式架構的EBM框架中進行強制轉換；見圖2b

生成式架構學習從一個相容的訊號x直接重建訊號y，使用一個附加的（可能是潛在的）變數z的解碼器網絡，以促進重建。在基於影像的預訓練中，電腦視覺中常見的方法是使用遮罩產生相容的x，y對，其中x是影像y的副本，但有一些補丁被遮罩。然後，條件反射變數z對應於一組（可能是可學習的）遮罩和位置標記，它指定了要重建的影像補丁的解碼器。只要z的資訊容量比訊號y低，這些體系結構就不會關注表示坍縮。

聯合嵌入式預測性架構（Joint-Embedding Predictive Architectures）。如圖2c所示，聯合嵌入預測架構在概念上類似於生成式架構；然而，一個關鍵的差異是，損失函數應用於嵌入空間，而不是輸入空間。 JEPA學習從相容的訊號x預測訊號y的嵌入，使用一個附加（可能是潛在）變數z的預測網路以促進預測。論文提出的I-JEPA在使用掩膜的圖像上下文中提供了該架構的實例化；參見圖3。與聯合嵌入架構相比，JEPA並不尋求對一組手工製作的資料增強不變的表示，而是尋求在附加資訊z條件時相互預測的表示。然而，與聯合嵌入架構一樣，表示坍縮也是JEPA關注的議題。論文利用x和y編碼器之間的非對稱架構，以避免I-JEPA中的表示坍縮。

【論文解讀】基於圖的自監督學習聯合嵌入預測架構

三、方法介紹

論文現在描述了所提出的基於圖像的聯合嵌入預測體系結構（I-JEPA），如圖3所示。總體目標如下：給定一個上下文區塊，預測同一影像中不同目標區塊的表示。論文使用視覺Transformer（ViT）架構作為上下文編碼器、目標編碼器和預測器。一個ViT由一堆Transformer層組成，每個Transformer層由一個自註意的操作和一個全連接的MLP組成。論文的編碼器/預測器架構讓人想起生成掩膜自動編碼器（MAE）方法。然而，一個關鍵的區別是，I-JEPA方法是非生成性的，並且預測是在表示空間中做出的。

【論文解讀】基於圖的自監督學習聯合嵌入預測架構

#圖片分類

为了证明I-JEPA在不依赖于手工制作的数据增强的情况下学习高级表示，论文报告了使用线性探测和部分微调协议的各种图像分类任务的结果。在本节中，论文将考虑在ImageNet-1K数据集上预先训练过的自监督模型。预训练和评估实施细节见附录a。所有的I-JEPA模型都在分辨率224×224中进行训练，除非另有明确说明。

ImageNet-1K.表1显示了在通用的ImageNet-1K线性评估基准上的性能。经过自监督预训练后，冻结模型权值，并使用完整的ImageNet-1K训练集在顶部训练一个线性分类器。与流行的掩膜自动编码器（MAE）和data2vec 方法相比，它们在训练前也不依赖大量手工制作的数据增强，论文看到I-JEPA显著提高了线性探测性能，同时使用了更少的计算量。此外，I-JEPA还受益于规模。在分辨率为448时训练的ViT-H/16与视图不变方法的性能相匹配，如iBOT，而不需要额外的手工数据扩充。

【論文解讀】基於圖的自監督學習聯合嵌入預測架構

低样本量的ImageNet-1K。表2展示了在1%的ImageNet基准测试上的性能。这些方法是利用预训练好的模型进行ImageNet分类，只使用1%的ImageNet标签，每个类别大约有12或13张图像。模型通过微调或线性探测进行调整，具体取决于每种方法的最佳效果。当使用相似的编码器架构时，I-JEPA表现优于MAE，并且需要更少的预训练时期。使用ViTH/14架构的I-JEPA与使用数据2vec预训练的ViT-L/16的性能相当，但计算量明显更少。通过提高图像输入分辨率，I-JEPA在比以前的方法更好，包括联合嵌入方法以及在训练前利用额外的手工数据增强方法，如MSN、DINO和iBOT

Transfer learning.表3显示了使用线性探头的各种下游图像分类任务的性能。I-JEPA显著优于以前不使用增强的方法（MAE和数据2vec），并减少了在训练前利用手工制作的基于观点不变的最佳方法的差距，甚至超过了CIFAR100和Place205上流行的DINO。
【論文解讀】基於圖的自監督學習聯合嵌入預測架構

五、本地预测任务（Local Prediction Tasks）

I-JEPA学习语义图像表示，显著提高了以往方法的下游图像分类性能，如MAE和data2vec。此外，I-JEPA受益于规模，并可以缩小差距，甚至超越，利用额外的手工制作的数据增强的基于视图不变性的方法。在本节中，论文发现I-JEPA也能学习局部图像特征，并在低水平和密集的预测任务中，如对象计数和深度预测中，超越了基于视图不变性的方法。

表4显示了使用线性探测的各种低级任务的性能。特别是，经过预训练后，模型的权值被冻结，并在顶部训练一个线性模型，对Clevr数据集进行对象计数和深度预测。与DINO和iBOT等视图不变性方法相比，I-JEPA方法在训练前有效地捕获了低级图像特征，并在对象计数（Clevr/Count）和（大幅度）深度预测（Clevr/Dist）方面优于它们。【論文解讀】基於圖的自監督學習聯合嵌入預測架構六、可缩放性（Scalability）

重写后的内容如下：根据以前的方法进行比较，I-JEPA在模型效率方面具有高度的可扩展性。图5展示了对1%的ImageNet-1K进行GPU小时评估的半监督结果。相较于以前的方法，I-JEPA所需的计算量更少，并且在没有依赖手工数据增强的情况下获得了强大的性能。与基于重建的方法（如直接使用像素作为目标的MAE等）相比，I-JEPA通过在表示空间中计算目标而引入了额外的开销（每次迭代的时间大约慢7%）

【論文解讀】基於圖的自監督學習聯合嵌入預測架構缩放数据大小（Scaling data size）。论文还发现I-JEPA受益于更大数据集的预训练。表5显示了在增加训练前数据集的大小（IN1KvsIN22K）时，在语义任务和低水平任务上的迁移学习性能。当对更大更多样化的数据集进行预训练时，这些概念不同的任务上的迁移学习性能会提高。缩放模型大小（Scaling model size）。表5还显示，在IN22K上进行预训练时，I-JEPA受益于更大的模型规模。与ViT-H/14模型相比，对ViT-G/16的预训练显著提高了对Place205和INat18等图像分类任务的下游性能。ViTG/16模型并不能提高对低级下游任务的性能。ViT-G/16使用更大的输入补丁大小，这可能对本地预测任务有害。

【論文解讀】基於圖的自監督學習聯合嵌入預測架構

七、預測視覺化（Predictor Visualizations）可以進行重寫

I-JEPA中預測器的作用是取上下文編碼器的輸出，並以位置掩膜令牌為條件，預測掩膜令牌指定的位置上目標塊的表示。一個問題是，以位置掩模令牌條件的預測器是否正在學習正確捕獲目標中的位置不確定性。為了定性地研究這個問題，論文將預測器的輸出視覺化。在預訓練後，論文凍結了上下文編碼器和預測器的權值，並按照RCDM框架訓練一個解碼器，將預測器輸出的平均池映射回像素空間。圖6顯示了各種隨機種子的解碼器輸出。在樣本之間常見的特性表示包含在平均合併預測器表示中的資訊。 I-JEPA預測器能正確地捕捉到位置的不確定性，並產生具有正確姿態的高級物體部件（例如，鳥的背部和汽車的頂部）。不同樣本中不同的品質表示表示法中不包含的資訊。在這種情況下，I-JEPA預測器丟棄了精確的低階細節和背景資訊。

【論文解讀】基於圖的自監督學習聯合嵌入預測架構

八、消融（Ablations）的重要性

在表示空間中的預測（ Predicting in representation space.）。表7比較了在像素空間和表示空間中計算1% ImageNet-1K時的low-shot效能。論文推測，I-JEPA的一個關鍵組成部分是，損失完全在表示空間中計算，從而使目標編碼器能夠產生抽象的預測目標，從而消除了無關的像素級細節。從表7中可以清楚看出，在像素空間中的預測會導致線性探測性能的顯著下降。

【論文解讀】基於圖的自監督學習聯合嵌入預測架構

重寫後的內容：遮罩策略（Masking strategy）在表8中進行了修改。本研究減少了在I-JEPA預訓練過程中所提出的多重遮罩策略中的目標區塊數量，並調整了情境和目標區塊的規模，如圖4所示。我們使用了各種不同多塊設定的I-JEPA進行了300個週期的訓練，並使用線性探針在1%的ImageNet-1K基準測試上進行了效能比較。總結來說，我們發現預測幾個相對較大的（語意）目標區塊，並結合資訊豐富的（空間分佈的）上下文區塊是非常重要的

【論文解讀】基於圖的自監督學習聯合嵌入預測架構

表6與其他掩膜策略進行比較時，也進行了類似的消融。論文與rasterized掩膜策略進行了比較，其中圖像被分割成四個大象限，其目標是使用一個象限作為上下文來預測其他三個像限。論文還比較了通常用於基於重建的方法的傳統的block和random掩膜策略。在block掩膜中，目標是單一影像區塊，上下文是影像補體。在random掩膜中，目標是一組隨機的（可能是不連續的）影像補丁，而上下文是影像的補體。請注意，在所有考慮的遮罩策略中，上下文區塊和目標區塊之間沒有重疊。所提出的multi-block掩膜策略是I-JEPA學習語意表示的關鍵。即使切換到傳統的block遮罩，ImageNet的效能也會降低超過24%。

【論文解讀】基於圖的自監督學習聯合嵌入預測架構

九、結論論文

提出了一種名為I-JEPA的方法，用於學習語義圖像表示。此方法不依賴手工製作的數據增強。研究表明，透過在表示空間中進行預測，I-JEPA比像素重建方法收斂速度更快，並且能夠學習到高語義水平的表示。與基於視圖不變性的方法相比，I-JEPA強調了使用聯合嵌入架構學習一般表示的路徑，而不依賴於手工製作的視圖增強

附錄見原文，原文鏈接：https:/ /arxiv.org/abs/2301.08243

以上是【論文解讀】基於圖的自監督學習聯合嵌入預測架構的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1665

CakePHP 教程

1424

Laravel 教程

1322

PHP教程

1270

C# 教程

1249

Related knowledge

位元組跳動剪映推出 SVIP 超級會員：連續包年 499 元，提供多種 AI 功能 Jun 28, 2024 am 03:51 AM

本站6月27日訊息，剪映是由位元組跳動旗下臉萌科技開發的一款影片剪輯軟體，依託於抖音平台且基本面向該平台用戶製作短影片內容，並相容於iOS、安卓、Windows 、MacOS等作業系統。剪映官方宣布會員體系升級，推出全新SVIP，包含多種AI黑科技，例如智慧翻譯、智慧劃重點、智慧包裝、數位人合成等。價格方面，剪映SVIP月費79元，年費599元（本站註：折合每月49.9元），連續包月則為59元每月，連續包年為499元每年（折合每月41.6元）。此外，剪映官方也表示，為提升用戶體驗，向已訂閱了原版VIP

$突破傳統缺陷檢測的界限，\'Defect Spectrum\'首次實現超高精度豐富語意的工業缺陷檢測。$ 突破傳統缺陷檢測的界限，\'Defect Spectrum\'首次實現超高精度豐富語意的工業缺陷檢測。 Jul 26, 2024 pm 05:38 PM

在現代製造業中，精準的缺陷檢測不僅是確保產品品質的關鍵，更是提升生產效率的核心。然而，現有的缺陷檢測資料集常常缺乏實際應用所需的精確度和語意豐富性，導致模型無法辨識特定的缺陷類別或位置。為了解決這個難題，由香港科技大學廣州和思謀科技組成的頂尖研究團隊，創新地開發了「DefectSpectrum」資料集，為工業缺陷提供了詳盡、語義豐富的大規模標註。如表一所示，相較於其他工業資料集，「DefectSpectrum」資料集提供了最多的缺陷標註（5438張缺陷樣本），最細緻的缺陷分類（125個缺陷類別

數百萬晶體資料訓練，解決晶體學相位問題，深度學習方法PhAI登Science Aug 08, 2024 pm 09:22 PM

編輯|KX時至今日，晶體學所測定的結構細節和精度，從簡單的金屬到大型膜蛋白，是任何其他方法都無法比擬的。然而，最大的挑戰——所謂的相位問題，仍然是從實驗確定的振幅中檢索相位資訊。丹麥哥本哈根大學研究人員，開發了一種解決晶體相問題的深度學習方法PhAI，利用數百萬人工晶體結構及其相應的合成衍射數據訓練的深度學習神經網絡，可以產生準確的電子密度圖。研究表明，這種基於深度學習的從頭算結構解決方案方法，可以以僅2埃的分辨率解決相位問題，該分辨率僅相當於原子分辨率可用數據的10%到20%，而傳統的從頭算方

英偉達對話模式ChatQA進化到2.0版本，上下文長度提到128K Jul 26, 2024 am 08:40 AM

開放LLM社群正是百花齊放、競相爭鳴的時代，你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等許多表現優良的模型。但是，相較於以GPT-4-Turbo為代表的專有大模型，開放模型在許多領域仍有明顯差距。在通用模型之外，也有一些專精關鍵領域的開放模型已被開發出來，例如用於程式設計和數學的DeepSeek-Coder-V2、用於視覺-語言任務的InternVL

GoogleAI拿下IMO奧數銀牌，數學推理模型AlphaProof面世，強化學習 is so back Jul 26, 2024 pm 02:40 PM

對AI來說，奧數不再是問題了。本週四，GoogleDeepMind的人工智慧完成了一項壯舉：用AI做出了今年國際數學奧林匹克競賽IMO的真題，並且距拿金牌僅一步之遙。上週剛結束的IMO競賽共有六道賽題，涉及代數、組合學、幾何和數論。谷歌提出的混合AI系統做對了四道，獲得28分，達到了銀牌水準。本月初，UCLA終身教授陶哲軒剛剛宣傳了百萬美元獎金的AI數學奧林匹克競賽（AIMO進步獎），沒想到7月還沒過，AI的做題水平就進步到了這種水平。 IMO上同步做題，做對了最難題IMO是歷史最悠久、規模最大、最負

PRO | 為什麼基於 MoE 的大模型更值得關注？ Aug 07, 2024 pm 07:08 PM

2023年，幾乎AI的每個領域都在以前所未有的速度進化，同時，AI也不斷地推動著具身智慧、自動駕駛等關鍵賽道的技術邊界。在多模態趨勢下，Transformer作為AI大模型主流架構的局面是否會撼動？為何探索基於MoE（專家混合）架構的大模型成為業界新趨勢？大型視覺模型（LVM）能否成為通用視覺的新突破？ ……我們從過去的半年發布的2023年本站PRO會員通訊中，挑選了10份針對以上領域技術趨勢、產業變革進行深入剖析的專題解讀，助您在新的一年裡為大展宏圖做好準備。本篇解讀來自2023年Week50

為大模型提供全新科學複雜問答基準與評估體系，UNSW、阿貢、芝加哥大學等多家機構共同推出SciQAG框架 Jul 25, 2024 am 06:42 AM

編輯|ScienceAI問答（QA）資料集在推動自然語言處理（NLP）研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型，也可以有效評估大語言模型（LLM）的能力，尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集，涵蓋了醫學、化學、生物等領域，但這些數據集仍有一些不足之處。其一，資料形式較為單一，大多數為多項選擇題（multiple-choicequestions），它們易於進行評估，但限制了模型的答案選擇範圍，無法充分測試模型的科學問題解答能力。相比之下，開放式問答

準確率達60.8%，浙大基於Transformer的化學逆合成預測模型，登Nature子刊 Aug 06, 2024 pm 07:34 PM

編輯|KX逆合成是藥物發現和有機合成中的關鍵任務，AI越來越多地用於加快這一過程。現有AI方法性能不盡人意，多樣性有限。在實踐中，化學反應通常會引起局部分子變化，反應物和產物之間存在很大重疊。受此啟發，浙江大學侯廷軍團隊提出將單步逆合成預測重新定義為分子串編輯任務，迭代細化目標分子串以產生前驅化合物。並提出了基於編輯的逆合成模型EditRetro，該模型可以實現高品質和多樣化的預測。大量實驗表明，模型在標準基準資料集USPTO-50 K上取得了出色的性能，top-1準確率達到60.8%。

See all articles

【論文解讀】基於圖的自監督學習聯合嵌入預測架構

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題