LeCun的評價:對ConvNet和Transformer進行Meta評測,哪一個比較強?
如何根據特定需求選擇視覺模型?
ConvNet/ViT、supervised/CLIP模型,在ImageNet以外的指標上如何相互比較?
來自MABZUAI和Meta的研究人員發表的最新研究,在「非標準」指標上全面比較了常見的視覺模型。
論文網址:https://arxiv.org/pdf/2311.09215.pdf
LeCun對這項研究給予高度讚揚,稱其為非常出色的研究。研究比較了相似大小的ConvNext和VIT架構,在監督模式和使用CLIP方法進行訓練時,對各種屬性進行了全面比較。
#超越ImageNet準確度
電腦視覺模型模式,變得越來越多元複雜。
從早期的ConvNets到Vision Transformers的演進,可用模型的種類不斷擴展。
類似地,訓練範式已經從ImageNet上的監督訓練,發展到自監督學習、像CLIP這樣的圖像文字對訓練。
在標誌著進步的同時,這種選擇的爆炸性增長給從業者帶來了重大挑戰:如何選擇適合自己的目標模型?
一直以來,ImageNet準確率一直是評估模型效能的主要指標。自從引發深度學習革命以來,它已經推動了人工智慧領域的顯著進步。
不過,但它無法衡量不同架構、訓練範式和資料而產生的細微差別的模型。
如果僅根據ImageNet的準確度來判斷,具有不同屬性的模型可能看起來很相似(圖 1)。隨著模型開始過度擬合ImageNet的特性,精度達到飽和,這種限制就會變得更加明顯。
為了彌補差距,研究人員對ImageNet準確性之外的模型行為進行了深入探索。
為了研究架構和訓練目標對模型表現的影響,具體比較了Vision Transformer (ViT)和ConvNeXt。這兩種現代架構的ImageNet-1K驗證精度和運算要求相當。
此外,研究比較了以DeiT3-Base/16和ConvNeXt-Base為代表的監督模型,以及OpenCLIP基於CLIP模型的視覺編碼器。
結果分析
#研究人員的分析旨在,研究無需進一步訓練或微調即可評估的模型行為。
這種方法對於計算資源有限的從業人員尤其重要,因為他們通常依賴預訓練模型。
具體分析中,雖然作者認識到物件偵測等下游任務的價值,但重點在於那些能以最小的運算需求提供洞察力的特性,以及反映對真實世界應用非常重要的行為的特性。
模型錯誤
#ImageNet-X是對ImageNet-1K進行了擴展的資料集,其中包含16個變化因素的詳細人工標註,從而能夠深入分析影像分類中的模型錯誤。
它採用錯誤率(越低越好)來量化模型在特定因素上,相對於整體準確性的表現,從而對模型錯誤進行細緻入微的分析。 ImageNet-X 的結果顯示:
1. 相對於其ImageNet準確性,CLIP模型比受監督的模型犯的錯誤更少。
2. 所有模型都主要受到遮蔽等複雜因素的影響。
3. 紋理是所有模型中最具挑戰性的因素。
#造型/紋理偏差
形狀/紋理偏差會檢驗模型,是否依賴紋理快捷方式,而不是高級形狀提示。
這種偏向可以透過結合不同類別的形狀和紋理的提示衝突圖像來研究。
這種方法有助於了解與紋理相比,模型的決策在多大程度上是基於形狀的。
研究人員對提示衝突資料集上的形狀-紋理偏差進行了評估,發現CLIP模型的紋理偏差小於監督模型,而ViT模型的形狀偏差高於ConvNets。
模型校準
#校準可量化模型的預測置信度與其實際準確度是否一致。
這可以透過預期校準誤差 (ECE) 等指標,以及可靠性圖和置信度直方圖等視覺化工具進行評估。
研究人員在ImageNet-1K和ImageNet-R上對校準進行了評估,將預測分為15個等級。在實驗中,觀察到以下幾點:
- CLIP模型置信度高,而監督模型則略顯不足。
- 監督的ConvNeXt比有監督的ViT校準得更好。
「健壯性與可移植性
##模型的健壯與可移植性,是適應資料分佈變化和新任務的關鍵。
研究人員使用不同的ImageNet變體評估了穩健性,發現雖然ViT和ConvNeXt模型具有類似的平均性能,但除了ImageNet-R和ImageNet-Sketch之外,監督模型在穩健性方面通常優於CLIP。
在可攜性方面,使用VTAB基準測試對19個資料集進行評估,監督ConvNeXt優於ViT,幾乎與CLIP模型的效能相當。
#合成資料
#像PUG-ImageNet這樣的合成資料集,可以精確控制相機角度和紋理等因素,成為一種很有前途的研究途徑,因此研究人員根據合成資料分析模型的性能。
PUG-ImageNet包含逼真的ImageNet影像,這些影像具有照明等因素的系統變化,效能以絕對最高準確率來衡量。
研究人員提供了PUG-ImageNet中不同因素的結果,發現ConvNeXt在幾乎所有因素上都優於ViT。
這表明ConvNeXt在合成資料上優於ViT,而CLIP模型的差距較小,因為CLIP模型的準確率低於監督模型,這可能與原始ImageNet的準確率較低有關。
特徵不變性
特徵不變性是指模型能夠產生一致的表徵,不受輸入轉換的影響,從而保留語義,如縮放或移動。
這個特性使模型能夠在不同但語意相似的輸入中很好地泛化。
Подход исследователей включает изменение размера изображений для достижения масштабной инвариантности, перемещение обрезки для достижения неизменности положения и настройку разрешения модели ViT с использованием интерполированных позиционных вложений.
В контролируемом обучении ConvNeXt превосходит ViT.
В целом модель более устойчива к преобразованиям масштаба/разрешения, чем к перемещениям. Результаты показывают, что для приложений, требующих высокой устойчивости к масштабированию, смещению и разрешению, контролируемый ConvNeXt может быть лучшим выбором.
Исследователи обнаружили, что каждая модель имеет свои уникальные преимущества.
Это говорит о том, что выбор модели должен зависеть от целевого варианта использования, поскольку стандартные показатели производительности могут не учитывать критически важные нюансы.
Кроме того, многие существующие тесты взяты из ImageNet, что искажает оценку. Разработка новых тестов с различным распределением данных имеет решающее значение для оценки моделей в более реалистичном репрезентативном контексте.
ConvNet vs Transformer
- Во многих тестах контролируемый ConvNeXt имеет лучшую производительность, чем контролируемый VIT. Лучшая производительность: он лучше калибруется, инвариантен к преобразованиям данных, демонстрирует лучшую переносимость и надежность.
- ConvNeXt превосходит ViT на синтетических данных.
- ViT имеет более высокий уклон формы.
Контролируемый или CLIP
- Хотя модель CLIP лучше с точки зрения возможности передачи, контролируемый ConvNeXt Продемонстрированная компетентность в эта задача. Это демонстрирует потенциал контролируемых моделей.
- Контролируемые модели лучше справляются с тестами надежности, вероятно, потому, что эти модели являются вариантами ImageNet.
- Модель CLIP имеет более высокую погрешность формы и меньше ошибок классификации по сравнению с точностью ImageNet.
以上是LeCun的評價:對ConvNet和Transformer進行Meta評測,哪一個比較強?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

交易所內置量化工具包括:1. Binance(幣安):提供Binance Futures量化模塊,低手續費,支持AI輔助交易。 2. OKX(歐易):支持多賬戶管理和智能訂單路由,提供機構級風控。獨立量化策略平台有:3. 3Commas:拖拽式策略生成器,適用於多平台對沖套利。 4. Quadency:專業級算法策略庫,支持自定義風險閾值。 5. Pionex:內置16 預設策略,低交易手續費。垂直領域工具包括:6. Cryptohopper:雲端量化平台,支持150 技術指標。 7. Bitsgap:

在C 中處理高DPI顯示可以通過以下步驟實現:1)理解DPI和縮放,使用操作系統API獲取DPI信息並調整圖形輸出;2)處理跨平台兼容性,使用如SDL或Qt的跨平台圖形庫;3)進行性能優化,通過緩存、硬件加速和動態調整細節級別來提升性能;4)解決常見問題,如模糊文本和界面元素過小,通過正確應用DPI縮放來解決。

C 在實時操作系統(RTOS)編程中表現出色,提供了高效的執行效率和精確的時間管理。 1)C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2)利用面向對象特性,C 可以設計靈活的任務調度系統。 3)C 支持高效的中斷處理,但需避免動態內存分配和異常處理以保證實時性。 4)模板編程和內聯函數有助於性能優化。 5)實際應用中,C 可用於實現高效的日誌系統。

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時,需指定位置以優化查詢性能和數據結構;刪除字段前需確認操作不可逆;使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

C 中使用字符串流的主要步驟和注意事項如下:1.創建輸出字符串流並轉換數據,如將整數轉換為字符串。 2.應用於復雜數據結構的序列化,如將vector轉換為字符串。 3.注意性能問題,避免在處理大量數據時頻繁使用字符串流,可考慮使用std::string的append方法。 4.注意內存管理,避免頻繁創建和銷毀字符串流對象,可以重用或使用std::stringstream。
