BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight
如何在卷積神經網路上運行 BERT?
你可以直接用SparK —— 位元組跳動技術團隊提出的稀疏層次化掩碼建模(Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling),近期已被人工智慧頂會收錄為Spotlight 焦點論文:
論文連結:
# #https://www.php.cn/link/e38e37a99f7de1f45d169efcdb288dd1
##開源程式碼:
#https://www.php.cn/link/9dfcf16f0adbc5e2a55ef02db36bac7f
#這也是BERT 在卷積神經網路(CNN) 上的第一次成功 。先來感受一下 SparK 在預訓練中的表現。
輸入一張殘缺不全的圖片:
還原出一隻小狗:
。一張殘缺圖片:
#原來是貝果三明治:
#其他場景也可實現圖片復原:
BERT 與Transformer 的天作之合
#「任何偉大的行動和思想,都有一個微不足道的開始。」
##在BERT 預訓練演算法的背後,是簡潔而深刻的設計。 BERT 使用「完形填空」:將一句話中的若干字詞隨機刪除,並讓模型學會恢復。
BERT 非常依賴NLP 領域的核心模型— Transformer。
Transformer 由於生來就適合處理可變長度的序列資料(例如一個英文句子),所以能輕鬆應付BERT 完形填空的「隨機刪除」。
視覺領域的 CNN 也想享受 BERT:兩個挑戰何在?
#回顧電腦視覺發展史,卷積神經網路模型#凝練了平移等變性、多尺度結構等等眾多經典模式精華,可謂CV 界的中流砥柱。但與 Transformer 大相徑庭的是,CNN 天生無法適應經過完形填空「挖空」的、充滿「隨機孔洞」的數據,因此乍一看無法享受到 BERT 預訓練的紅利。
上圖a.展示的是MAE (Masked Autoencoders are Scalable Visual Learners) 這項工作,由於使用的是Transformer 模型而非CNN 模型,其可以靈活應對經過帶有空洞的輸入,乃與BERT “天作之合”。
而右圖b. 則展示了一種粗暴融合BERT 和CNN 模型的方式——即把全部空洞區域“塗黑”,並將這張「黑馬賽克」圖輸入到CNN 中,結果可想而知,會帶來嚴重的像素強度分佈偏移問題,並導致很差的性能(後文有驗證)。這就是阻礙 BERT 在 CNN 上成功應用的挑戰一。
此外,作者團隊也指出,源自NLP 領域的BERT 演算法,天然不具備「多尺度」的特點,而多尺度的金字塔結構在電腦視覺的悠久歷史中可謂「黃金標準」。單尺度的 BERT,和天然多尺度的 CNN 之間的衝突,則是#挑戰二##。
解決方案SparK:稀疏且層次化的遮罩建模
##作者團隊提出了SparK (Sparse and hierarchical masKed modeling) 來解決前文兩個挑戰。
其一,受三維點雲資料處理的啟發,作者團隊提出將經過遮罩操作(挖空操作) 後的零碎圖片視為稀疏點雲,並使用子流形稀疏卷積(Submanifold Sparse Convolution) 來進行編碼。這就讓卷積網路能夠自如處理隨機刪除後的影像。
其二,受UNet 優雅設計的啟發,作者團隊自然地設計了一種帶有橫向連接的編碼器-解碼器模型,讓多尺度特徵在模型的多層次之間流動,讓BERT 徹底擁抱電腦視覺的多尺度黃金標準。
至此,為卷積網路 (CNN) 量身定制的稀疏的、多尺度的掩碼建模演算法 SparK 誕生了。
SparK 是#通用的:其可直接運用在任何卷積網絡上,而無需對它們的結構進行任何修改,或引入任何額外的組件——不論是我們耳熟能詳的經典ResNet,還是近期的先進模型ConvNeXt,均可直接從SparK 中受益。
從ResNet 到ConvNeXt:三大視覺任務效能提升
#作者團隊選擇了具代表性的兩個卷積模型家族ResNet 和ConvNeXt,並在影像分類,目標偵測、實例分割任務上進行了效能測試。
在經典ResNet-50 模型上,SparK 作為唯一的生成式預訓練,達到了State-of-the-art 水準:
#
在 ConvNeXt 模型上,#SparK 依舊領先##。在預訓練前,ConvNeXt 與Swin-Transformer 平分秋色;而經過預訓練後,ConvNeXt 在三個任務上均壓倒性超過了Swin-Transformer:
##當從小到大,在完整的模型家族上驗證SparK,便可觀察到:
無論模型的大與小、新與舊,均可從SparK 中受益,且隨著模型尺寸/訓練開銷的增長,漲幅甚至更高,體現出SparK 演算法的擴展(scaling) 能力:
最後,作者團隊也設計了一個驗證性的消融實驗,從中可見稀疏遮罩與層次化結構第3行與第4行) 都是非常關鍵的設計,一旦缺失就會造成嚴重的效能衰退:
以上是BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

位元組跳動旗下的創意影片剪輯工具CapCut在中國、美國和東南亞擁有大量用戶。該工具支援安卓、iOS和PC平台市場研究機構data.ai最新報告指出,截至2023年9月11日,CapCut在iOS和GooglePlay上的用戶總支出已突破1億美元(本站備註:目前約7.28億元),成功超越Splice(2022年下半年排名第一)成為2023年上半年全球最吸金的影片剪輯應用,與2022年下半年相比成長了180%。截至2023年8月,全球有4.9億人透過iPhone和安卓手機使用CapCut。 da

一. 背景介紹在位元組跳動,基於深度學習的應用遍地開花,工程師關注模型效果的同時也需要關注線上服務一致性和性能,早期這通常需要算法專家和工程專家分工合作並緊密配合來完成,這種模式有比較高的diff 排除驗證等成本。隨著PyTorch/TensorFlow 框架的流行,深度學習模型訓練和線上推理完成了統一,開發者只需要專注於具體演算法邏輯,呼叫框架的Python API 完成訓練驗證過程即可,之後模型可以很方便的序列化導出,並由統一的高效能C++ 引擎完成推理工作。提升了開發者訓練到部署的體驗

最近,扩散模型(DiffusionModel)在图像生成领域取得了显著的进展,为图像生成和视频生成任务带来了前所未有的发展机遇。尽管取得了令人印象深刻的结果,扩散模型在推理过程中天然存在的多步数迭代去噪特性导致了较高的计算成本。近期出现了一系列扩散模型蒸馏算法来加速扩散模型的推理过程。这些方法大致可以分为两类:i)轨迹保持蒸馏;ii)轨迹重构蒸馏。然而,这两类方法会分别受到效果天花板有限或者输出域变化这两个问题的限制。为了解决这些问题,字节跳动技术团队提出了一种名为Hyper-SD的轨迹分段一致

6月13日消息,根據字節旗下「火山引擎」公眾號介紹,小米旗下人工智慧助理「小愛同學」與火山引擎達成合作,雙方基於豆包大模型實現更智慧的AI互動體驗。據悉,位元組跳動打造的豆包大模型,每日能夠高效處理數量多達1200億個的文本tokens、生成3000萬張內容。小米借助豆包大模型提升自身模型的學習與推理能力,打造出全新的“小愛同學”,不僅更加精準地把握用戶需求,還以更快的響應速度和更全面的內容服務。例如,當使用者詢問複雜的科學概念時,&ldq

近日,人工智慧國際頂會AAAI2023公佈評選結果。新加坡國立大學(NUS)與位元組跳動機學習團隊(AML)合作的CowClip技術論文入圍傑出論文(DistinguishedPapers)。 CowClip是一項模型訓練最佳化策略,可在確保模型精確度的前提下,實現在單張GPU上的模型訓練速度提升72倍,相關程式碼現已開源。論文網址:https://arxiv.org/abs/2204.06240開源網址:https://github.com/bytedance/LargeBatchCTRAAA

據南山區政府官方微信公眾號「創新南山」透露,深圳字節跳動後海中心計畫最近取得了重要進展。根據中建一局建設發展公司的消息,該工程主體結構提前3天全部完成封頂工作。這項消息意味著南山後海核心區將迎來一個新的地標。深圳字節跳動後海中心計畫位於南山區後海核心區,是今日頭條科技有限公司在深圳市的總部辦公大樓。總建築面積為7.74萬平方米,高約150米,共有地下4層及地上32層。據悉,深圳字節跳動後海中心計畫將成為一座創新超高層建築,集辦公、娛樂、餐飲等功能為一體。該項目將有助於深圳推動網路產業的集

Seed-TTS是位元組跳動豆包大模型團隊近期發布的語音生成大模型成果。 ,它產生的語音幾乎與真人**無異**,連發音**缺陷**也能生成出來,尤其在學習模仿人類說話方面,**逼真度**和**流暢度**均有**出色**表現。舉例來說,將一段語音提供給Seed-TTS,它就能按文字產生全新語音,且帶上原始素材的聲音特徵。原文(Prompt):Seed-TTS產生的中文語音:突然,身邊一陣笑聲。我看著他們,意氣風發地挺直了胸膛,甩了甩那稍顯肉感的雙臂,輕笑道:「我身上的肉,是為了掩飾我爆棚的魅力,否則

本站12月13日消息,根據TheInformation,位元組跳動準備砍掉其PICO新一代VR頭顯PICO5,因為現款PICO4的銷量遠低於預期。根據EqualOcean在今年10月的一篇文章,據稱位元組跳動將逐步關閉PICO,並放棄元宇宙領域。文章指出,位元組跳動認為PICO所處的硬體領域並非其專長,幾年來的成績未達到預期,並且對未來缺乏希望在當時,字節跳動的相關負責人對於關於「逐步放棄PICO業務」的傳聞進行了回應,稱這一消息是不實的。他們表示PICO業務仍在正常運營,公司將會長期投入擴展現實
