首個在ImageNet上精度超過80%的二值神經網路BNext問世,-1與+1的五年辛路歷程
兩年前,當MeliusNet 問世時,機器之心曾發表過一篇技術文章《#第一次勝過MobileNet 的二值神經網絡,- 1 與1 的三年艱苦跋涉#》,回顧了BNN 的發展歷程。彼時,靠著早期 BNN 工作 XNOR-Net 起家的 XNOR.AI 被蘋果公司收購,大家曾暢想過這種低功耗、高效能的二值神經網路技術會不會即將開啟廣闊的應用前景。
然而,過去的兩年時間,我們很難從對技術嚴格保密的蘋果公司獲得關於BNN 技術應用的更多信息,而不論是學界和業界也未出現其他特別亮眼的應用案例。另一方面,隨著終端設備數量的暴漲,邊緣 AI 應用和市場正在迅速增長: 預計到 2030 年將產生 500 到 1250 億台邊緣設備,邊緣計算市場將暴漲到 600 億美元規模。這其中有幾個目前熱門的應用領域:AIoT、元宇宙和機器人終端設備。相關業界正加速發力技術落地,與此同時 AI 能力已經嵌入到以上領域的諸多核心技術環節中,如 AI 技術在三維重建、視頻壓縮以及機器人實時感知場景中的廣泛應用。在這樣的背景下,業界對基於邊緣的高能源效率、低功耗 AI 技術、軟體工具以及硬體加速的需求變的日益迫切。
目前,限制BNN 應用的瓶頸主要有兩面:首先,無法有效縮小和傳統32-bit 深度學習模型的精度差距;第二則是缺乏在不同硬體上的高性能演算法實作。機器學習論文上的加速比通常無法體現在你正在使用的 GPU 或 CPU 上。第二個原因的產生可能正是來自於第一個原因,BNN 無法達到令人滿意的精度,因此無法吸引來自系統和硬體加速、優化領域的從業者的廣泛關注。而機器學習演算法社群通常無法自行開發高效能的硬體程式碼。因此,想要同時獲得高精度和強加速效果,BNN 應用或加速器無疑需要這兩個不同領域的開發者進行協作。
BNN 為什麼對於計算和記憶體高效
舉個例子,Meta 推薦系統模型DLRM 使用32-bit 浮點數來儲存權重和激活參數,它的模型大小約2.2GB。而一個少量精度下降 (
BNN 的第二個顯著的優點是計算方式極度有效率。它只用 1bit 也就是兩種 state 來表示變數。這意味著所有運算只靠位元運算就能完成,借助與閘、異或閘等運算,可以取代傳統乘加運算。位運算是電路中的基礎單元,熟悉電路設計的同學應該明白,有效減小乘加計算單元的面積以及減少片外訪存是降低功耗的最有效手段,而BNN 從內存和計算兩個方面都具備得天獨厚的優勢,WRPN[1]展示了在客製化FPGA 和ASIC 上,BNN 對比全精度可獲得1000 倍的功耗節省。更近期的工作 BoolNet [2]展示了一種 BNN 結構設計可以幾乎不使用浮點運算並保持純 binary 的資訊流,它在 ASIC 模擬中獲得極佳的功耗、精度權衡。
第一個精確度上 80% 的 BNN 是什麼樣子的?
來自德國Hasso Plattner 電腦系統工程研究院的Nianhui Guo 和Haojin Yang 等研究者提出了BNext 模型,成為第一個在ImageNet 資料集上top1 分類準確率突破80% 的BNN :
#############################################################################################################################################
論文網址:https://arxiv.org/pdf/2211.12933.pdf
作者首先基於Loss Landscape 視覺化的形式深入對比了當前主流BNN 模型同32-bit 模型在優化友好度方面的巨大差異(圖2),提出BNN 的粗糙Loss Landscape 是阻礙當前研究社區進一步探索BNN 性能邊界的的主要原因之一。
基於這個假設,作者嘗試利用新穎的結構設計對BNN 模型優化友善度進行提升,透過建構具備更平滑Loss Landscape 的二值神經網路架構以降低對高精度BNN 模型的最佳化難度。具體而言,作者強調模型二值化大幅限制了可用於前向傳播的特徵模式,促使二值卷積僅能在有限的特徵空間進行資訊擷取與處理,而這種受限前饋傳播模式所帶來的最佳化困難可以透過兩個層面的結構設計得到有效緩解:(1) 建構靈活的鄰接卷積特徵校準模組以提高模型對二值表徵的適應性;(2) 探索高效的旁路結構以緩解前饋傳播中由於特徵二值化所帶來的訊息瓶頸問題。
圖2 針對流行BNN 架構的Loss Landscape 視覺化對比(2D 等高線視角)
基於上述分析,作者提出了BNext,第一個在ImageNe 影像分類任務達到> 80% 準確率的二值神經網路架構,具體的網路架構設計如圖4所示。作者首先設計了基於 Info-Recoupling (Info-RCP) 模組的基礎二值處理單元。針對鄰接卷積間的資訊瓶頸問題,透過引入額外的 Batch Normalization 層與 PReLU 層完成對二值卷積輸出分佈的初步校準設計。接著作者建構了基於逆向殘差結構與 Squeeze-And-Expand 分支結構的二次動態分佈校準設計。如圖 3 所示,相較於傳統的 Real2Binary 校準結構,額外的逆向殘差結構充分考慮了二值單元輸入與輸出間的特徵差距,避免了完全基於輸入資訊的次優分佈校準。這種雙階段的動態分佈校準可以有效降低後續鄰接二值卷積層的特徵提取難度。
圖3 捲積模組設計比較圖
其次,作者提出結合Element-wise Attention (ELM-Attention) 的增強二值Basic Block 模組。作者透過堆疊多個 Info-RCP 模組完成 Basic Block 的基礎搭建,並對每個 Info-RCP 模組引入額外的 Batch Normalization 和連續的殘差連接以進一步緩解不同 Info-RCP 模組間的資訊瓶頸問題。基於旁路結構對二值模型最佳化影響的分析, 作者提出使用 Element-wise 矩陣乘法分支對每個 Basic Block 的首個 3x3 Info-RCP 模組輸出進行分佈校準。額外的空域注意力加權機制可以幫助 Basic Block 以更靈活的機制進行前向資訊融合與分發,改善模型 Loss Landscape 平滑度。如圖 2.e 和圖 2.f 所示,所提出的模組設計可以顯著改善模型 Loss Landscape 平滑度。
圖 4 BNext 架構設計。 "Processor 代表Info-RCP 模組,"BN "代表Batch Normalization 層,"C "表示模型基本寬度,"N "和"M " 表示模型不同階段的深度比例參數。
#Table 1 BNext 系列。「Q」表示輸入層、SEbranch以及輸出層量化設定。
##### ####作者將上述結構設計同流行的MoboleNetv1基準模型結合,並透過改變模型深度與寬度的比例係數建構了四種不同複雜度的BNext 模型系列(Table 1):BNex-Tiny,BNext -Small,BNext-Middle,BNext-Large。
由於相對粗糙的 Loss Landscape,當前二值模型最佳化普遍依賴 knowledge distillation 等方法提供的更精細監督訊息,以此擺脫廣泛存在的次優收斂。 BNext作者首次考慮了優化過程中teache模型與二值student模型預測分佈巨大差距可能帶來的影響,,指出單純基於模型精度進行的 teacher 選擇會帶來反直覺的 student 過擬合結果。為解決這個問題,作者提出了 knowledge-complexity (KC) 作為新的 teacher-selection 度量標準,同時考慮 teacher 模型的輸出軟標籤有效性與 teacher 模型參數複雜度之間的關聯性。
如圖5 所示,基於knowledge complexity,作者對流行全精度模型系列如ResNet、EfficientNet、ConvNext 進行了複雜度度量與排序,結合BNext-T 作為student 模型初步驗證了該度量標準的有效性,並基於排序結果用於後續實驗中的knowledge distillation 模型選擇。
圖5 反直覺的過度擬合效應和不同教師選擇下的知識複雜性影響
在此基礎上,論文作者進一步考慮了強teacher 最佳化過程中由於早期預測分佈差距造成的最佳化問題,提出Diversified Consecutive KD。如下所示,作者透過強弱 teachers 組合的知識整合方法對最佳化過程中的目標函數進行調製。在此基礎上,進一步引入knowledge-boosting 策略,利用多個預定義候選teachers 在訓練過程中對弱teacher 進行均勻切換,將組合知識複雜度按照從弱到強的順序進行課程式引導,降低預測分佈差異性帶來的最佳化干擾。
在最佳化技巧方面,BNext 作者充分考慮了現代高精度模型最佳化中資料增強可能帶來的增益,並提供了首個針對現有流行數據增強策略在二值模型優化中可能帶來影響的分析結果,實驗結果表明,現有數據增強方法並不完全適用於二值模型優化,這為後續研究中特定於二值模型優化的資料增強策略設計提供了一個想法。
基於所提出架構設計與最佳化方法,作者在大規模影像分類任務 ImageNet-1k 進行方法驗證。實驗結果如圖 6 所示。
圖 6 基於 ImageNet-1k 的 SOTA BNN 方法比較。
相比於現有方法,BNext-L 在 ImageNet-1k 上首次將二值模型的性能邊界推動至 80.57%,對大多數現有方法實現了 10% 的精度超越。相較於來自Google 的PokeBNN, BNext-M 在相近參數量前提下要高出0.7%,作者同時強調,PokeBNN 的優化依賴於更高的計算資源,如高達8192 的Bacth Size 以及720 個Epoch 的TPU計算優化,而BNext-L 僅以常規Batch Size 512 迭代了512 個Epoch,這反映了BNext 結構設計與最佳化方法的有效性。在基於相同基準模型的比較中,BNext-T 與 BNext-18 都有大幅的精度提升。在同全精度模型如RegNetY-4G (80.0%)等的對比中,BNext-L 在展現相匹配的視覺表徵學習能力同時,僅使用了有限的參數空間與計算複雜度,這為在邊緣部署基於二值模型特徵提取器的下游視覺任務模型提供了豐富想像空間。
What next?
BNext 作者在論文中提到的,他們和合作者們正積極在GPU 硬體上實現並驗證這個高精度BNN 架構的運行效率,未來計劃擴展到其他更廣泛的硬體平台。然而在編者看來,讓社群對 BNN 重拾信心,被更多系統和硬體領域的極客關注到,也許這個工作更重要的意義在於重塑了 BNN 應用潛力的想像空間。從長遠來看,隨著越來越多的應用從以雲端為中心的運算範式向去中心化的邊緣運算遷移,未來海量的邊緣設備需要更有效率的 AI 技術、軟體框架和硬體運算平台。而目前最主流的 AI 模型和運算架構都不是為邊緣場景設計、最佳化的。因此,在找到邊緣 AI 的答案之前,相信 BNN 總是會是個充滿技術挑戰又蘊涵巨大潛力的重要選項。
以上是首個在ImageNet上精度超過80%的二值神經網路BNext問世,-1與+1的五年辛路歷程的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

而後悔莫及、人們常常會因為一些原因不小心刪除某些聯絡人、微信作為一款廣泛使用的社群軟體。幫助用戶解決這個問題,本文將介紹如何透過簡單的方法找回被刪除的聯絡人。 1.了解微信聯絡人刪除機制這為我們找回被刪除的聯絡人提供了可能性、微信中的聯絡人刪除機制是將其從通訊錄中移除,但並未完全刪除。 2.使用微信內建「通訊錄恢復」功能微信提供了「通訊錄恢復」節省時間和精力,使用者可以透過此功能快速找回先前刪除的聯絡人,功能。 3.進入微信設定頁面點選右下角,開啟微信應用程式「我」再點選右上角設定圖示、進入設定頁面,,

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

手機遊戲成為了人們生活中不可或缺的一部分,隨著科技的發展。它以其可愛的龍蛋形象和有趣的孵化過程吸引了眾多玩家的關注,而其中一款備受矚目的遊戲就是手機版龍蛋。幫助玩家們在遊戲中更好地培養和成長自己的小龍,本文將向大家介紹手機版龍蛋的孵化方法。 1.選擇合適的龍蛋種類玩家需要仔細選擇自己喜歡並且適合自己的龍蛋種類,根據遊戲中提供的不同種類的龍蛋屬性和能力。 2.提升孵化機的等級玩家需要透過完成任務和收集道具來提升孵化機的等級,孵化機的等級決定了孵化速度和孵化成功率。 3.收集孵化所需的資源玩家需要在遊戲中

字體大小的設定成為了重要的個人化需求,隨著手機成為人們日常生活的重要工具。以滿足不同使用者的需求、本文將介紹如何透過簡單的操作,提升手機使用體驗,調整手機字體大小。為什麼需要調整手機字體大小-調整字體大小可以使文字更清晰易讀-適合不同年齡段用戶的閱讀需求-方便視力不佳的用戶使用手機系統自帶字體大小設置功能-如何進入系統設置界面-在在設定介面中找到並進入"顯示"選項-找到"字體大小"選項並進行調整第三方應用調整字體大小-下載並安裝支援字體大小調整的應用程式-開啟應用程式並進入相關設定介面-根據個人

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺
