首頁 科技週邊 人工智慧 利用宇宙的能力來處理數據! 「實體網路」遠勝深度神經網絡

利用宇宙的能力來處理數據! 「實體網路」遠勝深度神經網絡

Apr 09, 2023 am 09:01 AM
神經網路 宇宙

利用宇宙的能力來處理數據! 「實體網路」遠勝深度神經網絡

本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。

在一個隔音的板條箱裡有著一個世界上最糟糕的神經網路。在看到數字6的影像後,這個神經網路會暫停片刻,然後顯示出自己辨識出的數字:0。

康乃爾大學的物理學家兼工程師Peter McMahon主導了這個神經網路的開發,他不好意思地笑著說,這是因為手寫的數字看起來很潦草。一位從NTT研究所來訪問McMahon實驗室的博士後Logan Wright說,這個設備通常會給出正確的答案,不過他也承認,出錯也很常見。儘管表現平平,但這種神經網路是一個開創性的研究。研究人員把板條箱翻了過來,露出的不是電腦晶片,而是一個麥克風,麥克風朝著固定在揚聲器上的鈦板傾斜。

不同於運行在0和1的數位世界中的神經網絡,這個裝置是以聲音原理運作的。當賴特給出一個數字的圖像時,圖像的像素被轉換成音頻,然後揚聲器振動鈦板,使得實驗室充滿了微弱的嘰嘰喳喳聲。也就是說進行「讀取」操作的是金屬迴聲,而不是運行在矽晶片上的軟體。

這款裝置的成功讓人覺得難以置信,就連其設計者也不例外。 McMahon說:「無論震動金屬的作用是什麼,都不應該與對手寫數字進行分類有任何關係。」今年1月,康乃爾大學的研究小組在《Nature》雜誌上發表了一篇論文,標題是「反向傳播訓練的深度物理神經網路(Deep physical neural networks trained with backpropagation)」。

這篇論文介紹了這種設備的原始閱讀能力,這給McMahon和其他人帶來了希望,這告訴他們,該種設備進行多次改進後可能會為計算帶來革命性的變化。

利用宇宙的能力來處理數據! 「實體網路」遠勝深度神經網絡

論文連結:https://www.nature.com/articles/s41586-021-04223-6當談到傳統的機器學習時,電腦科學家發現神經網路越大越好。具體原因可以參考下圖中的文章,這篇叫做「電腦科學家證明為什麼越大的神經網路表現越好(Computer Scientists Prove Why Bigger Neural Networks Do Better)」的文章中證明了:如果希望網路能夠可靠地記住其訓練數據,那麼過度參數化不僅有效,而且還需要強制執行。

利用宇宙的能力來處理數據! 「實體網路」遠勝深度神經網絡

文章網址:https://www.quantamagazine.org/computer-scientists-prove-why-bigger-neural-networks -do-better-20220210/一個神經網路中填充更多的人工神經元(儲存數值的節點),可以提高其區分臘腸犬和達爾馬提亞犬的能力,也可以使其成功完成無數其他模式識別任務。

真正巨大的神經網路能夠完成寫論文(如OpenAI的GPT-3)、繪製插圖(例如OpenAI的DALL·E、DALL·E2和Google的Imagen),以及更多讓人細思極恐的高難度任務。有了更多的運算能力,更偉大的壯舉也便成為可能。這種可能性鼓勵人們努力開發更強大、更有效率的計算方法。 McMahon和一群志同道合的物理學家擁護一種非常規的方法:讓宇宙為我們處理數據。

#

McMahon說:「許多實體系統自然能夠比電腦更有效率或更快地進行某些計算。」他以風洞為例:當工程師設計一架飛機時,他們可能會把藍圖數位化,然後花幾個小時在超級電腦上模擬機翼周圍的空氣流動。或者,他們也可以把飛行器放在風洞裡看看能不能飛起來。從計算的角度來看,風洞可以立即「計算」飛機機翼與空氣的相互作用。

利用宇宙的能力來處理數據! 「實體網路」遠勝深度神經網絡

圖註:康乃爾大學團隊成員Peter McMahon和Tatsuhiro Onodera在為完成學習任務的各種物理系統編寫程序。

圖源:Dave Burbank#風洞能模擬空氣動力學,是功能專一的機器。

像McMahon這樣的研究人員正在研究一種可以學習做任何事情的設備——一種可以透過試誤來調整自身行為從而獲得任何新能力的系統,例如對手寫數字進行分類,或區分一個元音和另一個元音等能力。

最新研究表明,像光波、超導體網路和電子分支流這樣的物理系統都可以進行學習。瑞士蘇黎世聯邦理工學院的數學家Benjamin Scellier說,他幫助設計了一種新的物理學習演算法,「我們不僅在重塑硬件,還重塑了整個計算範式」。

學習思考

 學習是一個極為獨特的過程,在十年以前,大腦是唯一能做到學習的系統。正是大腦的結構在某種程度上啟發了電腦科學家設計深度神經網路這個目前最受歡迎的人工學習模型。深度神經網路是一種透過實踐來學習的電腦程式。

深度神經網路可以被認為是一個網格:用來儲存值的節點層被稱為神經元,神經元透過線連接到相鄰層的神經元,這種線也叫「突觸」。最初,這些突觸只是被稱為「權重」的隨機數。想要讓網路讀取4,可以讓第一層神經元表示4的原始影像,可以將每個像素的陰影作為一個值儲存在對應的神經元中。

然後網路進行“思考”,一層一層地移動,用神經元值乘以突觸權值來填充下一層神經元。最後一層中值最大的神經元就是神經網路的答案。例如,如果這是第二個神經元,網路猜測自己看到了2。為了教導網路做出更聰明的猜測,學習演算法會反向工作。在每次嘗試之後,它會計算出猜測和正確答案之間的差值(在我們的例子中,這個差值將由最後一層的第四個神經元的高值和其他地方的低值表示)。

然後,演算法透過網路一層一層地往回走,計算如何調整權值,以使最終神經元的值根據需要上升或下降。這個過程被稱為反向傳播,是深度學習的核心。透過重複多次猜測和調整,反向傳播將權重引導到一組數字,這些數字將透過一個影像發起的級聯乘法輸出結果。

利用宇宙的能力來處理數據! 「實體網路」遠勝深度神經網絡

字源:Quanta 雜誌Merrill Sherman但與大腦的思考相比,人工神經網路中的數位化學習看起來效率非常低。在每天攝取不到2000卡路里熱量的情況下,一個人類兒童在幾年內就能學會說話、閱讀、玩遊戲以及更多的東西。在如此有限的能量條件下,能夠流暢對話的GPT-3神經網路可能需要一千年才能學會聊天。

從物理學家的角度來看,一個大型數位神經網路只是試著去做過多的數學運算。如今最大的神經網路必須記錄和操縱超過5000億個數字。這個驚人的數字來自下圖中的論文“Pathways 語言模型(PaLM):擴展到5400 億個參數以實現突破性性能(Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance)”:

利用宇宙的能力來處理數據! 「實體網路」遠勝深度神經網絡

論文連結:https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to .html同時,宇宙不斷出現的任務遠遠超出了電腦微薄的運算能力的極限。一個房間裡可能有數兆的空氣分子在四處彈跳。

對於一個成熟的碰撞模擬來說,這是電腦無法追蹤的移動物件的數量,但空氣本身卻能輕鬆決定自己每時每刻的行為。我們目前的挑戰是建立一個能夠自然完成人工智慧所需兩個過程的物理系統,這兩個過程分別是——對圖像進行分類的“思考”,以及正確分類這類圖像所需的“學習”。

一個掌握了這兩項任務的系統才是真正利用了宇宙的數學能力,而不僅僅是做數學計算。 「我們從來沒有計算過3.532乘以1.567之類的,」Scellier說。 「系統會計算,不過是透過遵循物理定律的方式隱含地計算。」

#2 思考部分 

McMahon與合作學者們已經在這個謎題的「思考」部分取得了進展。在新冠疫情發生前的幾個月,McMahon在康乃爾大學建立了實驗室,他仔細思考了一個奇怪的發現。多年來,表現最出色的影像辨識神經網路已經變得越來越深度。也就是說,有更多層的網路能夠更好地接收一堆像素並給出標籤,例如「獅子狗」。

這個趨勢啟發數學家們研究神經網路實現的轉換(從像素到「獅子狗」),在2017年幾個小組在論文「任意深度殘差神經網路的可逆結構(Reversible Architectures for Arbitrarily Deep Residual Neural Networks)」中提出,神經網路的行為是一個平滑數學函數的近似版本。

利用宇宙的能力來處理數據! 「實體網路」遠勝深度神經網絡

論文網址:https://arxiv.org/abs/1709.03698#在數學中,函數將輸入(通常是x值)轉換為輸出(曲線在這個位置的y值或高度)。在特定類型的神經網路中,層數越多效果越好,因為函數不那麼參差不齊,更接近某種理想曲線。這項研究引起了McMahon的思考。

也許透過一個平穩變化的實體系統,人們可以避免數位方法中固有的阻塞。訣竅在於找到一種馴化複雜系統的方法——透過訓練來調整它的行為。 McMahon和他的合作者選擇鈦板作為這樣一個系統,因為鈦板的許多振動模式以複雜的方式混合傳入的聲音。

為了讓平板像神經網路一樣運作,他們輸入一種編碼輸入影像的聲音(例如手寫的6)和另一種表示突觸權重的聲音。聲音的峰值和波谷需要在正確的時間撞擊鈦板,以便設備合併聲音並給出答案——例如,一個新的聲音在六毫秒內最響,代表“6”的分類。

利用宇宙的能力來處理數據! 「實體網路」遠勝深度神經網絡

#

圖註:康乃爾大學的一個研究小組訓練了三種不同的物理系統來「讀取」手寫數字:從左到右分別是一個振動的鈦板、一個晶體和一個電子電路。圖源:左圖為康乃爾大學Rob Kurcoba攝;右圖為Quanta 雜誌 Charlie Wood攝。 該小組還在一個光學系統中實現了他們的方案——輸入圖像和權重被編碼在兩束由晶體混合在一起的光束中——以及一個能夠類似地變換輸入的電子電路中。

原則上,任何具有拜占庭行為的系統都可以如此,但是研究人員相信光學系統具有特殊的前景。晶體不僅能極快地混合光線,而且光線還包含了關於世界的豐富數據。 McMahon想像他的光學神經網路的微縮版本有一天會成為自動駕駛汽車的眼睛,能夠識別停車標誌和行人,然後將資訊輸入汽車的電腦晶片,就像我們的視網膜對進來的光進行一些基本的視覺處理一樣。

然而,這些系統的致命弱點在於,訓練它們需要回歸數位世界。反向傳播涉及到反向運行神經網絡,但是底片和晶體不能輕易地分解聲音和光。因此,該團隊為每個實體系統建立了一個數位模型。在筆記型電腦上反轉這些模型,他們可以使用反向傳播演算法來計算如何調整權重以給出準確的答案。

透過這項訓練,這塊鈦板學會了對手寫數字進行分類,正確率為87%。而上圖的電路和雷射的精度分別達到93%和97%。研究結果顯示「不僅標準的神經網路可以透過反向傳播進行訓練,」法國國家科學研究中心(CNRS)的物理學家Julie Grollier說,「這太美了。」

該研究小組的振動鈦板還沒有讓運算的效率接近大腦的驚人效率,而這個裝置甚至不如數位神經網路的速度。但McMahon認為他的設備十分驚人,因為這種設備證明了人不只可以用大腦或電腦晶片來思考。 「任何物理系統都可以是神經網路。」他說。

學習部分

另一個的難題是-如何讓一個系統完全自主學習。德國馬克斯普朗克光科學研究所的物理學家Florian Marquardt認為,有一種方法是建造一台倒著運作的機器。去年,他和一位合作者在論文「基於Hamiltonian回波反向傳播的自學習機器(Self-learning Machines based on Hamiltonian Echo Backpropagation)」中提出了一個可以在這樣的系統上運行的反向傳播演算法的物理模擬。

利用宇宙的能力來處理數據! 「實體網路」遠勝深度神經網絡

論文網址:https://arxiv.org/abs/2103.04992為了證明這是可行的,他們用數位技術模擬了一種類似於McMahon設備的雷射裝置,將可調的權重編碼在一種光波中,與另一種輸入波(編碼,例如圖像)混合。他們使輸出更接近正確的答案,並使用光學組件來分解波,反轉這個過程。

「神奇的是,」 Marquardt說,「當你用相同的輸入再一次嘗試設備時,輸出傾向於更接近你想要的位置。」 接下來,他們正在與實驗人員合作建立這樣一個系統。但是專注於反向運行的系統限制了選擇,所以其他研究人員將反向傳播完全拋在了後面。

因為知道大腦學習的方式不是標準的反向傳播,所以他們的研究沒有受到打擊,反而更進一步。 「大腦不是反向傳播的,」斯塞利爾說,當神經元A與神經元B交流時,「傳播是單向的。」

利用宇宙的能力來處理數據! 「實體網路」遠勝深度神經網絡

圖註:CNRS的物理學家Julie Grollier實作了一種物理學習演算法,被視為反向傳播的一種有希望的替代方案。

圖源:Christophe Caudroy#2017年,Scellier和蒙特婁大學的電腦科學家Yoshua Bengio開發了一種稱為平衡傳播的單向學習方法。

我們可以這樣了解其運作方式:想像一個像神經元一樣的箭頭網絡,它們的方向表示0或1,由作為突觸權重的彈簧連接在網格中。彈簧越鬆,連接的箭頭就越不容易對齊。首先,旋轉最左邊一行的箭頭,以反映手寫數字的像素,然後在保持最左邊一行的箭頭不變,讓這種擾動透過彈簧擴散出去轉動其他箭頭。

當翻轉停止時,最右邊的箭頭給了答案。關鍵是,我們不需要透過翻轉箭頭來訓練這個系統。相反,我們可以在網路底部連接另一組顯示正確答案的箭頭,這些正確的箭頭會使上面這組箭頭翻轉,整個網格就進入了一個新的平衡狀態。

最後,箭頭的新方向與舊方向進行比較,並相應地擰緊或鬆開每個彈簧。經過多次試驗,彈簧獲得了更聰明的張力,Scellier和Bengio已經證明,這種張力相當於反向傳播。 「人們認為物理神經網路和反向傳播之間不可能存在聯繫,」Grollier說,「最近情況發生了變化,這非常令人興奮。」

關於平衡傳播的最初工作都是理論性的。但在一篇即將發表的文章中,Grollier和CNRS的物理學家Jérémie Laydevant描述了該演算法在D-Wave公司製造的量子退火機器上的執行。該裝置有一個由數千個相互作用的超導體組成的網絡,它們可以像彈簧連接的箭頭一樣,自然地計算出「彈簧」應該如何更新。然而,系統不能自動更新這些突觸權重。

實作閉環

至少有一個團隊已經收集了一些元件來建構一個用物理學來完成所有繁重工作的電子電路,其能完成的工作有思考、學習、更新權重。賓州大學的物理學家Sam Dillavou說:「我們已經能夠為一個小系統閉合迴路。」

利用宇宙的能力來處理數據! 「實體網路」遠勝深度神經網絡

圖註:賓州大學的物理學家Sam Dillavou修補了一個可以在學習過程中自我修改的電路。 Dillavou和合作者的目標是模仿大腦,大腦才是真正的智能,其是一個相對統一的系統,不需要任何單一結構來發號施令。 「每個神經元都在做自己的事情,」他說。為此,他們建構了一個自學習電路,在這個電路中作為突觸權重的是可變電阻,神經元是電阻之間測量的電壓。

為了對給定的輸入進行分類,這個電路將資料轉換為施加到幾個節點上的電壓。電流通過電路,尋找耗散能量最少的路徑,並在穩定時改變電壓。答案就是指定輸出節點的電壓。這個想法的創新在於具有挑戰性的學習步驟,為此他們設計了一種類似於均衡傳播的方案,稱為耦合學習(coupled learning)。

當一個電路接收資料並「猜出」一個結果時,另一個相同的電路從正確答案開始,並將其納入其行為中。最後,連接每一對電阻的電子裝置會自動比較它們的值,並調整它們,以實現「更聰明」的配置。

這個小組在去年夏天的預印本(參加下圖)中描述了他們的基本電路,這篇名為「去中心化證明,物理驅動學習(Demonstration of Decentralized , Physics-Driven Learning)」的論文中顯示這個電路可以學習區分三種類型的花,準確率達到95%。而現在他們正在研發一款更快、功能更強的設備。

利用宇宙的能力來處理數據! 「實體網路」遠勝深度神經網絡

論文網址:https://arxiv.org/abs/2108.00275即使是這種升級也無法擊敗最先進的矽晶片。但建造這些系統的物理學家懷疑,與類比網路相比,儘管數位神經網路如今看起來很強大,但最終也會顯得緩慢且不足。

數位神經網路只能擴大到某個程度,否則就會陷入過度的運算,但更大的實體網路只需要做自己就好。 「這是一個非常大的、快速發展的、變化多端的領域,我深信一些非常強大的電腦將會用這些原理製造出來。」Dillavou說。

以上是利用宇宙的能力來處理數據! 「實體網路」遠勝深度神經網絡的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

YOLO不死! YOLOv9出爐:性能速度SOTA~ YOLO不死! YOLOv9出爐:性能速度SOTA~ Feb 26, 2024 am 11:31 AM

如今的深度學習方法專注於設計最適合的目標函數,以使模型的預測結果與實際情況最接近。同時,必須設計一個合適的架構,以便為預測取得足夠的資訊。現有方法忽略了一個事實,當輸入資料經過逐層特徵提取和空間變換時,大量資訊將會遺失。本文將深入探討資料透過深度網路傳輸時的重要問題,即資訊瓶頸和可逆函數。基於此提出了可編程梯度資訊(PGI)的概念,以應對深度網路實現多目標所需的各種變化。 PGI可以為目標任務提供完整的輸入訊息,以計算目標函數,從而獲得可靠的梯度資訊以更新網路權重。此外設計了一種新的輕量級網路架

GNN的基礎、前沿和應用 GNN的基礎、前沿和應用 Apr 11, 2023 pm 11:40 PM

近年來,圖神經網路(GNN)取得了快速、令人難以置信的進展。圖神經網路又稱為圖深度學習、圖表徵學習(圖表示學習)或幾何深度學習,是機器學習特別是深度學習領域成長最快的研究主題。本次分享的題目為《GNN的基礎、前沿和應用》,主要介紹由吳凌飛、崔鵬、裴健、趙亮幾位學者牽頭編撰的綜合性書籍《圖神經網絡基礎、前沿與應用》中的大致內容。一、圖神經網路的介紹1、為什麼要研究圖?圖是一種描述和建模複雜系統的通用語言。圖本身並不複雜,它主要由邊和結點構成。我們可以用結點表示任何我們想要建模的物體,可以用邊表示兩

一文通覽自動駕駛三大主流晶片架構 一文通覽自動駕駛三大主流晶片架構 Apr 12, 2023 pm 12:07 PM

目前主流的AI晶片主要分為三類,GPU、FPGA、ASIC。 GPU、FPGA皆是前期較成熟的晶片架構,屬於通用型晶片。 ASIC屬於為AI特定場景定制的晶片。業界已經確認CPU不適用於AI計算,但在AI應用領域也是不可或缺。 GPU方案GPU與CPU的架構比較CPU遵循的是馮諾依曼架構,其核心是儲存程式/資料、序列順序執行。因此CPU的架構中需要大量的空間去放置儲存單元(Cache)和控制單元(Control),相較之下運算單元(ALU)只佔據了很小的一部分,所以CPU在進行大規模平行運算

北斗七星在未來將不復存在嗎 北斗七星在未來將不復存在嗎 Aug 19, 2024 am 05:11 AM

前言繁星似錦,天回北鬥,盛夏朔月,野草連天,多少孩童對北斗七星的初見都是在這樣一個夜晚發生的? 「復移小凳扶窗立,教識中天北斗星」。北斗七星是最容易辨認的星群之一,它由七顆星組成,位於北半球天空,形狀像古代舀酒的鬥。其中鬥身由四顆星組成,古代稱為「魁」;鬥柄由三顆星組成,古代稱為「杓」。如今正值晝長夜短的夏季,入夜群星初現時,北斗星總是出現在日落方向偏右的高空處。圖1:北斗七星北斗七星最著名的作用是尋找北極星-地球北極指向的恆星,以此指引方向。北極星(幾乎)位於天上同一個地方,嵬然不動,其他星辰

'B站UP主成功打造全球首個基於紅石的神經網絡在社交媒體引起轟動,得到Yann LeCun的點贊讚賞' 'B站UP主成功打造全球首個基於紅石的神經網絡在社交媒體引起轟動,得到Yann LeCun的點贊讚賞' May 07, 2023 pm 10:58 PM

在我的世界(Minecraft)中,紅石是一種非常重要的物品。它是遊戲中獨特的材料,開關、紅石火把和紅石塊等能對導線或物體提供類似電流的能量。紅石電路可以為你建造用於控製或激活其他機械的結構,其本身既可以被設計為用於響應玩家的手動激活,也可以反複輸出信號或者響應非玩家引發的變化,如生物移動、物品掉落、植物生長、日夜更替等等。因此,在我的世界中,紅石能夠控制的機械類別極其多,小到簡單機械如自動門、光開關和頻閃電源,大到佔地巨大的電梯、自動農場、小遊戲平台甚至遊戲內建的計算機。近日,B站UP主@

扛住強風的無人機?加州理工用12分鐘飛行資料教會無人機禦風飛行 扛住強風的無人機?加州理工用12分鐘飛行資料教會無人機禦風飛行 Apr 09, 2023 pm 11:51 PM

當風大到可以把傘吹壞的程度,無人機卻穩穩噹噹,就像這樣:禦風飛行是空中飛行的一部分,從大的層面來講,當飛行員駕駛飛機著陸時,風速可能會給他們帶來挑戰;從小的層面來講,陣風也會影響無人機的飛行。目前來看,無人機要么在受控條件下飛行,無風;要么由人類使用遙控器操作。無人機被研究者控制在開闊的天空中編隊飛行,但這些飛行通常是在理想的條件和環境下進行的。然而,要讓無人機自主執行必要但日常的任務,例如運送包裹,無人機必須能夠即時適應風況。為了讓無人機在風中飛行時具有更好的機動性,來自加州理工學院的一組工

多路徑多領域通吃! GoogleAI發布多領域學習通用模型MDL 多路徑多領域通吃! GoogleAI發布多領域學習通用模型MDL May 28, 2023 pm 02:12 PM

面向視覺任務(如影像分類)的深度學習模型,通常使用單一視覺域(如自然影像或電腦生成的影像)的資料進行端到端的訓練。一般情況下,一個為多個領域完成視覺任務的應用程式需要為每個單獨的領域建立多個模型,分別獨立訓練,不同領域之間不共享數據,在推理時,每個模型將處理特定領域的輸入資料。即使是面向不同領域,這些模型之間的早期層的有些特徵都是相似的,所以,對這些模型進行聯合訓練的效率更高。這能減少延遲和功耗,降低儲存每個模型參數的記憶體成本,這種方法稱為多領域學習(MDL)。此外,MDL模型也可以優於單

1.3ms耗時!清華最新開源行動裝置神經網路架構 RepViT 1.3ms耗時!清華最新開源行動裝置神經網路架構 RepViT Mar 11, 2024 pm 12:07 PM

论文地址:https://arxiv.org/abs/2307.09283代码地址:https://github.com/THU-MIG/RepViTRepViT在移动端ViT架构中表现出色,展现出显著的优势。接下来,我们将探讨本研究的贡献所在。文中提到,轻量级ViTs通常比轻量级CNNs在视觉任务上表现得更好,这主要归功于它们的多头自注意力模块(MSHA)可以让模型学习全局表示。然而,轻量级ViTs和轻量级CNNs之间的架构差异尚未得到充分研究。在这项研究中,作者们通过整合轻量级ViTs的有效

See all articles