替代MLP的KAN,被開源專案擴展到卷積了
本月初,來自 MIT 等機構的研究者提出了一種非常有潛力的 MLP 替代方法 ——KAN。
KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。
KAN 與 MLP 一樣具有強大的數學基礎,MLP 基於通用逼近定理,而 KAN 基於 Kolmogorov-Arnold 表示定理。
如下圖所示,KAN 在邊上具有激活函數,而 MLP 在節點上具有激活函數。 KAN 似乎比 MLP 的參數效率更高,但每個 KAN 層比 MLP 層擁有更多的參數。 圖片: [圖1:示意圖] 簡要解釋: KAN 是一種基於邊的神經網路結構,每個節點都有邊的權重和活化函數。它透過邊的傳播來實現訊息的傳遞和更新。 MLP 是一種基於節點的神經網路結構,每個節點都有輸入的
最近,有研究者將KAN 創新框架的概念擴展到卷積神經網絡,將卷積的經典線性變換改為每個像素中可學習的非線性激活函數,提出並開源KAN 卷積(CKAN)。
計畫地址:https://github.com/AntonioTepsich/Convolutional-KANs
KAN卷積
KAN 卷積與卷積非常相似,但不是在內核和影像中對應像素之間應用點積,而是對每個元素應用可學習的非線性激活函數,然後將它們相加。 KAN 卷積的內核當於 4 個輸入和 1 個輸出神經元的 KAN 線性層。對於每個輸入 i,應用 ϕ_i 可學習函數,該卷積步驟的結果像素是 ϕ_i (x_i) 的總和。
KAN 磁碟區中的參數
假設有一個KxK 內核,對於該矩陣的每個元素,都有一個ϕ,其參數計數為:gridsize 1,ϕ 定義為:
##這為激活函數b 提供了更多的可表達性,線性層的參數計數為gridsize 2。因此,KAN 卷積總共有 K^2(gridsize 2) 個參數,而普通卷積只有 K^2。
初步評估
作者測試過的不同架構有:
- 連接到KAN 線性層的KAN 卷積層(KKAN)
- 與MLP 相連的KAN 卷積層(CKAN)
- 在卷積之間進行批量歸一化的CKAN (CKAN_BN)
- ConvNet(連接到MLP 的經典卷積)(ConvNet)
- 簡單MLP
作者表示,KAN 卷積的實作是一個很有前景的想法,儘管它仍處於早期階段。他們進行了一些初步實驗,以評估 KAN 卷積的表現。
值得注意的是,之所以公佈這些「初步」結果,是因為他們希望盡快向外界介紹這個想法,並推動社區更廣泛的研究。
卷積層中列表每個元素都包含卷積數和對應的核心大小。
基於 28x28 MNIST 資料集,可以觀察到 KANConv & MLP 模型與 ConvNet(大)相比達到了可接受的準確度。然而,不同之處在於 KANConv & MLP 所需的參數數量是標準 ConvNet 所需的參數數量的 7 倍。此外,KKAN 的準確率比 ConvNet Medium 低 0.04,而參數數量(94k 對 157k)幾乎只有 ConvNet Medium 的一半,這顯示了該架構的潛力。我們還需要在更多的資料集上進行實驗,才能對此得出結論。
在接下來的幾天和幾周里,作者還將徹底調整模型和用於比較的模型的超參數。雖然已經嘗試了一些超參數和架構的變化,但這只是啟發式的,並沒有採取任何精確的方法。由於計算能力和時間的原因,他們還沒有使用大型或更複雜的數據集,並正在努力解決這個問題。
未來,作者將在更複雜的資料集上進行實驗,這意味著 KANS 的參數量將會增加,因為需要實現更多的 KAN 卷積層。
結論
目前,與傳統卷積網路相比,作者表示並沒有看到KAN 卷積網路的效能有顯著提高。他們分析認為,這是由於使用的是簡單資料集和模型,與嘗試過的最佳架構(ConvNet Big,基於規模因素,這種比較是不公平的)相比,該架構的優勢在於它對參數的要求要少得多。
在2 個相同的捲積層和KAN 卷積層與最後連接的相同MLP 之間進行的比較顯示,經典方法略勝一籌,準確率提高了0.06,而KAN 卷積層和KAN 線性層的參數數幾乎只有經典方法的一半,準確率卻降低了0.04。
作者表示,隨著模型和資料集複雜度的增加,KAN 卷積網路的效能應該會有所提高。同時,隨著輸入維數的增加,模型的參數數量也會成長得更快。
以上是替代MLP的KAN,被開源專案擴展到卷積了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

今天我想分享一個最新的研究工作,這項研究來自康乃狄克大學,提出了一種將時間序列資料與自然語言處理(NLP)大模型在隱空間上對齊的方法,以提高時間序列預測的效果。此方法的關鍵在於利用隱空間提示(prompt)來增強時間序列預測的準確性。論文標題:S2IP-LLM:SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting下載網址:https://arxiv.org/pdf/2403.05798v1.pdf1、問題背景大模型

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特徵,這一轉換是透過視覺轉換(VT)模組實施的。現有的方法大致分為兩種策略:2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵,但深度預測的固有不確定性,尤其是在遠處區域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學習3D和2D特徵之間對應關係的注意力權重,這增加了計算和部署的

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺
