爆火後反轉？「一夜解決MLP」的KAN：其實我也是MLP-人工智慧-PHP中文網

KAN 只是一個普通的 MLP？

我想我應該分享一些關於動機的背景資料。我們實現 KAN 的主要想法源於我們正在尋找可解釋的人工智慧模型，這種模型可以「學習」物理學家發現自然規律的洞察力。因此，正如其他人所意識到的那樣，我們完全專注於這一目標，因為傳統的黑箱模型無法提供對科學基礎發現至關重要的見解。然後，我們透過與物理學和數學相關的例子表明，KAN 在可解釋性方面大大優於傳統方法。我們當然希望，KAN 的實用性將遠遠超出我們最初的動機。

首頁

科技週邊

人工智慧

爆火後反轉？「一夜解決MLP」的KAN：其實我也是MLP

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 07, 2024 pm 03:19 PM

git 模型訓練排列

多層感知器（MLP），也被稱為全連接前饋神經網絡，是如今深度學習模型的基礎構建塊。 MLP 的重要性無論如何強調都不為過，因為它們是機器學習中用於逼近非線性函數的預設方法。

但最近，來自MIT 等機構的研究者提出了一種非常有潛力的替代方法—KAN#。此方法在準確性和可解釋性方面表現優於 MLP。而且，它能以非常少的參數量勝過以更大參數量運行的 MLP。例如，作者表示，他們用 KAN 重新發現了結理論中的數學規律，以更小的網路和更高的自動化程度重現了 DeepMind 的結果。具體來說，DeepMind 的 MLP 有大約 300000 個參數，而 KAN 只有大約 200 個參數。

微調內容如下：這些驚人的研究成果讓KAN迅速走紅，吸引了許多人對其展開研究。很快，有人提出了一些質疑。其中，有一篇標題為「KAN is just MLP」的Colab文件成為了討論的焦點。

爆火後反轉？「一夜解決MLP」的KAN：其實我也是MLP

KAN 只是一個普通的 MLP？

上述文件的作者表示，你可以把 KAN 寫成一個 MLP，只要在 ReLU 之前加上一些重複和移位。

在一個簡短的範例中，作者展示如何將KAN網路改寫為具有相同數量參數的、具有輕微的非線性結構的普通MLP。

要記住的是，KAN 在邊上有激活函數。他們使用 B 樣條。在展示的例子中，為了簡單起見，作者將只使用 piece-wise 線性函數。這不會改變網路的建模能力。

下面是piece-wise 線性函數的範例：

def f(x):if x

登入後複製

爆火後反轉？「一夜解決MLP」的KAN：其實我也是MLP

# #作者表示，我們可以使用多個ReLU 和線性函數輕鬆重寫這個函數。請注意，有時需要移動 ReLU 的輸入。

plt.plot(X, -2*X + torch.relu(X)*1.5 + torch.relu(X-1)*2.5)plt.grid()

登入後複製

爆火後反轉？「一夜解決MLP」的KAN：其實我也是MLP

真正的問題是如何將 KAN 層改寫成典型的 MLP 層。假設有 n 個輸入神經元，m 個輸出神經元，piece-wise 函數有 k 個 piece。這需要 n∗m∗k 個參數（每條邊有 k 個參數，而你有 n∗m 條邊）。

現在考慮一個 KAN 邊。為此，需要將輸入複製 k 次，每個副本移動一個常數，然後透過 ReLU 和線性層（第一層除外）運行。從圖形上看是這樣的（C 是常數，W 是權重）：

爆火後反轉？「一夜解決MLP」的KAN：其實我也是MLP

#現在，可以對每一邊重複這個過程。但要注意一點，如果各處的 piece-wise 線性函數網格相同，我們就可以共享中間的 ReLU 輸出，只需在其上混合權重即可。就像這樣：

爆火後反轉？「一夜解決MLP」的KAN：其實我也是MLP

在 Pytorch 中，這可以翻譯成以下內容：

k = 3 # Grid sizeinp_size = 5out_size = 7batch_size = 10X = torch.randn(batch_size, inp_size) # Our inputlinear = nn.Linear(inp_size*k, out_size)# Weightsrepeated = X.unsqueeze(1).repeat(1,k,1)shifts = torch.linspace(-1, 1, k).reshape(1,k,1)shifted = repeated + shiftsintermediate = torch.cat([shifted[:,:1,:], torch.relu(shifted[:,1:,:])], dim=1).flatten(1)outputs = linear(intermediate)

登入後複製

現在我們的圖層看起來是這樣的：

#Expand shift ReLU
Linear

一個接一個地考慮三個層：

#Expand shift ReLU (第1 層從這裡開始)
Linear
Expand shift ReLU (第2 層從這裡開始)
Linear
Expand shift ReLU (第3 層從這裡開始)
#Linear

##忽略輸入expansion ，我們可以重新排列：

Linear (第1 層從這裡開始)
Expand shift ReLU
#Linear (第2 層從這裡開始)
#Expand shift ReLU

如下的層基本上可以稱為MLP。你也可以把線性層做大，去掉 expand 和 shift，得到更好的建模能力（儘管需要付出更高的參數代價）。

Linear (第2 層從這裡開始)
#Expand shift ReLU

#透過這個例子，作者表明，KAN 就是一種MLP。這說法引發了大家對兩類方法的重新思考。

爆火後反轉？「一夜解決MLP」的KAN：其實我也是MLP

對KAN 思路、方法、結果的重新檢視

其實，除了與MLP 理不清的關係，KAN 也受到了其他許多方面的質疑。

總結下來，研究者們的討論主要集中在以下幾點。

第一，KAN 的主要貢獻在於可解釋性，而不在於擴展速度、準確性等部分。

論文作者曾經表示：

KAN 的擴展速度比 MLP 快。 KAN 比參數較少的 MLP 具有更好的準確性。
KAN 可以直覺地視覺化。 KAN 提供了 MLP 無法提供的可解釋性和互動性。我們可以使用 KAN 潛在地發現新的科學定律。

#其中，網路的可解釋性對於模型解決現實問題的重要性不言而喻：

爆火後反轉？「一夜解決MLP」的KAN：其實我也是MLP

##但問題在於：「我認為他們的主張只是它學得更快並且具有可解釋性，而不是其他東西。如果KAN 的參數比等效的NN 少得多，則前者是有意義的。？

這種說法目前還存在疑問。在論文中，KAN 的作者表示，他們只用 200 個參數的 KAN，就能復現 DeepMind 用 30 萬參數的 MLP 發現數學定理研究。在看到結果後，喬治亞理工學院副教授 Humphrey Shi 的兩位學生重新審視了 DeepMind 的實驗，發現只需 122 個參數，DeepMind 的 MLP 就能媲美 KAN 81.6% 的準確率。而且，他們沒有對 DeepMind 程式碼進行任何重大修改。為了實現這個結果，他們只減小了網路大小，使用隨機種子，並增加了訓練時間。

爆火後反轉？「一夜解決MLP」的KAN：其實我也是MLP