在電影中,隨著女主角Lucy 腦力的逐漸開發,她獲得了以下能力:
在電影的結尾,女主角逐漸消失並變成了一種純粹的能量形態,最終消失在宇宙中,與宇宙和時間融為一體。人類超體的實現即為連通外界,以獲得無限值的能力。將此想法遷移到神經網路域,若能建立與整個網路的連通,即也可實現網路超體, 理論上將獲得無邊界的預測能力#。
即實體化的網路必然會限制網路效能的成長,而將目標網路與Model Zoo 進行連通,此時網路不再具備實體,而是一種建立起網絡之間的連通超體形態。
圖上:超體網路和實體網路的差異。超體網絡無實體,是一種網絡之間的連通形式
#該網絡超體的思想在本文分享CVPR 2023論文《Partial Network Cloning》,中得以探索。在論文中,新加坡國立大學 LV lab 提出全新的網路複製技術。
連結:https://arxiv.org/abs/2303.10597
在該文中,作者提到利用此網路複製技術來實現網路去實體化可以帶來以下優勢:
超體網路的實現基礎為迅速擴張的Model Zoo,海量預訓練模型可供使用。因此對於任意任務 T,我們總是可以找到一個或多個模型,使得這些已有模型的任務能組成成所需求任務。即:
(選擇了三個網路進行連通)。
如上圖所示,對於任務T,為了建構對應的超體網路M_c , 本文提出以下的建置框架:
步驟四:利用部分修正資料對網路的連通模組和預測模組進行fine-tune。
綜上所述,本文所提出的建構網路超體所需的網路複製技術可以被表示為:
其中M_s 表示修正網絡集合,因此網絡超體的連通形式為一個本體網絡加上一個或若干個修正網絡,網絡克隆技術就是克隆所需要的部分修正網絡,嵌入至本體網絡中。
具體來說,本文提出的網路複製框架包含以下兩個技術要點:
對於包含有P 個修正網路的克隆,第一個技術要點為
關鍵部分定位Local (∙)
。由於修正網路可能會含有與任務集T 無關的任務訊息,關鍵部分定位Local (∙) 的目標為定位修正網路中與任務T⋂T_s 相關的部位,定位參數以M^ρ 表示,實現細節在第2.1 小節給出。第二個技術重點是網路模組嵌入 Insert (∙),需選擇合適的網路嵌入點 R^ρ 嵌入所有的修正網絡,實作細節在第 2.2 小節中給出。02 方法總覽
在網路複製的方法部分,為了簡化敘述,我們設定修正網路的數量P=1(因此省略了修正網路的上標ρ),即我們連通一個本體網絡和一個修正網絡來搭建所需的超體網絡。如上所述,網路複製包含關鍵部分定位和網路模組嵌入。在這裡,我們引入中間的可遷移模組 M_f 用來輔助理解。即,網路克隆技術在修正網路中定位關鍵部位形成可遷移模組 M_f,再將可遷移模組透過軟連接嵌入至本體網路 M_t。因此,
網路複製技術的目標為定位和嵌入具有可遷移性和局部保真性的可遷移模組
。
#########2.1 網路關鍵部位定位##############網路關鍵部位定位的目標是學習選擇函數M,選擇函數M 在這裡被定義為作用於網路每一層filter 的mask。此時的可遷移模組可以被表示為:######################在上式中,我們將修正網路M_s 表示為L 層,每一層表示為。已知可遷移模組的提取不會對修正網路做任何修改。 ############為了得到合適的可遷移模組 M_f,我們定位修正網路 M_s 中對最終預測結果做出最大貢獻的明確部分。在此之前,考慮到神經網路的黑盒特性,且我們只需要網路的部分預測結果,因此我們利用 LIME 擬合修正網路在所需任務的局部建模(具體細節請查看論文正文)。 ######
局部建模結果以來表示,其中 D_t 是所需的部分預測結果對應的訓練資料集(小於原始網路的訓練集)。
因此選擇函數M 可以透過以下目標函數進行最佳化:
在該式中,定位的關鍵部分擬合局部建模的G。
2.2 網路模組嵌入
#在修正網路中定位可遷移模組M_f 時,使用擇函數M 直接從M_s 中提取,無需修改其權重。下一步是決定在本體網路 M_t 中可遷移模組 M_f 的嵌入位置,以獲得最佳的克隆效能。
網路模組的嵌入由位置參數 R 控制。遵循大多數模型重用設置,網路克隆將本體模型的前幾層保留為通用特徵提取器,網路嵌入過程被簡化為查找最佳嵌入位置(即在第 R 層嵌入可遷移模組 M_f)。尋找嵌入的過程可以表示為:
詳細的公式解釋請查詢正文。整體來說,基於搜尋的嵌入包括以下要點:
本文提出的網路複製技術的核心為建立起預訓練網路之間的連結路徑,不需要對預訓練網路進行任何參數的修改,它除了可以用作搭建網路超體的關鍵技術,也能被靈活的運用到各種實際場景中。
場景一:網路複製技術使得 Model Zoo 線上使用成為可能。在一些資源有限的情況下,用戶可以在不下載預訓練網路到本地的情況下靈活地利用線上的 Model Zoo。
注意到克隆後的模型是由確定的,其中 M_t 和M_s 在整個過程中都是固定且不變的。模型克隆對預訓練模型上沒有進行任何修改,也沒有引入新模型。模型克隆使得 Model Zoo 中任何功能組合都成為可能,這也有助於維護 Model Zoo 的良好生態環境,因為建立連接使用 M 和 R 是一種簡單的 mask 和定位操作,易於撤銷。因此,提出的網路克隆技術支援建立一個可持續的 Model Zoo 線上推理平台。
場景二:經由網路複製產生的網路具備更好的訊息傳輸形式。當進行網路傳輸時,該技術可以減少傳輸延遲和損失。
在进行网络传输时,我们只需要传输集合,结合公共 Model Zoo,接收方可以恢复出原始网络。与整个克隆后的网络相比,非常小,因此可以减少传输延迟。如若 A 和 F_c 仍然存在一些传输损失,接收方可以通过在数据集上进行 fine-tune 来轻松修复。因此,网络克隆为高效传输提供了一种新形式的网络。
我们在分类任务上进行了实验验证。为了评估可迁移模块的局部性能表征能力,我们引入了条件相似性指标:
其中 Sim_cos (∙) 表示余弦相似性。
上表中给出了在 MNIST,CIFAR-10,CIFAR-100 和 Tiny-ImageNet 上的实验结果,可以看出网络克隆(PNC)得到的模型的性能提升最为显著。且若进行整个网络的 fine-tune(PNC-F)并不会带来网络性能的提升,相反,它会增加模型的 bias。
除此之外,我们对可迁移模块的质量进行了评估(如上图)。从图(左)可以看出,从每个子数据集中学习的每个功能或多或少是相关的,这显示出从修正网络中提取和定位局部功能的重要性。对于可迁移模块,我们计算其相似度 Sim (∙)。图(右)显示,可迁移模块与待克隆的子数据集在相似性上很高,其与其余子数据集的关系被削弱(非对角线区域用比源网络的矩阵图浅的颜色标记)。因此,可以得出结论,可迁移模块成功地模拟了要克隆的任务集上的局部性能,证明了定位策略的正确性。
本文研究了一种新的知识转移任务,称为部分网络克隆(PNC),它以复制粘贴的方式从修正网络中克隆参数模块并将其嵌入到本体网络中。与以往的知识转移设置不同(它们依赖于更新网络的参数)我们的方法保证所有预训练模型的参数不变。PNC 的技术核心为同时进行网络关键部位定位和可迁移模块嵌入操作,两个步骤相互加强。
我们在多个数据集上展示了我们的方法在准确性和可迁移性指标的突出结果。
以上是神經網路超體?新國立LV lab提出全新網路複製技術的詳細內容。更多資訊請關注PHP中文網其他相關文章!