本文介紹的是一篇收錄於AAAI 2023 的論文,論文由位於上海交通大學的上海市可擴展計算與系統重點實驗室、貝爾法斯特女王大學的華揚老師和路易斯安那州立大學的王灝老師共同完成。
該論文提出了一種用於聯邦學習的自適應本地聚合方法,透過從全局模型中自動捕獲客戶機所需資訊的方式來應對聯邦學習中的統計異質性問題。作者比較了 11 個 SOTA 模型,並取得了超越最優方法 3.27% 的優異表現。作者將其中的自適應本地聚合模組應用到其他聯邦學習方法上取得了最多 24.19% 的提升。
聯邦學習(FL)透過將使用者隱私資料保留在本地而不進行傳播的方式,幫助人們在保護隱私的情況下,充分發掘用戶資料中蘊含的價值。但由於客戶機之間資料不可見,資料的統計異質性(資料非獨立同分佈(non-IID)和資料量不平衡現象)便成了 FL 的巨大挑戰之一。資料的統計異質性使得傳統聯邦學習方法(如 FedAvg 等)很難透過 FL 流程訓練得到適用於每個客戶機的單一全局模型。
近年來,個人化聯邦學習(pFL)方法因其應對數據統計異質性的能力受到了越來越多的關注。與尋求高品質全局模型的傳統 FL 不同,pFL 方法的目標是藉助聯邦學習的協同運算能力為每個客戶機訓練適用於自身的個人化模型。現有的伺服器上聚合模型的pFL 研究可以分為以下三類:
(1) 學習單一全域模型並對其進行微調的方法,包括Per-FedAvg 和FedRep;
(2) 學習額外個人化模型的方法,包括pFedMe 和Ditto;
##(3) 透過個人化聚合(或本地聚合)學習本地模型的方法,包括FedAMP、FedPHP、FedFomo、APPLE 和PartialFed。
類別(1)和(2)中的 pFL 方法將全域模型中的所有資訊用於本地初始化(指在每次迭代的局部訓練之前初始化局部模型)。然而,在全局模型中,只有提高本地模型品質的資訊(符合本地訓練目標的客戶機所需資訊)才對客戶機有益。全域模型的泛化能力較差是因為其中同時存在對於單一客戶機來說需要和不需要的資訊。因此,研究者提出類別(3)中的 pFL 方法,透過個人化聚合來捕捉全局模型中每個客戶機所需的資訊。但是,類別(3)中的pFL 方法依舊存在(a)沒有考慮客戶機本地訓練目標(如FedAMP 和FedPHP)、(b)計算代價和通訊代價較高(如FedFomo 和APPLE)、(c)隱私洩漏(如FedFomo 和APPLE)和(d)個人化聚合與本地訓練目標不符(如PartialFed)等問題。此外,由於這些方法對 FL 過程做了大量修改,因此它們使用的個人化聚合方法並不能直接用於大多數現有 FL 方法。
為了從全局模型中精確地捕獲客戶機所需信息,且相比於FedAvg 不增加每一輪迭代中的通訊代價,作者提出了一種用於聯邦學習的自適應本地聚合方法(FedALA)。如圖 1 所示,FedALA 在每次本地訓練之前,透過自適應本地聚合(ALA)模組將全局模型與本地模型進行聚合的方式,捕捉全局模型中的所需資訊。由於FedALA 相比於FedAvg 僅使用ALA 修改了每一輪迭代中的本地模型初始化過程,而沒有改變其他FL 過程,因此ALA 可直接應用於大多數現有的其他FL 方法,以提升它們的個性化表現。
#
圖1:在第次迭代中客戶機上的本機學習過程
##2.1自適應本地聚合(ALA)
圖2:自適應本地聚合(ALA)過程
自適應本地聚合(ALA)流程如圖2 所示。相較於傳統聯邦學習中直接將下載的全域模型覆蓋本地模型得到本地初始化模型#的方式(即),FedALA 透過為每個參數學習本地聚合權重,進行自適應本地聚合。
其中,作者把這一項稱之為“更新」。此外,作者透過逐元素權重剪枝方法實現正規化並將中的值限制在 [0,1] 中。
因為深度神經網路(DNN)的較低層網路相比於較高層傾向於學習相對更通用的信息,而通用信息是各個本地模型所需信息,所以全域模型中較低層網路中的大部分資訊與本地模型中較低層網路所需資訊一致。為了降低學習本地聚合權重所需的計算代價,作者引入一個超參數p 來控制ALA 的作用範圍,使得全局模型中較低層網絡參數直接覆蓋本地模型中的較低層網絡,而只在較高層啟用ALA。
其中,表示中的神經網路層數(或神經網路區塊數),與中的低層網路形狀一致,則與中剩下的p 層高層網絡形狀一致。
作者將中的值全部初始化為 1,並且在每一輪本地初始化過程中基於舊的更新。為了進一步降低計算代價,作者採用隨機取樣s
#其中,是更新的學習率。作者在學習的過程中,將除之外的其他可訓練參數凍結。
#圖3:在MNIST 與Cifar10 資料集上8 號客戶機的學習曲線
透過選擇較小的p 值,在幾乎不影響FedALA 表現的情況下,大幅降低ALA 中訓練所需的參數。此外,如圖 3,作者觀察到:一旦在第一次訓練將其訓練到收斂,即使在後續迭代中訓練,其對本地模型品質也沒有很大影響。也就是說,每個客戶機可以重複使用舊的實現對其所需資訊的捕獲。作者採取在後續迭代中微調的方式,降低計算代價。
2.2 ALA 分析
#在不影響分析的情況下,為了簡單起見,作者忽略並設。根據上述公式可以得到,其中代表。作者可以把在 ALA 中更新看成更新。
梯度項目#在每一輪中都做了逐元素地縮放。有別於本地模型訓練(或 fine-tuning)方法,上述對的更新過程能夠感知到全域模型中的通用資訊。在不同的迭代輪數之間,動態變化的為 ALA 模組引入了動態訊息,使其 FedALA 容易適應複雜的環境。
作者在實際(practical)資料異質環境下的Tiny-ImageNet 資料集上用ResNet-18 進行了對超參數s 和p的FedALA 影響的研究,如表1 所示。對於 s 來說,採用越多的隨機採樣的本地訓練資料用於 ALA 模組學習可以使個人化模型表現更好,但也同時增加了計算代價。在使用 ALA 的過程中,可以根據每個客戶機的運算能力調整 s 的大小。從表中可以得知,即使使用極小的 s(如 s=5),FedALA 依舊具有傑出的表現。對 p 來說,不同的 p 值對個人化模型的表現幾乎沒有影響,在計算代價上卻有著巨大的差異。這個現像也從一個側面展示了 FedRep 等方法,將模型分割後保留靠近輸出的神經網路層在客戶機不上傳的做法的有效性。使用 ALA 時,我們可以採用較小且合適的 p 值,在保證個人化模型表現能力的情況下,進一步降低計算代價。
表1:關於超參數與對FedALA 影響的研究
# #作者在病態(pathological)資料異質環境和實際(practical)資料異質環境下,將FedALA 與11 個SOTA 方法進行了比較和詳細分析。如表 2 所示,數據顯示 FedALA 在這些情況下的表現都超越了這 11 個 SOTA 方法,其中 “TINY” 表示在 Tiny-ImageNet 上使用 4-layer CNN。例如,FedALA 在 TINY 情況下比最優基線(baseline)高了 3.27%。
表2:病態與實際資料異質環境下的實驗結果
此外,作者也在不同異質性環境和客戶機總量情況下評估了FedALA 的表現。如表 3 所示,FedALA 在這些情況下依舊保持著優異的表現。
表3:其他實驗結果
根據表3 的實驗結果,將ALA 模組應用於其他方法可以獲得最多24.19% 的提升。
最後,作者也在 MNIST 上視覺化了 ALA 模組的加入對原本 FL 過程中模型訓練的影響,如圖 4 所示。當不活化 ALA 時,模型訓練軌跡與使用 FedAvg 一致。一旦 ALA 被激活,模型便可以透過全局模型中捕獲的其訓練所需資訊直直朝著最優目標最佳化。
圖 4:4 號客戶機上模型訓練軌跡的視覺化圖
#以上是超越SOTA 3.27%,交大等提出自適應本地聚合新方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!