Cet article présente un article inclus dans l'AAAI 2023. L'article est co-écrit par le professeur Hua Yang du Shanghai Key Laboratory of Scalable Computing and Systems de l'Université Jiao Tong de Shanghai, de l'Université Queen's de Belfast et du professeur Wang Hao de l'Université d'État de Louisiane. ensemble.
Cet article propose une méthode d'agrégation locale adaptative pour l'apprentissage fédéré afin de traiter les problèmes de l'apprentissage fédéré en capturant automatiquement les informations requises par le client à partir du problème d'hétérogénéité statistique. L'auteur a comparé 11 modèles SOTA et a obtenu une excellente performance de 3,27 % au-delà de la méthode optimale. L'auteur a appliqué le module d'agrégation locale adaptative à d'autres méthodes d'apprentissage fédéré et a obtenu une amélioration allant jusqu'à 24,19 %.
L'apprentissage fédéré (FL) aide les gens à explorer pleinement la valeur contenue dans les données des utilisateurs tout en protégeant la confidentialité en conservant les données privées des utilisateurs localement sans les diffuser. Cependant, les données entre clients n’étant pas visibles, l’hétérogénéité statistique des données (données non indépendantes et distribuées de manière identique (non-IID) et déséquilibre du volume de données) est devenue l’un des grands défis de FL. L'hétérogénéité statistique des données rend difficile pour les méthodes d'apprentissage fédéré traditionnelles (telles que FedAvg, etc.) d'obtenir un modèle global unique adapté à chaque client via la formation aux processus FL.
Ces dernières années, les méthodes d'apprentissage fédéré personnalisé (pFL) ont reçu une attention croissante en raison de leur capacité à faire face à l'hétérogénéité statistique des données. Contrairement au FL traditionnel, qui recherche un modèle global de haute qualité, l'approche pFL vise à former un modèle personnalisé adapté à chaque client avec la puissance de calcul collaborative de l'apprentissage fédéré. Les recherches pFL existantes sur l'agrégation de modèles sur le serveur peuvent être divisées dans les trois catégories suivantes :
(1) Méthodes pour apprendre un modèle global unique et l'affiner, y compris Per-FedAvg et FedRep ; 2 ) Méthodes d'apprentissage de modèles personnalisés supplémentaires, notamment pFedMe et Ditto ;
(3) Méthodes d'apprentissage de modèles locaux par agrégation personnalisée (ou agrégation locale), notamment FedAMP, FedPHP, FedFomo, APPLE et PartialFed.
Les méthodes pFL des catégories (1) et (2) utilisent toutes les informations du modèle global pour l'initialisation locale (faisant référence à l'initialisation du modèle local avant l'entraînement local à chaque itération). Cependant, dans le modèle global, seules les informations qui améliorent la qualité du modèle local (informations requises par le client qui répondent aux objectifs de formation locaux) sont bénéfiques pour le client. Les modèles globaux se généralisent mal car ils contiennent des informations à la fois nécessaires et non requises par un seul client. Par conséquent, les chercheurs proposent des méthodes pFL dans la catégorie (3) pour capturer les informations requises par chaque client dans le modèle global grâce à une agrégation personnalisée. Cependant, les méthodes pFL de la catégorie (3) existent toujours (a) ne prennent pas en compte les objectifs de formation locaux du client (comme FedAMP et FedPHP), (b) ont des coûts de calcul et de communication élevés (comme FedFomo et APPLE), (c ) Problèmes de confidentialité tels que les fuites (tels que FedFomo et APPLE) et (d) inadéquation entre l'agrégation personnalisée et les objectifs de formation locaux (tels que PartialFed). De plus, étant donné que ces méthodes apportent des modifications importantes au processus FL, les méthodes d'agrégation personnalisées qu'elles utilisent ne peuvent pas être directement utilisées dans la plupart des méthodes FL existantes.
Afin de capturer avec précision les informations requises par le client à partir du modèle global sans augmenter le coût de communication à chaque itération par rapport à FedAvg, l'auteur propose une méthode d'agrégation locale adaptative pour l'apprentissage fédéré (FedALA). Comme le montre la figure 1, FedALA capture les informations requises dans le modèle global en agrégeant le modèle global avec le modèle local via le module d'agrégation locale adaptative (ALA) avant chaque formation locale. Étant donné que FedALA utilise uniquement ALA pour modifier le processus d'initialisation du modèle local à chaque itération par rapport à FedAvg, sans modifier les autres processus FL, ALA peut être directement appliqué à la plupart des autres méthodes FL existantes pour améliorer leur individualité.
Figure 1 : Processus d'apprentissage local sur le client en itération
2.1 Agrégation locale adaptative (ALA)
Figure 2 : Agrégation locale adaptative ation (ALA) Processus
Le processus d'agrégation locale adaptative (ALA) est illustré à la figure 2. Par rapport à l'apprentissage fédéré traditionnel, qui écrase directement le modèle local avec le modèle global téléchargé pour obtenir un modèle initialisé local (c'est-à-dire ), FedALA apprend des modèles locaux pour chaque paramètre Agrégez les poids pour une agrégation locale adaptative.
Parmi eux, l'auteur appelle "mise à jour". De plus, l'auteur implémente la régularisation via la méthode d'élagage du poids par élément et limite les valeurs dans à [0,1].
Parce que le réseau de couche inférieure du réseau de neurones profonds (DNN) a tendance à apprendre relativement plus d'informations générales que la couche supérieure, et que les informations générales sont les informations requises par chaque modèle local, donc le réseau de couche inférieure dans le monde modèle La plupart des informations sont cohérentes avec les informations requises par les réseaux de niveau inférieur dans le modèle local. Afin de réduire le coût de calcul requis pour apprendre les poids d'agrégation locaux, l'auteur introduit un hyperparamètre p pour contrôler la portée de l'ALA, de sorte que les paramètres de réseau de couche inférieure dans le modèle global couvrent directement le réseau de couche inférieure dans le modèle local, et uniquement dans la couche supérieure Activer ALA.
Parmi eux, représente le nombre de couches de réseau neuronal (ou blocs de réseau neuronal) dans , est cohérent avec la forme du réseau de bas niveau dans , et est cohérent avec Les réseaux de haut niveau de couche p restants ont la même forme.
L'auteur initialise toutes les valeursdans à 1, et met à jour en fonction de l'ancienne lors de chaque tour d'initialisation locale. Afin de réduire davantage le coût de calcul, l'auteur utilise un échantillonnage aléatoire s
où est le taux d'apprentissage de la mise à jour . En cours d'apprentissage , l'auteur fige les autres paramètres entraînables sauf .
Figure 3 : Courbe d'apprentissage du client 8 sur les ensembles de données MNIST et Cifar10
En choisissant une valeur p plus petite, les performances de FedALA sont améliorées considérablement sans presque affecter les performances de FedALA. paramètres requis pour la formation en ALA. De plus, comme le montre la figure 3, les auteurs ont observé qu'une fois entraîné à la convergence lors de la première formation , il n'a pas un grand impact sur la qualité du modèle local même s'il est entraîné lors des itérations suivantes. Autrement dit, chaque client peut réutiliser l'ancien pour capturer les informations dont il a besoin. L'auteur adopte la méthode de réglage fin dans les itérations ultérieures pour réduire le coût de calcul.
2.2 Analyse ALA
Sans affecter l'analyse, par souci de simplicité, l'auteur ignore et suppose . D'après la formule ci-dessus, nous pouvons obtenir , où représente . Les auteurs peuvent considérer la mise à jour de dans ALA comme une mise à jour de .
Le terme de dégradé est mis à l'échelle élément par élément à chaque tour. Différent de la méthode de formation (ou de réglage fin) du modèle local, le processus de mise à jour ci-dessus de peut percevoir les informations communes dans le modèle global. Entre les différentes itérations, le qui change dynamiquement introduit des informations dynamiques dans le module ALA, permettant à FedALA de s'adapter facilement à des environnements complexes.
L'auteur a utilisé ResNet-18 pour étudier l'impact des hyperparamètres s et p sur FedALA sur l'ensemble de données Tiny-ImageNet dans un environnement hétérogène de données pratiques, comme le montre le tableau 1. Pour les s, l'utilisation de données de formation locales échantillonnées de manière plus aléatoire pour l'apprentissage du module ALA peut améliorer les performances du modèle personnalisé, mais cela augmente également le coût de calcul. Lors de l'utilisation d'ALA, la taille de s peut être ajustée en fonction de la puissance de calcul de chaque client. Comme le montre le tableau, FedALA offre toujours des performances exceptionnelles même en utilisant des s extrêmement petits (tels que s=5). Pour p, différentes valeurs p n'ont presque aucun impact sur les performances du modèle personnalisé, mais il existe une énorme différence dans le coût de calcul. Ce phénomène montre également d'un certain point de vue l'efficacité de méthodes telles que FedRep, qui divise le modèle et maintient la couche de réseau neuronal proche de la sortie sans la télécharger sur le client. Lors de l'utilisation d'ALA, nous pouvons utiliser une valeur p plus petite et appropriée pour réduire davantage le coût de calcul tout en garantissant les capacités de performance du modèle personnalisé.
Tableau 1 : Recherche sur les hyperparamètres et leur impact sur FedALA
L'auteur a comparé FedALA avec 11 en données pathologiques environnement hétérogène et données pratiques en environnement hétérogène Plusieurs méthodes SOTA ont été comparées et analysées en détail. Comme le montre le tableau 2, les données montrent que FedALA surpasse ces 11 méthodes SOTA dans tous les cas, où « TINY » signifie l'utilisation d'un CNN à 4 couches sur Tiny-ImageNet. Par exemple, FedALA dépasse la référence optimale de 3,27 % dans le cas TINY.
Tableau 2 : Résultats expérimentaux dans des environnements hétérogènes de données pathologiques et réelles
De plus, les auteurs ont également évalué les performances de FedALA dans différents environnements hétérogènes et le nombre total de clients. Comme le montre le tableau 3, FedALA maintient toujours d'excellentes performances dans ces conditions.
Tableau 3 : Autres résultats expérimentaux
Selon les résultats expérimentaux du tableau 3, l'application du module ALA à d'autres méthodes peut atteindre jusqu'à 24,19 % d'amélioration.
Enfin, l'auteur a également visualisé l'impact de l'ajout du module ALA sur la formation des modèles dans le processus FL d'origine sur MNIST, comme le montre la figure 4. Lorsque ALA n'est pas activé, la trajectoire de formation du modèle est cohérente avec l'utilisation de FedAvg. Une fois ALA activé, le modèle peut optimiser directement vers l'objectif optimal avec les informations nécessaires à sa formation capturées dans le modèle global.
Figure 4 : Visualisation de la trajectoire de formation du modèle sur le client 4
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!