La mise à l'échelle du modèle de base fait référence à l'utilisation de plus de données, de calculs et de paramètres pour la pré-formation, ce qui est simplement une « expansion d'échelle ».
Bien qu'étendre directement la taille du modèle semble simple et grossier, cela a en effet apporté de nombreux modèles exceptionnels à la communauté de l'apprentissage automatique. De nombreuses études antérieures ont reconnu la pratique consistant à élargir l’échelle des modèles neuroéconomiques. Les changements dits quantitatifs conduisent à des changements qualitatifs. Cette vision est également connue sous le nom de lois d’échelle neuronale. Cependant, à mesure que la taille du modèle augmente, cela entraîne une consommation intensive de ressources informatiques. Cela signifie que les modèles plus grands nécessitent plus de ressources informatiques, notamment de processeurs et de mémoire. Cela n'est pas réalisable pour de nombreuses applications pratiques, en particulier sur les appareils aux ressources limitées. Par conséquent, les chercheurs ont commencé à se concentrer sur la manière d'utiliser plus efficacement les ressources informatiques pour améliorer les modèles. Récemment, de nombreuses personnes pensent que les « données » sont la clé des meilleurs modèles fermés actuels, qu'il s'agisse de LLM, ou de VLM ou d'un modèle de diffusion. . À mesure que l’importance de la qualité des données a été reconnue, de nombreuses recherches ont vu le jour visant à améliorer la qualité des données : soit en filtrant des données de haute qualité provenant de grandes bases de données, soit en générant de nouvelles données de haute qualité. Cependant, dans le passé, la loi d'expansion considérait généralement les « données » comme une entité homogène et ne prenait pas en compte la « qualité des données », qui a récemment attiré l'attention.
Malgré l'immensité des modèles de données sur le Web, les données de haute qualité (basées sur plusieurs mesures d'évaluation) sont souvent limitées. Aujourd’hui, des recherches révolutionnaires arrivent : la loi de l’expansion dans les dimensions du filtrage des données ! Il provient de l'Université Carnegie Mellon et du Bosch Center for AI, avec un accent particulier sur le compromis quantité-qualité (QQT) entre « à grande échelle » et « de haute qualité ».
Comme le montre la figure 1, lors de la formation de plusieurs époques, l'utilité de données de haute qualité (utilitaire ) n'est pas grand (car le modèle a terminé son apprentissage).
À l'heure actuelle, il est souvent plus utile d'utiliser des données de qualité inférieure (avec moins d'utilité au début) que de réutiliser des données de haute qualité.
Dans le cadre du compromis quantité-qualité (QQT), comment déterminer quel type de combinaison de données est le meilleur pour la formation ?
Pour répondre à cette question, tout workflow de curation de données doit prendre en compte l'effort de calcul total utilisé pour la formation du modèle. Ceci est différent du point de vue de la communauté sur le filtrage des données. Par exemple, la stratégie de filtrage LAION extrait les 10 % de la plus haute qualité des résultats d'exploration courants.
Mais comme le montre la figure 2, il est évident qu'une fois que la formation dépasse 35 époques, l'effet de la formation sur un ensemble de données complètement non organisé est meilleur que la formation sur des données de haute qualité organisées à l'aide de la stratégie LAION.
Les lois actuelles sur l'expansion neuronale ne peuvent pas modéliser ce compromis dynamique entre qualité et quantité. De plus, il existe encore moins d’études sur l’extension des modèles de langage visuel, et la plupart des recherches actuelles se limitent au domaine de la modélisation du langage.
La recherche révolutionnaire que nous allons présenter aujourd'hui a surmonté trois limitations importantes de la précédente loi d'expansion neuronale, et elle l'a fait :
(1) Considérez l'axe « qualité » lors de l'expansion des données ;
(2) Estimer la loi d'expansion de la combinaison du pool de données (sans réellement s'entraîner sur la combinaison), ce qui aide à guider les décisions optimales d'intégration de données ; formation (telle que CLIP), où chaque lot comporte un nombre carré de comparaisons.L'équipe a proposé pour la première fois la loi d'expansion pour une quantité hétérogène et limitée de données réseau. Les grands modèles sont formés sur une combinaison de pools de données de différentes qualités. En modélisant l'utilitaire de données agrégées dérivé des paramètres de diffusion de pools de données individuels (A-F dans la figure 1 (a)), il est possible d'estimer directement les performances du modèle sur n'importe quelle combinaison de ces pools de données. Il est important de souligner que cette méthode ne nécessite pas de formation sur ces combinaisons de pools de données pour estimer leurs lois d'expansion, mais peut estimer directement leurs courbes d'expansion en fonction des paramètres d'expansion de chaque pool de composants. Par rapport à la loi d'expansion du passé, la loi d'expansion présente ici quelques différences importantes, qui peuvent modéliser et comparer les répétitions dans le mécanisme d'entraînement et réaliser une comparaison O (n²). Par exemple, si la taille du pool de formation est doublée, le nombre de comparaisons contribuant à la perte du modèle sera quadruplé. Ils décrivent mathématiquement comment les données de différents pools interagissent les unes avec les autres, permettant d'estimer les performances du modèle sous différentes combinaisons de données. Il en résulte une stratégie d’organisation des données adaptée aux calculs actuellement disponibles. Un message clé de cette étude est le suivant : La compilation de données ne peut se faire sans calcul. Lorsque le budget de calcul est petit (moins de répétitions), la qualité prime dans le cadre du compromis QQT, comme le montre la meilleure performance du filtrage agressif (E) à faible effort de calcul dans la figure 1. D'un autre côté, lorsque l'échelle de calcul dépasse de loin les données d'entraînement utilisées, l'utilité de données limitées de haute qualité diminuera et vous devrez trouver des moyens de compenser cela. Il en résulte une stratégie de filtrage moins agressive, c'est-à-dire de meilleures performances avec des volumes de données plus importants. L'équipe a mené des démonstrations expérimentales montrant que cette nouvelle loi d'échelle pour les données de réseau hétérogènes est capable de prédire Pareto sous différents budgets informatiques de 32 M à 640 M en utilisant la stratégie de filtrage optimale du pool de taille moyenne de DataComp (128 M d'échantillons). L'équipe a étudié l'effet du filtrage des données sous différents budgets informatiques à travers des expériences. Ils ont formé un VLM en utilisant un grand pool de données initial. Pour le pool de données de base non filtrées, ils ont choisi une version à « moyenne » échelle de Datacomp, un récent benchmark de compilation de données. Le pool de données contient 128 millions d'échantillons. Ils ont utilisé 18 tâches différentes en aval pour évaluer les performances du modèle sans tir. Ils ont d'abord étudié la stratégie de filtrage LAION utilisée pour obtenir l'ensemble de données LAION, et les résultats sont présentés dans la figure 2. Ils ont observé les résultats suivants : 1. Lorsque le budget de calcul est faible, il est préférable d'utiliser des données de haute qualité. 2. Le filtrage des données peut constituer un obstacle lorsque le budget informatique est élevé. Pourquoi ? Le filtrage LAION conserve environ 10 % des données, le budget de calcul est donc d'environ 450 Mo, et chaque échantillon du pool LAION filtré est utilisé environ 32 fois. L’idée clé ici est que si le même échantillon est vu plusieurs fois au cours de la formation, l’utilité diminuera à chaque fois. L'équipe a ensuite étudié deux autres méthodes de filtrage des données : (1) Filtrage par score CLIP, en utilisant le modèle CLIP L/14 (2) T-MARS, après masquage Les données sont classées ; basé sur le score CLIP après les caractéristiques du texte dans l'image (OCR). Pour chaque méthode de filtrage des données, ils ont utilisé quatre niveaux de filtrage et différents efforts de calcul globaux. La figure 3 montre la comparaison des résultats des filtrages CLIP Top 10-20 %, Top 30 % et Top 40 % lorsque l'échelle de calcul est 32M, 128M et 640M. À l'échelle de calcul de 32 millions, la stratégie de filtrage très agressive (en ne conservant que les 10 à 20 % les plus performants sur la base du score CLIP) a donné les meilleurs résultats, tandis que la méthode de filtrage la moins agressive consistant à conserver les 40 % les plus performants a donné les meilleurs résultats. . Différence. Cependant, lorsque l’échelle de calcul est étendue à 640 millions, cette tendance s’inverse complètement. Des tendances similaires sont observées en utilisant la métrique du score T-MARS. L'équipe a d'abord défini l'utilité mathématiquement. Leur approche ne consiste pas à estimer la perte de n échantillons à la fin de l'entraînement, mais à considérer l'utilité instantanée d'un échantillon à tout moment de la phase d'entraînement. La formule mathématique est :
Cela montre que l'utilité instantanée d'un échantillon est directement proportionnelle à la perte actuelle et inversement proportionnelle au nombre d'échantillons vus jusqu'à présent. Cela est également conforme à notre pensée intuitive : à mesure que le nombre d’échantillons vus par le modèle augmente, l’efficacité des échantillons diminue. L'accent est mis sur le paramètre d'utilitaire de données b . La prochaine étape est l'utilité des données réutilisées. Mathématiquement, le paramètre d'utilité b d'un échantillon vu k+1 fois est défini comme :
où τ est la demi-vie du paramètre d'utilité. Plus la valeur de τ est élevée, plus l’utilité de l’échantillon décroît lentement avec la répétition. δ est une manière concise d’écrire la décroissance de l’utilité avec répétition. Ensuite, l'expression de la perte du modèle après avoir vu n échantillons et chaque échantillon a été vu k fois est :
où n_j est le modèle à la fin du jème cycle d'époque d'entraînement Nombre de échantillons vus. Cette équation est à la base de la nouvelle loi d’expansion proposée. Enfin, il existe une autre couche de complexité, à savoir les données réseau hétérogènes. Ensuite, nous avons obtenu le théorème qu'ils ont donné : étant donné p pools de données échantillonnés de manière aléatoire et uniforme, leurs paramètres d'utilité et de répétition respectifs sont (b_1, τ_1)...(b_p, τ_p), puis chacun La nouvelle demi-vie répétée d'un seau est τˆ = p・τ. De plus, la valeur d'utilité effective b_eff du pool de données combiné à la kième itération est la moyenne pondérée des valeurs d'utilité individuelles. Sa forme mathématique est :
où , c'est le nouveau paramètre de décroissance par seau. Enfin, b_eff dans le théorème ci-dessus peut être utilisé dans l'équation (3) pour estimer la perte lors de l'entraînement sur la combinaison du pool de données. L'équipe a exploré expérimentalement la loi d'expansion nouvellement proposée. La figure 4 montre les courbes d'expansion de divers pools d'utilitaires de données après ajustement, et l'indice d'utilité de données utilisé est le score T-MARS. La colonne 2 de la figure 4 montre que l'utilité de chaque pool de données diminue à mesure que les époques augmentent. Voici quelques observations clés de l'équipe : 1. Les données du réseau sont hétérogènes et ne peuvent pas être modélisées par un seul ensemble de paramètres étendus. 2. Différents pools de données ont une diversité de données différente. 3. L'effet de données de haute qualité avec des phénomènes répétés ne peut pas suivre l'utilisation directe de données de mauvaise qualité. Les paramètres correspondants a, b, d, τ ont été déduits précédemment pour des pools de données de différentes qualités. L'objectif ici est de déterminer quelle est la stratégie de gestion des données la plus efficace compte tenu d'un budget de calcul de formation. Grâce au théorème précédent et aux paramètres d'expansion de chaque pool de données, la loi d'expansion de différentes combinaisons de pools peut désormais être estimée. Par exemple, le pool Top-20 % peut être considéré comme une combinaison des pools Top-10 % et Top 10 %-20 %. Cette tendance de la courbe d'expansion peut ensuite être utilisée pour prédire une stratégie de filtrage de données Pareto-optimale pour un budget de calcul donné. La figure 5 donne les courbes d'expansion pour différentes combinaisons de données, qui sont évaluées sur ImageNet. Il convient de souligner ici que ces courbes sont estimées directement à partir des paramètres d'expansion de chaque pool de composants sur la base du théorème ci-dessus. Ils ne se sont pas entraînés sur ces combinaisons de pools de données pour estimer ces courbes d'expansion. Les points de dispersion représentent les performances réelles des tests et servent à vérifier les résultats estimés. On peut voir que : (1) Une stratégie de filtrage agressif est la meilleure lorsque le budget de calcul est faible/le nombre de répétitions est faible. (2) La compilation des données ne peut se faire sans calcul. Élargir la courbe d'expansion En 2023, l'article de Cherti et al. "Lois d'échelle reproductibles pour l'apprentissage contrastif langage-image" a étudié la loi d'expansion proposée pour le modèle CLIP, qui a formé le calcul Il existe des dizaines de modèles dont la taille varie de 3B à 34B, et les modèles couvrent différents modèles de la série ViT. Les modèles de formation à cette échelle de calcul sont très coûteux. Cherti et al. (2023) visaient à ajuster les lois d'expansion pour cette famille de modèles, mais les courbes d'expansion des modèles formés sur de petits ensembles de données comportaient de nombreuses erreurs. L'équipe CMU estime que cela est principalement dû au fait qu'elle n'a pas pris en compte la réduction d'utilité causée par la réutilisation des données. Ils ont donc estimé les erreurs de ces modèles en utilisant la nouvelle loi d’expansion proposée. La figure 6 est la courbe développée après correction, qui peut prédire les erreurs avec une grande précision. Cela montre que la loi d'expansion nouvellement proposée convient aux grands modèles entraînés avec des calculs de données 34B, ce qui montre que la nouvelle loi d'expansion peut en effet prendre en compte la réduction de l'utilité des données répétées lors de la prédiction des résultats de l'entraînement du modèle. . Veuillez vous référer à l'article original pour plus de détails techniques et de résultats expérimentaux. Filtrage des données sous un certain budget informatique
La loi d'expansion du filtrage des données
Ajustement des courbes d'expansion pour divers pools d'utilitaires de données
Résultats : Estimation des lois d'expansion pour les combinaisons de données sous QQT
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!