La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com
Cette étude évalue l'apprentissage contextuel multi-échantillons d'un modèle de base multimodal avancé sur 10 ensembles de données, révélant des améliorations durables des performances. Les requêtes par lots réduisent considérablement la latence par exemple et le coût d'inférence sans sacrifier les performances. Ces résultats montrent que : L'exploitation d'un large éventail d'exemples de démonstration permet une adaptation rapide à de nouvelles tâches et de nouveaux domaines sans ajustement traditionnel.
- Adresse papier : https://arxiv.org/abs/2405.09798
- Adresse code : https://github.com/stanfordmlgroup/ManyICL
Retour introduction au sol Dans des recherches récentes sur le modèle de base multimodal, l'apprentissage en contexte (ICL) s'est avéré être l'une des méthodes efficaces pour améliorer les performances du modèle. Cependant, limitées par la longueur du contexte du modèle de base, en particulier pour les modèles de base multimodaux qui nécessitent un grand nombre de jetons visuels pour représenter les images, les recherches connexes existantes se limitent uniquement à fournir un petit nombre d'échantillons dans le contexte. Fait intéressant, les progrès technologiques récents ont considérablement augmenté la longueur du contexte des modèles, ce qui ouvre la possibilité d'explorer l'apprentissage contextuel à l'aide de davantage d'exemples. Sur cette base, la dernière recherche de l'équipe de Stanford Ng - ManyICL, évalue principalement le modèle de base multimodal de pointe actuel dans l'apprentissage contextuel de quelques échantillons (moins de 100) à plusieurs échantillons (jusqu'à 2000) Performances en . En testant des ensembles de données provenant de plusieurs domaines et tâches, l'équipe a vérifié l'effet significatif de l'apprentissage contextuel multi-échantillons sur l'amélioration des performances du modèle et a exploré l'impact des requêtes par lots sur les performances, les coûts et la latence. Comparaison de l'ICL à plusieurs tirs et de l'ICL à échantillon nul et à quelques échantillons. Trois modèles de base multimodaux avancés ont été sélectionnés pour cette étude : GPT-4o, GPT4 (V)-Turbo et Gemini 1.5 Pro. En raison des performances supérieures de GPT-4o, l'équipe de recherche se concentre sur GPT-4o et Gemini 1.5 Pro dans le texte principal. Veuillez consulter le contenu pertinent de GPT4 (V)-Turbo en annexe. En termes d'ensembles de données, l'équipe de recherche a mené des expériences sur 10 ensembles de données couvrant différents domaines (y compris l'imagerie naturelle, l'imagerie médicale, l'imagerie de télédétection et l'imagerie moléculaire, etc.) et des tâches (y compris la classification multi-étiquettes, la classification multi-étiquettes). et classification à grain fin) Expérimentation approfondie.
Résumé de l'ensemble de données de référence.
Pour tester l'impact de l'augmentation du nombre d'exemples sur les performances du modèle, l'équipe de recherche a progressivement augmenté le nombre d'exemples fournis dans le contexte, jusqu'à près de 2 000 exemples. Dans le même temps, compte tenu du coût élevé et de la latence élevée de l’apprentissage multi-échantillons, l’équipe de recherche a également exploré l’impact du traitement par lots des requêtes. Ici, la requête par lots fait référence au traitement de plusieurs requêtes en un seul appel API. Évaluation des performances d'apprentissage contextuel multi-échantillons : L'apprentissage contextuel multi-échantillons avec près de 2000 exemples surpasse tous les ensembles de données s Apprentissage en quelques étapes . Les performances du modèle Gemini 1.5 Pro montrent une amélioration log-linéaire constante à mesure que le nombre d'exemples augmente, tandis que les performances de GPT-4o sont moins stables.
Efficacité des données : L'étude a mesuré l'efficacité des données d'apprentissage contextuelle du modèle, c'est-à-dire la rapidité avec laquelle le modèle apprend à partir d'exemples. Les résultats montrent que Gemini 1.5 Pro présente une efficacité d'apprentissage des données contextuelles plus élevée que GPT-4o sur la plupart des ensembles de données, ce qui signifie qu'il peut apprendre plus efficacement à partir d'exemples. "Impact des requêtes par lots" Il convient de noter que dans le scénario zéro-shot, une seule requête fonctionne mal sur de nombreux ensembles de données. En revanche, les requêtes par lots peuvent même améliorer les performances.
Amélioration des performances dans un scénario sans échantillon : pour certains ensembles de données (tels que UCMerced), la requête par lots améliore considérablement les performances dans un scénario sans échantillon. L'équipe de recherche a analysé que cela est principalement dû à l'étalonnage de domaine, à l'étalonnage de classe et à l'auto-apprentissage (auto-ICL). Analyse des coûts et de la latence Apprentissage contextuel multi-échantillons Bien qu'un contexte d'entrée plus long doive être traité pendant l'inférence, la latence et le coût d'inférence de chaque exemple peuvent être considérablement réduits par des requêtes par lots. Par exemple, sur l'ensemble de données HAM10000, en utilisant le modèle Gemini 1.5 Pro pour une requête par lots de 350 exemples, la latence est passée de 17,3 secondes à 0,54 seconde et le coût est passé de 0,842 USD à 0,0877 USD par exemple.
Conclusion
Les résultats de la recherche montrent que l'apprentissage contextuel multi-échantillons peut améliorer considérablement les performances des modèles de base multimodaux, en particulier le modèle Gemini 1.5 Pro montre une amélioration continue des performances sur plusieurs ensembles de données, lui permettant de s'adapter plus efficacement à de nouvelles tâches et domaines sans avoir besoin d'un réglage fin traditionnel.
Deuxièmement, le traitement par lots des requêtes peut réduire le coût d'inférence et la latence tout en obtenant des performances de modèle similaires, voire meilleures, montrant un grand potentiel dans les applications pratiques.
De manière générale, ces recherches de l’équipe d’Andrew Ng ouvrent une nouvelle voie pour l’application de modèles de base multimodaux, notamment en termes d’adaptation rapide à de nouvelles tâches et domaines. Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!