Table des matières
Aperçu de la méthode : Le secret de la construction de MM1
Modèle final et méthode d'entraînement
Résultats de réglage fin supervisé
Maison Périphériques technologiques IA Le grand modèle MM1 d'Apple arrive sur le marché : 30 milliards de paramètres, multimodal, architecture MoE, plus de la moitié des auteurs sont chinois

Le grand modèle MM1 d'Apple arrive sur le marché : 30 milliards de paramètres, multimodal, architecture MoE, plus de la moitié des auteurs sont chinois

Mar 15, 2024 pm 02:43 PM
ai 模型 arrangement

Depuis cette année, Apple a évidemment accru l'accent et ses investissements dans l'intelligence artificielle générative (GenAI). Lors de la récente assemblée des actionnaires d'Apple, le PDG d'Apple, Tim Cook, a déclaré que la société prévoyait de réaliser des progrès significatifs dans le domaine de GenAI cette année. En outre, Apple a annoncé qu'elle abandonnait son projet de construction automobile de 10 ans, ce qui a amené certains membres de l'équipe initialement engagés dans la construction automobile à se tourner vers le domaine GenAI.

À travers ces initiatives, Apple a démontré au monde extérieur sa détermination à renforcer GenAI. Actuellement, la technologie GenAI et les produits dans le domaine multimodal ont attiré beaucoup d’attention, en particulier Sora d’OpenAI. Apple espère naturellement faire une percée dans ce domaine.

Dans un article de recherche co-écrit "MM1 : Méthodes, analyses et informations sur la pré-formation multimodale LLM", Apple a divulgué les résultats de ses recherches basées sur la pré-formation multimodale et a lancé une bibliothèque contenant jusqu'à 30 milliards de séries LLM multimodales paramétriques. modèle.

Le grand modèle MM1 dApple arrive sur le marché : 30 milliards de paramètres, multimodal, architecture MoE, plus de la moitié des auteurs sont chinois

Adresse papier : https://arxiv.org/pdf/2403.09611.pdf

Dans la recherche, l'équipe a mené une discussion approfondie sur la criticité des différents composants architecturaux et la sélection des données. Grâce à une sélection minutieuse d'encodeurs d'images, de connecteurs de langage visuel et de diverses données de pré-formation, ils ont résumé quelques directives de conception importantes. Plus précisément, les principales contributions de cette étude comprennent les aspects suivants.

Tout d'abord, les chercheurs ont mené des expériences d'ablation à petite échelle sur les décisions d'architecture des modèles et la sélection des données de pré-entraînement, et ont découvert plusieurs tendances intéressantes. L'importance des aspects de conception de la modélisation est dans l'ordre suivant : résolution de l'image, perte et capacité de l'encodeur visuel et données de pré-entraînement de l'encodeur visuel.

Deuxièmement, les chercheurs ont utilisé trois types différents de données de pré-entraînement : les légendes d'images, le texte d'image entrelacé et les données en texte brut. Ils ont constaté que lorsqu'il s'agit de performances en quelques plans et en texte uniquement, les données d'entraînement entrelacées et en texte uniquement sont très importantes, tandis que pour les performances en plans zéro, les données de sous-titres sont les plus importantes. Ces tendances persistent après un réglage fin supervisé (SFT), indiquant que les décisions de performance et de modélisation présentées lors de la pré-formation sont préservées après un réglage fin.

Enfin, les chercheurs ont construit MM1, une série de modèles multimodaux avec des paramètres allant jusqu'à 30 milliards (d'autres sont 3 milliards et 7 milliards), qui se compose de modèles denses et de variantes d'experts mixtes (MoE). atteindre SOTA dans les mesures de pré-formation, il maintient également des performances compétitives après un réglage fin supervisé sur une série de références multimodales existantes.

Le modèle pré-entraîné MM1 fonctionne de manière supérieure sur les sous-titres et les tâches de questions et réponses dans des scénarios à quelques plans, surpassant Emu2, Flamingo et IDEFICS. MM1, après réglage fin supervisé, montre également une forte compétitivité sur 12 benchmarks multimodaux.

Grâce à un pré-entraînement multimodal à grande échelle, MM1 a de bonnes performances en prédiction de contexte, en raisonnement multi-images et en chaîne de pensée. De même, MM1 démontre de solides capacités d’apprentissage en quelques coups après le réglage des instructions.

Le grand modèle MM1 dApple arrive sur le marché : 30 milliards de paramètres, multimodal, architecture MoE, plus de la moitié des auteurs sont chinois

Le grand modèle MM1 dApple arrive sur le marché : 30 milliards de paramètres, multimodal, architecture MoE, plus de la moitié des auteurs sont chinois

Aperçu de la méthode : Le secret de la construction de MM1

Construire un MLLM (Multimodal Large Language Model) hautes performances est une tâche très pratique. Bien que la conception de l'architecture de haut niveau et le processus de formation soient clairs, les méthodes spécifiques de mise en œuvre ne sont pas toujours évidentes. Dans ces travaux, les chercheurs décrivent en détail les ablations réalisées pour construire des modèles performants. Ils ont exploré trois principales orientations décisionnelles en matière de conception :

  • Architecture : les chercheurs ont examiné différents encodeurs d'images pré-entraînés et ont exploré diverses méthodes de connexion des LLM avec ces encodeurs.
  • Données : Les chercheurs ont examiné différents types de données et leurs poids de mélange relatifs.
  • Procédure de formation : les chercheurs ont exploré comment entraîner le MLLM, y compris les hyperparamètres et quelles parties du modèle ont été entraînées à quel moment.

Paramètres d'ablation

Étant donné que la formation d'un grand MLLM consomme beaucoup de ressources, les chercheurs ont adopté des paramètres d'ablation simplifiés. La configuration de base de l'ablation est la suivante :

  • Encodeur d'image : modèle ViT-L/14 entraîné avec perte CLIP sur DFN-5B et VeCap-300M ; la taille de l'image est de 336 × 336.
  • Connecteur de langage visuel : C-Abstractor, contenant 144 jetons d'image.
  • Données de pré-formation : images de sous-titres mixtes (45%), documents de texte image entrelacés (45%) et données en texte brut (10%).
  • Modèle de langage : modèle de langage de décodeur de transformateur 1.2B.

Pour évaluer différentes décisions de conception, les chercheurs ont utilisé les performances de zéro plan et de quelques plans (4 et 8 échantillons) sur diverses tâches VQA et de description d'image : COCO Captioning, NoCaps, TextCaps, VQAv2, TextVQA, VizWiz, GQA. et OK-VQA.

Expérience d'ablation d'architecture de modèle

Les chercheurs ont analysé les composants qui permettent à LLM de traiter les données visuelles. Plus précisément, ils ont étudié (1) comment pré-entraîner de manière optimale les encodeurs visuels et (2) comment connecter les caractéristiques visuelles à l'espace des LLM (voir Figure 3 à gauche).

Le grand modèle MM1 dApple arrive sur le marché : 30 milliards de paramètres, multimodal, architecture MoE, plus de la moitié des auteurs sont chinois

  • Pré-formation encodeur d'image. Dans ce processus, les chercheurs ont principalement éliminé l’importance de la résolution d’image et des objectifs de pré-formation de l’encodeur d’image. Il convient de noter que contrairement à d’autres expériences d’ablation, les chercheurs ont utilisé 2,9 milliards de LLM (au lieu de 1,2 milliards) pour garantir une capacité suffisante pour utiliser certains encodeurs d’images plus grands.
  • Expérience de l'encodeur : la résolution de l'image a le plus grand impact, suivie par la taille du modèle et la composition des données d'entraînement. Comme le montre le tableau 1, l'augmentation de la résolution de l'image de 224 à 336 améliore toutes les mesures pour toutes les architectures d'environ 3 %. L'augmentation de la taille du modèle de ViT-L à ViT-H double les paramètres, mais le gain de performances est modeste, généralement inférieur à 1 %. Enfin, l'ajout de VeCap-300M, un ensemble de données de sous-titres synthétiques, améliore les performances de plus de 1 % dans des scénarios comportant quelques prises de vue.

Le grand modèle MM1 dApple arrive sur le marché : 30 milliards de paramètres, multimodal, architecture MoE, plus de la moitié des auteurs sont chinois

  • Connecteurs de langage visuel et résolution d'image. Le but de ce composant est de transformer les représentations visuelles en espace LLM. Étant donné que l'encodeur d'image est ViT, sa sortie est soit une intégration unique, soit un ensemble d'intégrations disposées en grille correspondant aux segments d'image d'entrée. Par conséquent, la disposition spatiale des jetons d’image doit être convertie en disposition séquentielle du LLM. Dans le même temps, la représentation réelle du jeton d’image doit également être mappée à l’espace d’incorporation de mots.
  • Expérience du connecteur VL : le nombre de jetons visuels et la résolution de l'image sont les plus importants, tandis que le type de connecteur VL a peu d'impact. Comme le montre la figure 4, à mesure que le nombre de jetons visuels ou/et la résolution de l'image augmente, les taux de reconnaissance de zéro échantillon et de quelques échantillons augmenteront.

Le grand modèle MM1 dApple arrive sur le marché : 30 milliards de paramètres, multimodal, architecture MoE, plus de la moitié des auteurs sont chinois

Expérience d'ablation de données de pré-entraînement

Généralement, la formation du modèle est divisée en deux étapes : la pré-entraînement et le réglage des instructions. La première étape utilise des données à l'échelle du réseau, tandis que la seconde étape utilise des données organisées spécifiques à la mission. Ce qui suit se concentre sur la phase de pré-formation de cet article et détaille la sélection des données par le chercheur (Figure 3 à droite).

Il existe deux types de données couramment utilisées pour entraîner le MLLM : les données de légende constituées de descriptions de paires d'images et de textes et de documents entrelacés image-texte provenant du Web. Le tableau 2 est la liste complète des ensembles de données :

Le grand modèle MM1 dApple arrive sur le marché : 30 milliards de paramètres, multimodal, architecture MoE, plus de la moitié des auteurs sont chinois


  • Expérience des données 1 : les données entrelacées contribuent à améliorer les performances avec quelques échantillons et le texte brut, tandis que les données de sous-titres améliorent les performances sans échantillon. La figure 5a montre les résultats pour différentes combinaisons de données entrelacées et sous-titrées.
  • Expérience de données 2 : les données en texte brut contribuent à améliorer les performances sur quelques échantillons et en texte brut. Comme le montre la figure 5b, la combinaison de données en texte brut et de données de sous-titres améliore les performances en quelques prises de vue.
  • Leçon de données 3 : Mélangez soigneusement les données d'image et de texte pour obtenir les meilleures performances multimodales et préserver de solides performances de texte. La figure 5c tente plusieurs rapports de mélange entre les données d'image (titre et entrelacé) et de texte brut.
  • Expérience de données 4 : Les données synthétiques facilitent l'apprentissage en quelques étapes. Comme le montre la figure 5d, les données synthétiques améliorent considérablement les performances de l'apprentissage en quelques coups, avec des valeurs absolues de 2,4 % et 4 % respectivement.

Le grand modèle MM1 dApple arrive sur le marché : 30 milliards de paramètres, multimodal, architecture MoE, plus de la moitié des auteurs sont chinois

Modèle final et méthode d'entraînement

Les chercheurs ont collecté les résultats d'ablation précédents et déterminé la recette finale du pré-entraînement multimodal MM1 :

  • Encodeur d'image : prise en compte de la résolution de l'image En raison de l'importance du taux, les chercheurs ont utilisé le modèle ViT-H avec une résolution de 378x378px et ont utilisé la cible CLIP pour la pré-formation sur DFN-5B
  • Connecteur de langage visuel : puisque le nombre de jetons visuels est le nombre de jetons visuels ; Le plus important, l'étude L'auteur a utilisé un connecteur VL avec 144 jetons. L'architecture réelle semble être moins importante, et le chercheur a choisi C-Abstract
  • Données : afin de maintenir les performances de l'échantillon zéro et de l'échantillon réduit, le chercheur a utilisé les données soigneusement combinées suivantes : 45 % d'image ; -document texte entrelacé, 45 % de documents image-texte et 10 % de documents texte brut.

Afin d'améliorer les performances du modèle, les chercheurs ont étendu la taille du LLM aux paramètres 3B, 7B et 30B. Tous les modèles ont été entièrement dégelés et pré-entraînés avec une taille de lot de 512 séquences avec une longueur de séquence de 4 096, un maximum de 16 images par séquence et une résolution de 378 × 378. Tous les modèles ont été formés à l'aide du framework AXLearn.

Ils ont effectué une recherche sur grille sur les taux d'apprentissage à petite échelle, 9M, 85M, 302M et 1,2B, en utilisant la régression linéaire dans l'espace logarithmique pour déduire les changements des modèles plus petits aux plus grands (voir Figure 6), le résultat est la prédiction du taux d'apprentissage maximal optimal η étant donné le nombre de paramètres (non intégrés) N :

Le grand modèle MM1 dApple arrive sur le marché : 30 milliards de paramètres, multimodal, architecture MoE, plus de la moitié des auteurs sont chinois

étendu par Mix of Experts (MoE). Lors d'expériences, les chercheurs ont exploré davantage les moyens d'étendre le modèle dense en ajoutant davantage d'experts à la couche FFN du modèle de langage.

Pour convertir un modèle dense en MoE, remplacez simplement le décodeur de langage dense par un décodeur de langage MoE. Pour former MoE, les chercheurs ont utilisé les mêmes hyperparamètres de formation et les mêmes paramètres de formation que Dense Backbone 4, y compris les données de formation et les jetons de formation.

Concernant les résultats de pré-entraînement multimodaux, les chercheurs ont évalué les modèles pré-entraînés sur les tâches de limite supérieure et VQA avec des invites appropriées. Le tableau 3 évalue les résultats avec un échantillon nul et avec quelques échantillons :

Le grand modèle MM1 dApple arrive sur le marché : 30 milliards de paramètres, multimodal, architecture MoE, plus de la moitié des auteurs sont chinois

Résultats de réglage fin supervisé

Enfin, les chercheurs ont introduit l'expérience de réglage fin supervisé (SFT) formée au-dessus des pré-entraînés. modèle.

Ils ont suivi LLaVA-1.5 et LLaVA-NeXT et ont collecté environ 1 million d'échantillons SFT à partir de différents ensembles de données. Étant donné qu’une résolution d’image intuitivement plus élevée conduit à de meilleures performances, les chercheurs ont également adopté la méthode SFT étendue à la haute résolution.

Les résultats du réglage fin supervisé sont les suivants :

Le tableau 4 montre la comparaison avec SOTA, "-Chat" représente le modèle MM1 après réglage fin supervisé.

Tout d'abord, en moyenne, les MM1-3B-Chat et MM1-7B-Chat surpassent tous les modèles répertoriés de même taille. MM1-3B-Chat et MM1-7B-Chat fonctionnent particulièrement bien sur VQAv2, TextVQA, ScienceQA, MMBench et les benchmarks récents (MMMU et MathVista).

Deuxièmement, les chercheurs ont exploré deux modèles MoE : 3B-MoE (64 experts) et 6B-MoE (32 experts). Le modèle MoE d'Apple a obtenu de meilleures performances que le modèle dense dans presque tous les benchmarks. Cela montre l’énorme potentiel d’expansion du ministère de l’Environnement.

Troisièmement, pour le modèle de taille 30B, MM1-30B-Chat fonctionne mieux que Emu2-Chat37B et CogVLM-30B sur TextVQA, SEED et MMMU. MM1 atteint également des performances globales compétitives par rapport à LLaVA-NeXT.

Cependant, LLaVA-NeXT ne prend pas en charge l'inférence multi-images, ni les indices de quelques prises de vue, car chaque image est représentée par 2880 jetons envoyés à LLM, alors que le nombre total de jetons dans MM1 n'est que de 720. Cela limite certaines applications impliquant plusieurs images.

Le grand modèle MM1 dApple arrive sur le marché : 30 milliards de paramètres, multimodal, architecture MoE, plus de la moitié des auteurs sont chinois

La figure 7b montre l'impact de la résolution de l'image d'entrée sur les performances moyennes de la métrique d'évaluation SFT, et la figure 7c montre que les performances du modèle continuent de s'améliorer à mesure que les données de pré-entraînement augmentent.

L'impact de la résolution de l'image. La figure 7b montre l'impact de la résolution de l'image d'entrée sur les performances moyennes de la métrique d'évaluation SFT.

Impact du pré-entraînement : la figure 7c montre qu'à mesure que les données de pré-entraînement augmentent, les performances du modèle continuent de s'améliorer.

Le grand modèle MM1 dApple arrive sur le marché : 30 milliards de paramètres, multimodal, architecture MoE, plus de la moitié des auteurs sont chinois

Pour plus de détails sur la recherche, veuillez vous référer à l'article original.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. Vous avez un jeu croisé?
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Ligne de commande de l'arrêt CentOS Ligne de commande de l'arrêt CentOS Apr 14, 2025 pm 09:12 PM

La commande de fermeture CENTOS est arrêtée et la syntaxe est la fermeture de [options] le temps [informations]. Les options incluent: -H Arrêtez immédiatement le système; -P éteignez l'alimentation après l'arrêt; -r redémarrer; -t temps d'attente. Les temps peuvent être spécifiés comme immédiats (maintenant), minutes (minutes) ou une heure spécifique (HH: mm). Des informations supplémentaires peuvent être affichées dans les messages système.

Quelles sont les méthodes de sauvegarde pour Gitlab sur Centos Quelles sont les méthodes de sauvegarde pour Gitlab sur Centos Apr 14, 2025 pm 05:33 PM

La politique de sauvegarde et de récupération de GitLab dans le système CentOS afin d'assurer la sécurité et la récupérabilité des données, Gitlab on CentOS fournit une variété de méthodes de sauvegarde. Cet article introduira plusieurs méthodes de sauvegarde courantes, paramètres de configuration et processus de récupération en détail pour vous aider à établir une stratégie complète de sauvegarde et de récupération de GitLab. 1. MANUEL BACKUP Utilisez le Gitlab-RakegitLab: Backup: Créer la commande pour exécuter la sauvegarde manuelle. Cette commande sauvegarde des informations clés telles que le référentiel Gitlab, la base de données, les utilisateurs, les groupes d'utilisateurs, les clés et les autorisations. Le fichier de sauvegarde par défaut est stocké dans le répertoire / var / opt / gitlab / backups. Vous pouvez modifier / etc / gitlab

Comment vérifier la configuration de CentOS HDFS Comment vérifier la configuration de CentOS HDFS Apr 14, 2025 pm 07:21 PM

Guide complet pour vérifier la configuration HDFS dans les systèmes CentOS Cet article vous guidera comment vérifier efficacement la configuration et l'état de l'exécution des HDF sur les systèmes CentOS. Les étapes suivantes vous aideront à bien comprendre la configuration et le fonctionnement des HDF. Vérifiez la variable d'environnement Hadoop: Tout d'abord, assurez-vous que la variable d'environnement Hadoop est correctement définie. Dans le terminal, exécutez la commande suivante pour vérifier que Hadoop est installé et configuré correctement: HadoopVersion Check HDFS Fichier de configuration: Le fichier de configuration de base de HDFS est situé dans le répertoire / etc / hadoop / conf / le répertoire, où Core-site.xml et hdfs-site.xml sont cruciaux. utiliser

Comment est la prise en charge du GPU pour Pytorch sur Centos Comment est la prise en charge du GPU pour Pytorch sur Centos Apr 14, 2025 pm 06:48 PM

Activer l'accélération du GPU Pytorch sur le système CentOS nécessite l'installation de versions CUDA, CUDNN et GPU de Pytorch. Les étapes suivantes vous guideront tout au long du processus: CUDA et CUDNN Installation détermineront la compatibilité de la version CUDA: utilisez la commande NVIDIA-SMI pour afficher la version CUDA prise en charge par votre carte graphique NVIDIA. Par exemple, votre carte graphique MX450 peut prendre en charge CUDA11.1 ou plus. Téléchargez et installez Cudatoolkit: visitez le site officiel de Nvidiacudatoolkit et téléchargez et installez la version correspondante selon la version CUDA la plus élevée prise en charge par votre carte graphique. Installez la bibliothèque CUDNN:

Explication détaillée du principe docker Explication détaillée du principe docker Apr 14, 2025 pm 11:57 PM

Docker utilise les fonctionnalités du noyau Linux pour fournir un environnement de fonctionnement d'application efficace et isolé. Son principe de travail est le suivant: 1. Le miroir est utilisé comme modèle en lecture seule, qui contient tout ce dont vous avez besoin pour exécuter l'application; 2. Le Système de fichiers Union (UnionFS) empile plusieurs systèmes de fichiers, ne stockant que les différences, l'économie d'espace et l'accélération; 3. Le démon gère les miroirs et les conteneurs, et le client les utilise pour l'interaction; 4. Les espaces de noms et les CGROUP implémentent l'isolement des conteneurs et les limitations de ressources; 5. Modes de réseau multiples prennent en charge l'interconnexion du conteneur. Ce n'est qu'en comprenant ces concepts principaux que vous pouvez mieux utiliser Docker.

CentOS installe MySQL CentOS installe MySQL Apr 14, 2025 pm 08:09 PM

L'installation de MySQL sur CENTOS implique les étapes suivantes: Ajout de la source MySQL YUM appropriée. Exécutez la commande YUM Install MySQL-Server pour installer le serveur MySQL. Utilisez la commande mysql_secure_installation pour créer des paramètres de sécurité, tels que la définition du mot de passe de l'utilisateur racine. Personnalisez le fichier de configuration MySQL selon les besoins. Écoutez les paramètres MySQL et optimisez les bases de données pour les performances.

CentOS8 redémarre SSH CentOS8 redémarre SSH Apr 14, 2025 pm 09:00 PM

La commande pour redémarrer le service SSH est: SystemCTL Redémarrer SSHD. Étapes détaillées: 1. Accédez au terminal et connectez-vous au serveur; 2. Entrez la commande: SystemCTL Restart SSHD; 3. Vérifiez l'état du service: SystemCTL Status Sshd.

Comment faire fonctionner la formation distribuée de Pytorch sur CentOS Comment faire fonctionner la formation distribuée de Pytorch sur CentOS Apr 14, 2025 pm 06:36 PM

La formation distribuée par Pytorch sur le système CentOS nécessite les étapes suivantes: Installation de Pytorch: La prémisse est que Python et PIP sont installés dans le système CentOS. Selon votre version CUDA, obtenez la commande d'installation appropriée sur le site officiel de Pytorch. Pour la formation du processeur uniquement, vous pouvez utiliser la commande suivante: pipinstalltorchtorchVisionTorChaudio Si vous avez besoin d'une prise en charge du GPU, assurez-vous que la version correspondante de CUDA et CUDNN est installée et utilise la version Pytorch correspondante pour l'installation. Configuration de l'environnement distribué: la formation distribuée nécessite généralement plusieurs machines ou des GPU multiples uniques. Lieu

See all articles