Maison > Périphériques technologiques > IA > le corps du texte

Révélé! Un document de 47 pages démantelant l'intelligence d'Apple, de l'architecture et des données à la formation et à l'optimisation

王林
Libérer: 2024-08-01 03:26:22
original
780 Les gens l'ont consulté

Lors de la Conférence mondiale des développeurs 2024, Apple a lancé Apple Intelligence, un nouveau système intelligent personnalisé capable de fournir des services intelligents pratiques, couvrant iPhone, iPad et Mac, et est profondément intégré dans iOS 18, iPadOS 18 et macOS Sequoia.

Cook a déclaré un jour qu'Apple Intelligence était un nouveau chapitre dans l'innovation d'Apple et changerait la façon dont les utilisateurs utilisent les produits. Il a souligné que l'approche unique d'Apple combine l'intelligence artificielle générative et les informations personnelles des utilisateurs pour fournir des services intelligents véritablement utiles. De plus, Apple Intelligence offre un accès totalement privé et sécurisé aux informations, aidant ainsi les utilisateurs à accomplir ce qui compte le plus pour eux. Il s’agit d’une expérience d’IA unique à Apple.

Maintenant, plus d'un mois s'est écoulé depuis l'annonce officielle d'Apple Intelligence. Cette technologie a enfin été implémentée sur les appareils intelligents, et les documents techniques pertinents ont enfin été publiés.

Au cours de la dernière journée, les utilisateurs possédant un iPhone 15 Pro ou un iPhone 15 Pro Max peuvent télécharger la version bêta de développement d'iOS 18.1 et découvrir les capacités d'Apple Intelligence.

Avec la publication de ce rapport technique de 47 pages, nous pouvons mieux comprendre l'arme secrète derrière Apple Intelligence.

Révélé! Un document de 47 pages démantelant lintelligence dApple, de larchitecture et des données à la formation et à loptimisation

  • Adresse du rapport : https://machinelearning.apple.com/papers/apple_intelligence_foundation_lingual_models.pdf

Le rapport détaille deux des modèles - AFM-on-device, AFM signifie Apple Foundation Model, un modèle de langage avec environ 3 milliards de paramètres et un modèle de langage plus grand basé sur un serveur AFM-server qui peut effectuer des tâches spécialisées de manière efficace, précise et responsable (Figure 1).

Ces deux modèles de base font partie de la plus grande famille de modèles génératifs d’Apple.

Révélé! Un document de 47 pages démantelant lintelligence dApple, de larchitecture et des données à la formation et à loptimisation

Architecture et formation

Le modèle de base AFM est un modèle de décodeur dense construit sur la base de l'architecture Transformer, avec la conception suivante : réduire l'utilisation de la mémoire pour les paramètres.

Utilisez RMSNorm pour la pré-normalisation afin d'améliorer la stabilité de l'entraînement.
  • Requête/normalisation des clés pour améliorer la stabilité de l'entraînement.
  • Grouped Query Attention (GQA) avec 8 en-têtes clé-valeur pour réduire l'empreinte de la mémoire cache KV.
  • SwiGLU activé pour une efficacité accrue.
  • Intégration de la position RoPE, la fréquence de base est réglée sur 500k pour prendre en charge un contexte long.
  • Le processus de pré-formation AFM joue un rôle clé dans le développement de modèles de langage hautes performances pour prendre en charge une gamme de fonctionnalités Apple Intelligence. L'équipe de recherche se concentre sur l'efficacité et la qualité des données pour obtenir une expérience utilisateur de bout en bout de haute qualité.
En termes de post-formation, l'équipe de recherche a constaté que l'amélioration générale de la post-formation peut améliorer les performances de toutes les fonctionnalités d'Apple Intelligence, car le modèle aura une plus grande capacité à suivre les instructions, à raisonner et à écrire.

Révélé! Un document de 47 pages démantelant lintelligence dApple, de larchitecture et des données à la formation et à loptimisationPour garantir que ces fonctions du modèle sont cohérentes avec l’engagement d’Apple à protéger la vie privée des utilisateurs et avec les principes d’IA responsable d’Apple, le travail post-formation comprend une série de collecte et de génération de données, d’ajustement des instructions et d’innovation d’alignement. Le processus post-formation comprend deux étapes : le réglage fin supervisé (SFT) et l'apprentissage par renforcement à partir du feedback humain (RLHF). L'équipe de recherche a proposé deux nouveaux algorithmes post-formation : (1) un algorithme de réglage fin de l'échantillonnage de rejet avec un comité d'enseignants (iTeC) et (2) un algorithme RLHF pour les itérations d'apprentissage par renforcement avec optimisation de la politique de descente miroir ( optimisation de la politique de descente miroir ) et l'estimateur d'avantage sans intervention (MDLOO), améliorant considérablement la qualité du modèle.

Fonctionnalités Apple Intelligence

Le modèle de base est spécialement conçu pour Apple Intelligence, un système d'intelligence personnelle qui prend en charge iPhone, iPad et Mac.

Apple a découvert qu'ils pouvaient améliorer les performances des petits modèles à des niveaux de pointe en les ajustant pour des tâches spécifiques, et en outre, ils ont développé une architecture basée sur des adaptateurs échangeables à l'exécution, permettant un modèle de base unique à spécialiser pour des dizaines de tâches de ce type. La figure 2 montre un aperçu de haut niveau.

Adapter Architecture

Apple utilise des adaptateurs LoRA pour affiner les modèles pour des tâches spécifiques. Pour chaque tâche, nous ajustons toutes les matrices de projection linéaire dans la couche d'auto-attention AFM et les couches entièrement connectées dans le réseau de rétroaction ponctuelle. En ajustant simplement l'adaptateur, les paramètres d'origine du modèle de base pré-entraîné restent inchangés, ce qui permet de préserver les connaissances générales du modèle tout en adaptant l'adaptateur pour prendre en charge des tâches spécifiques.

Quantisation

Pour intégrer l'AFM dans des appareils de pointe avec des budgets de mémoire limités et réduire les coûts d'inférence, des techniques de quantification doivent être envisagées. Des recherches antérieures ont montré que les modèles quantifiés 4 bits subissent de légères pertes par rapport aux modèles bruts à virgule flottante 32/16 bits.

Pour atteindre le meilleur équilibre entre la capacité du modèle et les performances d'inférence, Apple a développé des méthodes de quantification de pointe et un cadre qui exploite des adaptateurs de récupération de précision. Cela permet au modèle d'obtenir une quantification presque sans perte lorsque le poids moyen de chaque poids est inférieur à 4 bits, et offre une sélection flexible du schéma de quantification.

Méthode

Après post-entraînement, le modèle est compressé et quantifié pour obtenir un poids moyen inférieur à 4 bits. Les modèles quantitatifs présentent généralement une perte de qualité modérée. Par conséquent, Apple n'utilisera pas le modèle quantifié directement pour le développement de fonctionnalités, mais attachera un ensemble d'adaptateurs LoRA efficaces en termes de paramètres pour une récupération de qualité.

Il convient de noter que l'adaptateur de récupération de précision d'entraînement est efficace en matière d'échantillons et peut être considéré comme une mini version du modèle de base d'entraînement. Dans la phase de pré-formation de l'adaptateur, seulement environ 10 milliards de jetons (environ 0,15 % de la formation du modèle de base) sont nécessaires pour restaurer pleinement les capacités du modèle quantifié.

Étant donné que les adaptateurs d'application seront affinés à partir de ces adaptateurs de récupération de précision, ils n'entraîneront aucune utilisation de mémoire supplémentaire ni aucun coût d'inférence. Concernant la taille de l'adaptateur, Apple a constaté qu'un rang d'adaptateur de 16 offre le meilleur compromis entre la capacité du modèle et les performances d'inférence.

Cependant, pour plus de flexibilité, Apple propose un ensemble d'adaptateurs de récupération de précision avec différents rangs {8, 16, 32} parmi lesquels les équipes d'application peuvent choisir.

Quantisation de précision mixte

Des connexions résiduelles existent pour chaque bloc de transformateur et chaque couche de l'AFM. Il est donc peu probable que tous les niveaux aient la même importance. Suivant cette intuition, Apple a encore réduit l'utilisation de la mémoire en poussant certaines couches à utiliser une quantification sur 2 bits (la valeur par défaut est de 4 bits). En moyenne, l'AFM sur appareil peut être compressé à seulement 3,5 bits environ par poids (bpw) sans perte de qualité significative.

Évaluation

L'équipe de recherche utilise des outils d'évaluation et des références open source communs pour évaluer le modèle pré-entraîné de l'AFM. Le tableau 2 montre les résultats de l'AFM sur appareil et du serveur AFM sur HELM MMLU v1.5.0.

Révélé! Un document de 47 pages démantelant lintelligence dApple, de larchitecture et des données à la formation et à loptimisation

Ces benchmarks montrent que le modèle pré-entraîné AFM possède de solides capacités de langage et d'inférence, fournissant une base solide pour la post-formation et le réglage fin des fonctionnalités.

Révélé! Un document de 47 pages démantelant lintelligence dApple, de larchitecture et des données à la formation et à loptimisation

Révélé! Un document de 47 pages démantelant lintelligence dApple, de larchitecture et des données à la formation et à loptimisation

Les résultats de comparaison de l'AFM avec des modèles open source (Phi-3, Gemma-1.1, Llama-3, Mistral, DBRX-Instruct) et des modèles commerciaux (GPT3.5 et GPT-4) sont les 3 suivants illustrés. Les modèles AFM sont préférés par les évaluateurs humains par rapport aux autres modèles. En particulier, l'AFM sur appareil a atteint un taux de réussite de 47,7 % par rapport au Phi-3-mini malgré une taille de modèle 25 % plus petite, encore mieux que les bases de référence open source Gemma-7B et Mistral-7B.

Révélé! Un document de 47 pages démantelant lintelligence dApple, de larchitecture et des données à la formation et à loptimisation

Pour mesurer la capacité du modèle à générer des réponses qui suivent les instructions contenues dans les invites, l'équipe de recherche a évalué l'AFM sur appareil et le serveur AFM sur le benchmark IFEval, avec les résultats présentés dans la figure 4 ci-dessous :

Révélé! Un document de 47 pages démantelant lintelligence dApple, de larchitecture et des données à la formation et à loptimisation

Comme le montre la figure 5, le serveur AFM atteint la meilleure précision globale, meilleure que Gemini-1.5-Pro-Preview-0514 et GPT-4.

Révélé! Un document de 47 pages démantelant lintelligence dApple, de larchitecture et des données à la formation et à loptimisation

Apple a comparé l'AFM à certains des meilleurs modèles ainsi qu'à des modèles open source plus petits. Comme le montre la figure 6, l'AFM sur appareil peut atteindre des performances comparables ou supérieures à celles du Gemma-7B et du Mistral-7B. Les performances du serveur AFM sont nettement meilleures que celles de DBRX-Instruct et GPT3.5 et sont comparables à celles de GPT4.

Révélé! Un document de 47 pages démantelant lintelligence dApple, de larchitecture et des données à la formation et à loptimisation

La figure 7 compare les performances de l'AFM post-entraîné sur des repères mathématiques. Il a été constaté que l'AFM sur appareil fonctionnait nettement mieux que Mistral-7B et Gemma-7B, même s'il faisait moins de la moitié de leur taille.

Révélé! Un document de 47 pages démantelant lintelligence dApple, de larchitecture et des données à la formation et à loptimisation

La figure ci-dessous montre des évaluateurs humains évaluant la qualité des adaptateurs AFM sur appareil, Phi-3-mini, Llama-3-8B et Gemma-7B sur la tâche récapitulative. La figure 8 montre que l'adaptateur AFM sur appareil surpasse généralement les autres modèles.

Révélé! Un document de 47 pages démantelant lintelligence dApple, de larchitecture et des données à la formation et à loptimisation

IA responsable

Apple Intelligence est développée et conçue dans le respect de la confidentialité des utilisateurs.

La figure 9 résume les taux de violation donnés par les évaluateurs humains sur différents modèles, le plus bas étant le mieux. L'AFM sur appareil et l'AFM sur serveur sont robustes aux invites contradictoires, avec des taux de violation nettement inférieurs à ceux des modèles open source et commerciaux.

Révélé! Un document de 47 pages démantelant lintelligence dApple, de larchitecture et des données à la formation et à loptimisation

La figure 10 montre que le modèle AFM est préféré par les évaluateurs humains par rapport aux autres modèles.

Révélé! Un document de 47 pages démantelant lintelligence dApple, de larchitecture et des données à la formation et à loptimisation

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:jiqizhixin.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal