Auf der Worldwide Developers Conference 2024 stellte Apple Apple Intelligence vor, ein neues personalisiertes intelligentes System, das praktische intelligente Dienste für iPhone, iPad und Mac bereitstellen kann und tief in iOS 18, iPadOS 18 und macOS Sequoia integriert ist.
Cook sagte einmal, dass Apple Intelligence ein neues Kapitel in der Innovation von Apple sei und die Art und Weise verändern werde, wie Benutzer Produkte nutzen. Er betonte, dass der einzigartige Ansatz von Apple generative künstliche Intelligenz und persönliche Daten der Benutzer kombiniert, um wirklich nützliche intelligente Dienste bereitzustellen. Darüber hinaus bietet Apple Intelligence einen völlig privaten und sicheren Zugriff auf Informationen und hilft Benutzern, das zu erreichen, was ihnen am wichtigsten ist. Dies ist ein KI-Erlebnis, das es nur bei Apple gibt.
Jetzt ist mehr als ein Monat seit der offiziellen Ankündigung von Apple Intelligence vergangen. Diese Technologie wurde endlich auf Smart-Geräten implementiert und die entsprechenden technischen Dokumente wurden endlich veröffentlicht.
Ab dem vergangenen Tag können Benutzer, die ein iPhone 15 Pro oder iPhone 15 Pro Max besitzen, die Entwicklungs-Beta für iOS 18.1 herunterladen und die Funktionen von Apple Intelligence erleben.
Mit der Veröffentlichung dieses 47-seitigen technischen Berichts können wir ein tieferes Verständnis der Geheimwaffe hinter Apple Intelligence erlangen. ?? Apple Foundation Model, ein Sprachmodell mit etwa 3 Milliarden Parametern und ein größeres serverbasiertes Sprachmodell
AFM-Server, das spezielle Aufgaben effizient, genau und verantwortungsbewusst ausführen kann (Abbildung 1).
Diese beiden Basismodelle sind Teil der größeren Familie generativer Modelle von Apple.
Architektur und Schulung
Das AFM-Basismodell ist ein dichtes Decodermodell, das auf der Transformer-Architektur basiert und das folgende Design aufweist:
Einbettungsmatrix für gemeinsame Ein-/Ausgabe Reduzieren Sie die Speichernutzung für Parameter.
Verwenden Sie RMSNorm zur Vornormalisierung, um die Trainingsstabilität zu verbessern.
Abfrage-/Schlüsselnormalisierung zur Verbesserung der Trainingsstabilität. Grouped Query Attention (GQA) mit 8 Schlüsselwert-Headern zur Reduzierung des KV-Cache-Speicherbedarfs.
-
SwiGLU aktiviert für mehr Effizienz.
-
RoPE-Positionseinbettung, die Basisfrequenz ist auf 500.000 eingestellt, um langen Kontext zu unterstützen.
-
Der AFM-Vortrainingsprozess spielt eine Schlüsselrolle bei der Entwicklung leistungsstarker Sprachmodelle zur Unterstützung einer Reihe von Apple Intelligence-Funktionen. Das Forschungsteam konzentriert sich auf Effizienz und Datenqualität, um ein hochwertiges End-to-End-Benutzererlebnis zu erreichen.
- In Bezug auf das Post-Training stellte das Forschungsteam fest, dass eine Verbesserung des allgemeinen Post-Trainings die Leistung aller Apple Intelligence-Funktionen verbessern kann, da das Modell besser in der Lage ist, Anweisungen zu befolgen, zu argumentieren und zu schreiben. Um sicherzustellen, dass diese Modellfunktionen mit der Verpflichtung von Apple zum Schutz der Privatsphäre der Benutzer und den Prinzipien der verantwortungsvollen KI von Apple im Einklang stehen, umfasst die Arbeit nach dem Training eine Reihe von Datenerfassungen und -generierungen, Befehlsanpassungen und Ausrichtungsinnovationen. Der Post-Training-Prozess besteht aus zwei Phasen: Supervised Fine-Tuning (SFT) und Reinforcement Learning from Human Feedback (RLHF). Das Forschungsteam schlug zwei neue Post-Training-Algorithmen vor: (1) einen Feinabstimmungsalgorithmus für Ablehnungsstichproben mit Lehrerausschuss (iTeC) und (2) einen RLHF-Algorithmus für Verstärkungslerniterationen mit Spiegelabstiegsrichtlinienoptimierung (Spiegelabstiegsrichtlinienoptimierung). ) und Leave-One-Out Advantage Estimator (MDLOO), wodurch die Modellqualität erheblich verbessert wird.
-
Apple Intelligence-Funktionen
Das Basismodell wurde speziell für Apple Intelligence entwickelt, ein persönliches Intelligenzsystem, das iPhone, iPad und Mac unterstützt.
Apple hat herausgefunden, dass sie die Leistung kleiner Modelle auf den neuesten Stand der Technik bringen können, indem sie sie für bestimmte Aufgaben optimieren. Darüber hinaus haben sie eine Architektur entwickelt, die auf zur Laufzeit austauschbaren Adaptern basiert und dies ermöglicht ein einziges Basismodell, das auf Dutzende solcher Aufgaben spezialisiert werden kann. Abbildung 2 zeigt eine allgemeine Übersicht. Apple verwendet LoRA-Adapter, um Modelle für bestimmte Aufgaben zu optimieren. Für jede Aufgabe passen wir alle linearen Projektionsmatrizen in der AFM-Selbstaufmerksamkeitsschicht und vollständig verbundenen Schichten im punktweisen Feedforward-Netzwerk an. Durch eine einfache Feinabstimmung des Adapters bleiben die ursprünglichen Parameter des vorab trainierten Basismodells unverändert, sodass das allgemeine Wissen über das Modell erhalten bleibt und gleichzeitig der Adapter an die Unterstützung spezifischer Aufgaben angepasst wird. Um AFM in Edge-Geräte mit begrenztem Speicherbudget zu integrieren und Inferenzkosten zu reduzieren, müssen Quantisierungstechniken in Betracht gezogen werden. Frühere Untersuchungen haben ergeben, dass 4-Bit-quantisierte Modelle im Vergleich zu reinen 32/16-Bit-Gleitkommamodellen nur geringe Verluste erleiden. Um das beste Gleichgewicht zwischen Modellkapazität und Inferenzleistung zu erreichen, hat Apple modernste Quantisierungsmethoden und ein Framework entwickelt, das Genauigkeitswiederherstellungsadapter nutzt. Dies ermöglicht dem Modell eine nahezu verlustfreie Quantisierung, wenn die durchschnittliche Gewichtung jeder Gewichtung weniger als 4 Bits beträgt, und bietet eine flexible Auswahl des Quantisierungsschemas. Nach dem Training wird das Modell komprimiert und quantisiert, um ein durchschnittliches Gewicht von weniger als 4 Bits zu erhalten. Quantitative Modelle weisen typischerweise einen moderaten Qualitätsverlust auf. Daher wird Apple das quantisierte Modell nicht direkt für die Funktionsentwicklung verwenden, sondern eine Reihe Parameter-effizienter LoRA-Adapter zur Qualitätswiederherstellung hinzufügen. Es ist erwähnenswert, dass der Trainingsgenauigkeits-Wiederherstellungsadapter probeneffizient ist und als Miniversion des Trainingsbasismodells betrachtet werden kann. In der Vortrainingsphase des Adapters sind nur etwa 10 Milliarden Token (etwa 0,15 % des Basismodelltrainings) erforderlich, um die Fähigkeiten des quantisierten Modells vollständig wiederherzustellen. Da die Anwendungsadapter anhand dieser Genauigkeitswiederherstellungsadapter fein abgestimmt werden, fallen für sie keine zusätzliche Speichernutzung oder Inferenzkosten an. Hinsichtlich der Adaptergröße hat Apple herausgefunden, dass ein Adapterrang von 16 den besten Kompromiss zwischen Modellkapazität und Inferenzleistung bietet. Aus Gründen der Flexibilität stellt Apple jedoch eine Reihe von Genauigkeitswiederherstellungsadaptern mit unterschiedlichen Rängen {8, 16, 32} zur Auswahl, aus denen Anwendungsteams wählen können. Quantisierung mit gemischter Präzision Restverbindungen existieren für jeden Transformatorblock und jede Schicht in AFM. Daher ist es unwahrscheinlich, dass alle Schichten gleich wichtig sind. Dieser Intuition folgend reduzierte Apple die Speichernutzung weiter, indem es bestimmte Ebenen dazu drängte, die 2-Bit-Quantisierung zu verwenden (der Standardwert ist 4-Bit). Im Durchschnitt kann AFM-on-Device ohne nennenswerten Qualitätsverlust auf nur etwa 3,5 Bits pro Gewicht (bpw) komprimieren. Das Forschungsteam verwendet gängige Open-Source-Bewertungstools und Benchmarks, um das vorab trainierte AFM-Modell zu bewerten. Tabelle 2 zeigt die Ergebnisse von AFM-on-device und AFM-server auf HELM MMLU v1.5.0.
Diese Benchmarks zeigen, dass das vorab trainierte AFM-Modell über starke Sprach- und Inferenzfähigkeiten verfügt und eine solide Grundlage für die Feinabstimmung der Funktionen nach dem Training bietet.
Die Vergleichsergebnisse von AFM mit Open-Source-Modellen (Phi-3, Gemma-1.1, Llama-3, Mistral, DBRX-Instruct) und kommerziellen Modellen (GPT3.5 und GPT-4) sind wie folgt in 3 dargestellt. AFM-Modelle werden von menschlichen Bewertern gegenüber anderen Modellen bevorzugt. Insbesondere erreichte AFM-on-Device trotz einer um 25 % kleineren Modellgröße eine Gewinnrate von 47,7 % im Vergleich zu Phi-3-mini, sogar besser als die Open-Source-starken Basislinien Gemma-7B und Mistral-7B.
Um die Fähigkeit des Modells zu messen, Antworten zu generieren, die den Anweisungen in Eingabeaufforderungen folgen, bewertete das Forschungsteam AFM-on-Device und AFM-Server anhand des IFEval-Benchmarks. Die Ergebnisse sind in Abbildung 4 unten dargestellt:
Wie in Abbildung 5 gezeigt, erreicht der AFM-Server die beste Gesamtgenauigkeit, besser als Gemini-1.5-Pro-Preview-0514 und GPT-4.
Apple hat AFM mit einigen der besten Modelle sowie kleineren Open-Source-Modellen verglichen. Wie in Abbildung 6 dargestellt, kann AFM-on-Device im Vergleich zu Gemma-7B und Mistral-7B eine vergleichbare oder bessere Leistung erzielen. Die Leistung des AFM-Servers ist deutlich besser als die von DBRX-Instruct und GPT3.5 und mit GPT4 vergleichbar.
Abbildung 7 vergleicht die Leistung von nachtrainiertem AFM anhand mathematischer Benchmarks. Es wurde festgestellt, dass AFM-on-Device deutlich besser abschnitt als Mistral-7B und Gemma-7B, obwohl es weniger als halb so groß war.
Die Abbildung unten zeigt menschliche Bewerter, die die Qualität der AFM-on-Device-Adapter Phi-3-mini, Llama-3-8B und Gemma-7B anhand der Zusammenfassungsaufgabe bewerten. Abbildung 8 zeigt, dass der AFM-on-Device-Adapter im Allgemeinen andere Modelle übertrifft.
Apple Intelligence wurde unter Berücksichtigung der Privatsphäre der Benutzer entwickelt und gestaltet. Abbildung 9 fasst die Verstoßraten zusammen, die von menschlichen Bewertern für verschiedene Modelle angegeben wurden. Je niedriger, desto besser. Sowohl AFM-on-Device als auch AFM-Server sind robust gegenüber gegnerischen Eingabeaufforderungen und weisen deutlich geringere Verstoßraten als Open-Source- und kommerzielle Modelle auf.
Abbildung 10 zeigt, dass das AFM-Modell von menschlichen Bewertern im Vergleich zu anderen Modellen bevorzugt wird. Das obige ist der detaillierte Inhalt vonEnthüllt! Ein 47-seitiges Dokument, das die Intelligenz von Apple zerlegt, von Architektur und Daten bis hin zu Schulung und Optimierung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!