Die Brillanz von SGD bringt die Bedeutung von Deep Learning zum Ausdruck-KI-php.cn

Inhaltsverzeichnis

Genau die richtige Geschichte

Evolutionäre Perspektive

Ein Vorschlag

Heim

Technologie-Peripheriegeräte

Die Brillanz von SGD bringt die Bedeutung von Deep Learning zum Ausdruck

PHPz

Oct 16, 2023 am 08:21 AM

机器学习深度学习

SGD 的光辉，带来深度学习的意义

Hergestellt von Big Data Digest

Im Juli schrieb Naomi Saphra, Postdoktorandin der New York University (NYU), einen Artikel mit dem Titel „Interpretability Creationism“, in dem sie die Beziehung zwischen stochastischem Gradientenabstieg (SGD) und Deep Learning aus evolutionärer Sicht erläuterte . Beziehung, und die Interpretationsperspektive regt zum Nachdenken an.

Zum Beispiel: „Genau wie das menschliche Steißbein haben einige Phänomene während des Modelltrainingsprozesses möglicherweise ihre ursprüngliche Rolle verloren und sind zu einer Existenz geworden, die degenerierten Organen ähnelt.“

„Ob es sich um die Untersuchung des Verhaltens von parasitären Küken oder um die interne Leistung neuronaler Netze handelt.“ Wenn Sie nicht berücksichtigen, wie sich das System entwickelt, wird es schwierig sein, wertvolle Informationen zu unterscheiden. „

Das Folgende ist der Originaltext, der ohne Änderung der ursprünglichen Bedeutung zusammengestellt wurde. Bitte genießen Sie es.

SGD 的光辉，带来深度学习的意义

Vor Jahrhunderten betrachteten Europäer das Vorhandensein von Kuckuckseiern in Nestern als Ehre für nistende Vögel. Denn der nistende Vogel füttert seine „heiligen Gäste“ mit Begeisterung und noch fleißiger als seine eigenen (vertriebenen) Küken, ein Verhalten, das dem Geist christlicher Gastfreundschaft entspricht.

Im Jahr 1859 stellte Charles Darwin die optimistische, kooperative Vorstellung vom Verhalten von Vögeln in Frage, indem er den Finken untersuchte, einen weiteren gelegentlich parasitären Finken.

SGD 的光辉，带来深度学习的意义

Ohne die Rolle des Kuckucks aus evolutionärer Sicht zu betrachten, ist es schwer zu erkennen, dass der nistende Vogel kein großzügiger Besitzer der Kuckucksküken ist, sondern ein unglückliches Opfer.

Wie der Evolutionsbiologe Theodosius Dobzhansky sagte: „Ohne das Licht der Evolution ist nichts in der Biologie verständlich.“

Während der stochastische Gradientenabstieg keine echte Form der biologischen Evolution ist, gibt es viele Ähnlichkeiten dazu die wissenschaftliche Methode in der Biologie, die oft erfordert, den Ursprung des Verhaltens eines Modells zu verstehen.

Ob Sie das Verhalten parasitärer Küken oder die interne Leistung neuronaler Netze untersuchen, es ist schwierig zu unterscheiden, welche Informationen wertvoll sind, ohne zu berücksichtigen, wie sich das System entwickelt.

Daher ist es bei der Analyse eines Modells wichtig, nicht nur auf den Zustand am Ende des Trainings zu achten, sondern auch auf die zahlreichen Zwischenkontrollpunkte während des Trainings. Solche Experimente sind minimal kostspielig, können aber zu aussagekräftigen Erkenntnissen führen, die helfen, das Verhalten des Modells besser zu verstehen und zu erklären.

Genau die richtige Geschichte

Menschen sind kausale Denker und suchen gerne nach kausalen Zusammenhängen zwischen Dingen, auch wenn es an wissenschaftlichen Grundlagen mangelt.

Im Bereich NLP neigen Forscher auch dazu, eine interpretierbare kausale Erklärung für das beobachtete Verhalten zu liefern, aber diese Erklärung enthüllt möglicherweise nicht wirklich das Innenleben des Modells. Beispielsweise könnte man Interpretierbarkeitsartefakten wie syntaktischen Aufmerksamkeitsverteilungen oder selektiven Neuronen große Aufmerksamkeit schenken, aber in Wirklichkeit können wir nicht sicher sein, dass das Modell diese Verhaltensmuster tatsächlich verwendet.

Um dieses Problem zu lösen, kann die kausale Modellierung helfen. Wenn wir versuchen, in bestimmte Merkmale und Muster eines Modells einzugreifen (zu modifizieren oder zu manipulieren), um deren Auswirkungen auf das Verhalten des Modells zu testen, zielt dieser Eingriff möglicherweise nur auf bestimmte offensichtliche, spezifische Verhaltenstypen ab. Mit anderen Worten: Wenn wir versuchen zu verstehen, wie ein Modell bestimmte Merkmale und Muster verwendet, können wir möglicherweise nur einige dieser Verhaltensweisen beobachten und andere potenzielle, weniger offensichtliche Verhaltensweisen ignorieren.

Daher sind wir in der Praxis möglicherweise nur in der Lage, bestimmte Arten kleinerer Eingriffe an bestimmten Einheiten in der Darstellung durchzuführen, wodurch die Interaktionen zwischen Features nicht korrekt wiedergegeben werden.

Wenn wir versuchen, in bestimmte Merkmale und Muster des Modells einzugreifen (zu modifizieren oder zu manipulieren), um ihre Auswirkungen auf das Verhalten des Modells zu testen, können wir Verteilungsverschiebungen einführen. Erhebliche Verteilungsverschiebungen können zu unberechenbarem Verhalten führen. Warum sollten sie also nicht zu falschen Interpretierbarkeitsartefakten führen?

Anmerkung des Übersetzers: Die Verteilungsverschiebung bezieht sich auf den Unterschied zwischen den statistischen Regeln, die das Modell für die Trainingsdaten erstellt, und den Daten nach der Intervention. Dieser Unterschied kann dazu führen, dass sich das Modell nicht an die neue Datenverteilung anpassen kann und daher ein unregelmäßiges Verhalten zeigt.

Glücklicherweise können uns Methoden zur Untersuchung der biologischen Evolution helfen, einige der im Modell erzeugten Phänomene zu verstehen. Genau wie das menschliche Steißbein haben einige Phänomene während des Modelltrainingsprozesses möglicherweise ihre ursprüngliche Rolle verloren und sich in etwas Ähnliches wie ein rudimentäres Organ verwandelt. Einige Phänomene können voneinander abhängig sein, zum Beispiel kann das Auftreten bestimmter Merkmale zu Beginn des Trainings die spätere Entwicklung anderer Merkmale beeinflussen, genauso wie Tiere grundlegende Lichtwahrnehmungsfähigkeiten benötigen, bevor sie komplexe Augen entwickeln können.

Es gibt auch einige Phänomene, die auf die Konkurrenz zwischen Merkmalen zurückzuführen sein können. Beispielsweise verlassen sich Tiere mit starken Geruchsfähigkeiten möglicherweise nicht stark auf das Sehvermögen, sodass ihre Sehfähigkeiten möglicherweise geschwächt sind. Darüber hinaus können einige Phänomene nur Nebenwirkungen des Trainingsprozesses sein, ähnlich wie die Junk-DNA in unserem Genom. Sie nehmen einen großen Teil des Genoms ein, haben jedoch keinen direkten Einfluss auf unser Aussehen und unsere Funktion.

Während des Trainings des Modells können einige ungenutzte Phänomene auftreten, und wir haben viele Theorien, um dieses Phänomen zu erklären. Die Informationsengpass-Hypothese sagt beispielsweise voraus, dass Eingabeinformationen zu Beginn des Trainings gespeichert und dann im Modell komprimiert werden, sodass nur für die Ausgabe relevante Informationen erhalten bleiben. Diese frühen Erinnerungen sind möglicherweise nicht immer nützlich, wenn man unsichtbare Daten verarbeitet, aber sie sind sehr wichtig, um schließlich eine bestimmte Ausgabedarstellung zu lernen.

Wir können auch die Möglichkeit degenerierter Merkmale in Betracht ziehen, da das frühe und späte Verhalten des trainierten Modells sehr unterschiedlich ist. Frühe Modelle waren einfacher. Am Beispiel von Sprachmodellen ähneln frühe Modelle einfachen N-Gramm-Modellen, während spätere Modelle komplexere Sprachmuster ausdrücken können. Diese Vermischung im Trainingsprozess kann Nebenwirkungen haben, die leicht mit einem kritischen Teil des Modelltrainings verwechselt werden können.

Evolutionäre Perspektive

Es ist sehr schwierig, die Lerntendenz eines Modells nur anhand der Funktionen nach dem Training zu verstehen. Laut der Arbeit von Lovering et al. hat die Beobachtung der Leichtigkeit der Merkmalsextraktion zu Beginn des Trainings und die Analyse der Feinabstimmungsdaten einen viel tieferen Einfluss auf das Verständnis der Feinabstimmungsleistung als die bloße Analyse am Ende des Trainings.

Sprachschichtiges Verhalten ist eine typische Erklärung, die auf analytischen statischen Modellen basiert. Es wurde argumentiert, dass Wörter, die in der Satzstruktur nahe beieinander liegen, im Modell näher dargestellt werden, während Wörter, die strukturell weiter voneinander entfernt sind, weiter voneinander entfernt dargestellt werden. Woher wissen wir also, dass das Modell Wörter nach ihrer Nähe in der Satzstruktur gruppiert?

Tatsächlich können wir mit größerer Sicherheit sagen, dass einige Sprachmodelle hierarchisch sind, da frühe Modelle mehr lokale Informationen in Netzwerken mit langem Kurzzeitgedächtnis (LSTM) und Transformern codieren, und wenn diese Abhängigkeiten auf bekannte kurze Komponenten geschichtet werden, können sie Erlernen Sie weiter entfernte Abhängigkeiten leichter.

Bei der Auseinandersetzung mit dem Problem des interpretativen Kreationismus ist ein konkreter Fall aufgetreten. Beim mehrmaligen Trainieren eines Textklassifizierers mit verschiedenen Zufallsstartwerten kann beobachtet werden, dass das Modell in mehrere verschiedene Cluster verteilt ist. Es wurde auch festgestellt, dass das Generalisierungsverhalten eines Modells vorhergesagt werden kann, indem beobachtet wird, wie gut das Modell mit anderen Modellen auf der Verlustoberfläche verbunden ist. Mit anderen Worten: Je nachdem, wo sich der Verlust auf der Oberfläche befindet, kann die Generalisierungsleistung des Modells variieren. Dieses Phänomen hängt möglicherweise mit den während des Trainings verwendeten zufälligen Startwerten zusammen.

Aber kann man das wirklich sagen? Was wäre, wenn ein Cluster tatsächlich einer frühen Phase des Modells entspricht? Wenn ein Cluster tatsächlich nur eine frühe Phase des Modells darstellt, werden diese Modelle möglicherweise irgendwann zu einem Cluster mit besserer Generalisierungsleistung wechseln. Daher deuten die beobachteten Phänomene in diesem Fall lediglich darauf hin, dass einige Feinabstimmungsprozesse langsamer sind als andere.

Es muss gezeigt werden, dass Trainingstrajektorien in ein Becken auf der Verlustoberfläche fallen können, wodurch die Vielfalt des Generalisierungsverhaltens in trainierten Modellen erklärt wird. Tatsächlich wurde nach der Untersuchung mehrerer Kontrollpunkte während des Trainings festgestellt, dass ein Modell im Zentrum eines Clusters während des Trainings stärkere Verbindungen mit anderen Modellen in seinem Cluster aufbaut. Einige Modelle können jedoch immer noch erfolgreich zu einem besseren Cluster wechseln.

SGD 的光辉，带来深度学习的意义

Ein Vorschlag

Für die Beantwortung der Forschungsfrage reicht die bloße Beobachtung des Trainingsprozesses nicht aus. Bei der Suche nach Kausalzusammenhängen ist ein Eingreifen erforderlich. Nehmen wir zum Beispiel Studien zur Antibiotikaresistenz in der Biologie. Forscher müssen Bakterien gezielt Antibiotika aussetzen und können sich nicht auf natürliche Experimente verlassen. Daher bedürfen Aussagen, die auf Beobachtungen der Trainingsdynamik basieren, einer experimentellen Bestätigung.

Nicht alle Aussagen erfordern eine Beobachtung des Trainingsprozesses. In den Augen der alten Menschen hatten viele Organe offensichtliche Funktionen, etwa Augen zum Sehen und das Herz zum Pumpen von Blut. Im Bereich der Verarbeitung natürlicher Sprache (NLP) können wir durch die Analyse statischer Modelle einfache Interpretationen vornehmen, z. B. dass bestimmte Neuronen bei Vorhandensein bestimmter Attribute feuern oder dass bestimmte Arten von Informationen noch im Modell verfügbar sind.

Beobachtungen des Trainingsprozesses können jedoch immer noch die Bedeutung vieler Beobachtungen klären, die in statischen Modellen gemacht wurden. Dies bedeutet, dass zwar nicht alle Probleme eine Beobachtung des Trainingsprozesses erfordern, es jedoch in vielen Fällen hilfreich ist, den Trainingsprozess zu verstehen, um die Beobachtungen zu verstehen.

Der Rat ist einfach: Konzentrieren Sie sich beim Studieren und Analysieren eines trainierten Modells nicht nur auf die Endergebnisse während des Trainingsprozesses. Stattdessen sollte die Analyse während des Trainings auf mehrere Zwischenkontrollpunkte angewendet werden; bei der Feinabstimmung des Modells sollten mehrere Punkte zu Beginn und am Ende des Trainings überprüft werden. Es ist wichtig, Veränderungen im Modellverhalten während des Trainings zu beobachten, was Forschern helfen kann, besser zu verstehen, ob die Modellstrategie sinnvoll ist, und die Modellstrategie zu bewerten, nachdem sie beobachtet haben, was zu Beginn des Trainings passiert.

Referenzlink: https://thegradient.pub/interpretability-creationism/

Das obige ist der detaillierte Inhalt vonDie Brillanz von SGD bringt die Bedeutung von Deep Learning zum Ausdruck. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vor By DDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

3 Wochen vor By DDD

Ersparnis in R.E.P.O. Erklärt (und speichern Dateien)

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassins Creed Shadows - So finden Sie den Schmied und entsperren Sie die Waffen- und Rüstungsanpassung

4 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7563

CakePHP-Tutorial

1385

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

In diesem Artikel erfahren Sie mehr über SHAP: Modellerklärung für maschinelles Lernen Jun 01, 2024 am 10:58 AM

In den Bereichen maschinelles Lernen und Datenwissenschaft stand die Interpretierbarkeit von Modellen schon immer im Fokus von Forschern und Praktikern. Mit der weit verbreiteten Anwendung komplexer Modelle wie Deep Learning und Ensemble-Methoden ist das Verständnis des Entscheidungsprozesses des Modells besonders wichtig geworden. Explainable AI|XAI trägt dazu bei, Vertrauen in maschinelle Lernmodelle aufzubauen, indem es die Transparenz des Modells erhöht. Eine Verbesserung der Modelltransparenz kann durch Methoden wie den weit verbreiteten Einsatz mehrerer komplexer Modelle sowie der Entscheidungsprozesse zur Erläuterung der Modelle erreicht werden. Zu diesen Methoden gehören die Analyse der Merkmalsbedeutung, die Schätzung des Modellvorhersageintervalls, lokale Interpretierbarkeitsalgorithmen usw. Die Merkmalswichtigkeitsanalyse kann den Entscheidungsprozess des Modells erklären, indem sie den Grad des Einflusses des Modells auf die Eingabemerkmale bewertet. Schätzung des Modellvorhersageintervalls

Jenseits von ORB-SLAM3! SL-SLAM: Szenen mit wenig Licht, starkem Jitter und schwacher Textur werden verarbeitet May 30, 2024 am 09:35 AM

Heute diskutieren wir darüber, wie Deep-Learning-Technologie die Leistung von visionbasiertem SLAM (Simultaneous Localization and Mapping) in komplexen Umgebungen verbessern kann. Durch die Kombination von Methoden zur Tiefenmerkmalsextraktion und Tiefenanpassung stellen wir hier ein vielseitiges hybrides visuelles SLAM-System vor, das die Anpassung in anspruchsvollen Szenarien wie schlechten Lichtverhältnissen, dynamischer Beleuchtung, schwach strukturierten Bereichen und starkem Jitter verbessern soll. Unser System unterstützt mehrere Modi, einschließlich erweiterter Monokular-, Stereo-, Monokular-Trägheits- und Stereo-Trägheitskonfigurationen. Darüber hinaus wird analysiert, wie visuelles SLAM mit Deep-Learning-Methoden kombiniert werden kann, um andere Forschungen zu inspirieren. Durch umfangreiche Experimente mit öffentlichen Datensätzen und selbst abgetasteten Daten demonstrieren wir die Überlegenheit von SL-SLAM in Bezug auf Positionierungsgenauigkeit und Tracking-Robustheit.

Identifizieren Sie Über- und Unteranpassung anhand von Lernkurven Apr 29, 2024 pm 06:50 PM

In diesem Artikel wird vorgestellt, wie Überanpassung und Unteranpassung in Modellen für maschinelles Lernen mithilfe von Lernkurven effektiv identifiziert werden können. Unteranpassung und Überanpassung 1. Überanpassung Wenn ein Modell mit den Daten übertrainiert ist, sodass es daraus Rauschen lernt, spricht man von einer Überanpassung des Modells. Ein überangepasstes Modell lernt jedes Beispiel so perfekt, dass es ein unsichtbares/neues Beispiel falsch klassifiziert. Für ein überangepasstes Modell erhalten wir einen perfekten/nahezu perfekten Trainingssatzwert und einen schrecklichen Validierungssatz-/Testwert. Leicht geändert: „Ursache der Überanpassung: Verwenden Sie ein komplexes Modell, um ein einfaches Problem zu lösen und Rauschen aus den Daten zu extrahieren. Weil ein kleiner Datensatz als Trainingssatz möglicherweise nicht die korrekte Darstellung aller Daten darstellt. 2. Unteranpassung Heru.“

Die Entwicklung der künstlichen Intelligenz in der Weltraumforschung und der Siedlungstechnik Apr 29, 2024 pm 03:25 PM

In den 1950er Jahren wurde die künstliche Intelligenz (KI) geboren. Damals entdeckten Forscher, dass Maschinen menschenähnliche Aufgaben wie das Denken ausführen können. Später, in den 1960er Jahren, finanzierte das US-Verteidigungsministerium künstliche Intelligenz und richtete Labore für die weitere Entwicklung ein. Forscher finden Anwendungen für künstliche Intelligenz in vielen Bereichen, etwa bei der Erforschung des Weltraums und beim Überleben in extremen Umgebungen. Unter Weltraumforschung versteht man die Erforschung des Universums, das das gesamte Universum außerhalb der Erde umfasst. Der Weltraum wird als extreme Umgebung eingestuft, da sich seine Bedingungen von denen auf der Erde unterscheiden. Um im Weltraum zu überleben, müssen viele Faktoren berücksichtigt und Vorkehrungen getroffen werden. Wissenschaftler und Forscher glauben, dass die Erforschung des Weltraums und das Verständnis des aktuellen Zustands aller Dinge dazu beitragen können, die Funktionsweise des Universums zu verstehen und sich auf mögliche Umweltkrisen vorzubereiten

Implementierung von Algorithmen für maschinelles Lernen in C++: Häufige Herausforderungen und Lösungen Jun 03, 2024 pm 01:25 PM

Zu den häufigsten Herausforderungen, mit denen Algorithmen für maschinelles Lernen in C++ konfrontiert sind, gehören Speicherverwaltung, Multithreading, Leistungsoptimierung und Wartbarkeit. Zu den Lösungen gehören die Verwendung intelligenter Zeiger, moderner Threading-Bibliotheken, SIMD-Anweisungen und Bibliotheken von Drittanbietern sowie die Einhaltung von Codierungsstilrichtlinien und die Verwendung von Automatisierungstools. Praktische Fälle zeigen, wie man die Eigen-Bibliothek nutzt, um lineare Regressionsalgorithmen zu implementieren, den Speicher effektiv zu verwalten und leistungsstarke Matrixoperationen zu nutzen.

Fünf Schulen des maschinellen Lernens, die Sie nicht kennen Jun 05, 2024 pm 08:51 PM

Maschinelles Lernen ist ein wichtiger Zweig der künstlichen Intelligenz, der Computern die Möglichkeit gibt, aus Daten zu lernen und ihre Fähigkeiten zu verbessern, ohne explizit programmiert zu werden. Maschinelles Lernen hat ein breites Anwendungsspektrum in verschiedenen Bereichen, von der Bilderkennung und der Verarbeitung natürlicher Sprache bis hin zu Empfehlungssystemen und Betrugserkennung, und es verändert unsere Lebensweise. Im Bereich des maschinellen Lernens gibt es viele verschiedene Methoden und Theorien, von denen die fünf einflussreichsten Methoden als „Fünf Schulen des maschinellen Lernens“ bezeichnet werden. Die fünf Hauptschulen sind die symbolische Schule, die konnektionistische Schule, die evolutionäre Schule, die Bayes'sche Schule und die Analogieschule. 1. Der Symbolismus, auch Symbolismus genannt, betont die Verwendung von Symbolen zum logischen Denken und zum Ausdruck von Wissen. Diese Denkrichtung glaubt, dass Lernen ein Prozess der umgekehrten Schlussfolgerung durch das Vorhandene ist

Erklärbare KI: Erklären komplexer KI/ML-Modelle Jun 03, 2024 pm 10:08 PM

Übersetzer |. Rezensiert von Li Rui |. Chonglou Modelle für künstliche Intelligenz (KI) und maschinelles Lernen (ML) werden heutzutage immer komplexer, und die von diesen Modellen erzeugten Ergebnisse sind eine Blackbox, die den Stakeholdern nicht erklärt werden kann. Explainable AI (XAI) zielt darauf ab, dieses Problem zu lösen, indem es Stakeholdern ermöglicht, die Funktionsweise dieser Modelle zu verstehen, sicherzustellen, dass sie verstehen, wie diese Modelle tatsächlich Entscheidungen treffen, und Transparenz in KI-Systemen, Vertrauen und Verantwortlichkeit zur Lösung dieses Problems gewährleistet. In diesem Artikel werden verschiedene Techniken der erklärbaren künstlichen Intelligenz (XAI) untersucht, um ihre zugrunde liegenden Prinzipien zu veranschaulichen. Mehrere Gründe, warum erklärbare KI von entscheidender Bedeutung ist. Vertrauen und Transparenz: Damit KI-Systeme allgemein akzeptiert und vertrauenswürdig sind, müssen Benutzer verstehen, wie Entscheidungen getroffen werden

Ist Flash Attention stabil? Meta und Harvard stellten fest, dass die Gewichtsabweichungen ihrer Modelle um Größenordnungen schwankten May 30, 2024 pm 01:24 PM

MetaFAIR hat sich mit Harvard zusammengetan, um einen neuen Forschungsrahmen zur Optimierung der Datenverzerrung bereitzustellen, die bei der Durchführung groß angelegten maschinellen Lernens entsteht. Es ist bekannt, dass das Training großer Sprachmodelle oft Monate dauert und Hunderte oder sogar Tausende von GPUs verwendet. Am Beispiel des Modells LLaMA270B erfordert das Training insgesamt 1.720.320 GPU-Stunden. Das Training großer Modelle stellt aufgrund des Umfangs und der Komplexität dieser Arbeitsbelastungen einzigartige systemische Herausforderungen dar. In letzter Zeit haben viele Institutionen über Instabilität im Trainingsprozess beim Training generativer SOTA-KI-Modelle berichtet. Diese treten normalerweise in Form von Verlustspitzen auf. Beim PaLM-Modell von Google kam es beispielsweise während des Trainingsprozesses zu Instabilitäten. Numerische Voreingenommenheit ist die Hauptursache für diese Trainingsungenauigkeit.

See all articles