Inhaltsverzeichnis
LP-Norm
Die L2-Norm ist die euklidische Distanz. Die Formel lautet wie folgt:
Dropout
Batch-Normalisierung
Normalisierung, Standardisierung und Regularisierung
Der Unterschied zwischen Normalisierung und Standardisierung:
Warum Standardisierung und Normalisierung?
Heim Technologie-Peripheriegeräte KI Grundlagen des maschinellen Lernens: Wie kann eine Überanpassung verhindert werden?

Grundlagen des maschinellen Lernens: Wie kann eine Überanpassung verhindert werden?

Apr 13, 2023 pm 06:37 PM
机器学习 算法 深度学习

Tatsächlich ist das Wesen der Regularisierung sehr einfach. Es handelt sich um ein Mittel oder eine Operation, die einem bestimmten Problem a priori Einschränkungen oder Einschränkungen auferlegt, um einen bestimmten Zweck zu erreichen. Der Zweck der Verwendung der Regularisierung in einem Algorithmus besteht darin, eine Überanpassung des Modells zu verhindern. Wenn es um die Regularisierung geht, denken viele Schüler möglicherweise sofort an die häufig verwendete L1-Norm und die L2-Norm. Bevor wir zusammenfassen, werfen wir zunächst einen Blick auf die LP-Norm.

LP-Norm

Norm kann einfach so verstanden werden, dass sie zur Darstellung des Abstands im Vektorraum verwendet wird, und die Definition des Abstands ist sehr abstrakt, solange sie nicht negativ erfüllt, reflexiv und trigonometrisch Die Ungleichung kann als Distanz bezeichnet werden.

LP-Norm ist keine Norm, sondern eine Reihe von Normen, die wie folgt definiert ist:

Grundlagen des maschinellen Lernens: Wie kann eine Überanpassung verhindert werden?

Der Bereich von p ist [1,∞). p ist im Bereich von (0,1) nicht als Norm definiert, da es die Dreiecksungleichung verletzt.

Entsprechend der Änderung von pp weist die Norm auch unterschiedliche Änderungen auf. Ein klassisches Änderungsdiagramm der P-Norm wie folgt:

Grundlagen des maschinellen Lernens: Wie kann eine Überanpassung verhindert werden?

# 🎜🎜#Die obige Abbildung zeigt die Änderung der Einheitskugel, wenn p von 0 auf positiv unendlich wechselt. Die unter der P-Norm definierte Einheitskugel ist eine konvexe Menge, aber wenn 0

Dann stellt sich die Frage: Was ist die L0-Norm? Die L0-Norm stellt die Anzahl der Nicht-Null-Elemente im Vektor dar und wird wie folgt ausgedrückt:

Grundlagen des maschinellen Lernens: Wie kann eine Überanpassung verhindert werden?

Wir können das Minimum finden, indem wir die L0-Norm optimal minimieren spärliche Funktionselemente. Aber leider ist das Optimierungsproblem der L0-Norm ein NP-schweres Problem (L0-Norm ist auch nicht konvex). Daher führen wir in praktischen Anwendungen häufig eine konvexe Entspannung von L0 durch. Es ist theoretisch bewiesen, dass die L1-Norm die optimale konvexe Näherung der L0-Norm ist, sodass normalerweise die L1-Norm verwendet wird, anstatt die L0-Norm direkt zu optimieren.

L1-Norm

Gemäß der Definition der LP-Norm können wir leicht die mathematische Form der L1-Norm erhalten:

#🎜 🎜#Grundlagen des maschinellen Lernens: Wie kann eine Überanpassung verhindert werden?Wie Sie der obigen Formel entnehmen können, ist die L1-Norm die Summe der Absolutwerte jedes Elements des Vektors, auch bekannt als „Sparse-Regeloperator“ (Lasso-Regularisierung). Die Frage ist also: Warum wollen wir eine Sparsifizierung? Die Sparsifizierung hat viele Vorteile, die beiden direktesten sind:

Feature-Auswahl
  • Interpretierbarkeit
  • L2 Die Norm

Die L2-Norm ist die euklidische Distanz. Die Formel lautet wie folgt:

Die L2-Norm hat viele Namen. Manche nennen ihre Regression „Ridge-Regression“, während andere sie „Weight Decay“ nennen. Durch die Verwendung der L2-Norm als Regularisierungsterm kann eine dichte Lösung erhalten werden, d Die Berücksichtigung des Trainingssatzes führt zu einer Überanpassung und verbessert dadurch die Generalisierungsfähigkeit des Modells. Grundlagen des maschinellen Lernens: Wie kann eine Überanpassung verhindert werden?

Der Unterschied zwischen L1-Norm und L2-Norm

Einführung eines klassischen PRML-Diagramms zur Veranschaulichung des Unterschieds zwischen L1- und L2-Normen, wie in der folgenden Abbildung dargestellt: #🎜🎜 #

Grundlagen des maschinellen Lernens: Wie kann eine Überanpassung verhindert werden?

Wie in der Abbildung oben dargestellt, stellt der blaue Kreis den möglichen Lösungsbereich des Problems und der orangefarbene Kreis den möglichen Lösungsbereich des Problems dar reguläre Amtszeit. Die gesamte Zielfunktion (ursprüngliches Problem + regulärer Term) hat genau dann eine Lösung, wenn die beiden Lösungsbereiche tangential sind. Aus der obigen Abbildung ist leicht ersichtlich, dass der Tangentenpunkt höchstwahrscheinlich nicht auf der Koordinatenachse liegt, da der Lösungsbereich der L2-Norm ein Kreis ist, und dass der Tangentenpunkt der L1-Norm eine Raute ist (der Scheitelpunkt ist konvex). Der Tangentenpunkt liegt eher auf der Koordinatenachse, und der Punkt auf der Koordinatenachse weist die Eigenschaft auf, dass nur eine Koordinatenkomponente ungleich Null ist und die anderen Koordinatenkomponenten Null sind, dh spärlich vorhanden sind. Daraus ergibt sich die folgende Schlussfolgerung: Die L1-Norm kann zu spärlichen Lösungen führen und die L2-Norm kann zu dichten Lösungen führen.

Aus bayesianischer Sicht reicht es beim Training eines Modells nicht aus, sich ausschließlich auf den aktuellen Trainingsdatensatz zu verlassen. Um bessere Generalisierungsfähigkeiten zu erreichen, ist es häufig erforderlich, vorherige Terme hinzuzufügen, und das Hinzufügen regulärer Terme ist gleichbedeutend mit A priori wurde hinzugefügt.

  • L1-Norm entspricht dem Hinzufügen eines Laplaceschen Priors.
  • L2-Norm entspricht dem Hinzufügen eines Gaußschen Priors.

Wie in der folgenden Abbildung gezeigt:

Grundlagen des maschinellen Lernens: Wie kann eine Überanpassung verhindert werden?

Dropout

Dropout ist eine Regularisierungsmethode, die häufig beim Deep Learning verwendet wird. Sein Ansatz kann einfach so verstanden werden, dass während des Trainingsprozesses von DNNs einige Neuronen mit der Wahrscheinlichkeit p verworfen werden, was bedeutet, dass die Ausgabe der verworfenen Neuronen 0 ist. Dropout kann wie in der folgenden Abbildung gezeigt instanziiert werden:

Grundlagen des maschinellen Lernens: Wie kann eine Überanpassung verhindert werden?

Wir können den Regularisierungseffekt von Dropout aus zwei Aspekten intuitiv verstehen:

  • Der Vorgang des zufälligen Verlusts von Neuronen während jeder Runde des Dropout-Trainings entspricht mehreren DNNs gemittelt, so dass sie den Effekt einer Abstimmung haben, wenn sie zur Vorhersage verwendet werden.
  • Reduzieren Sie die komplexe Koadaption zwischen Neuronen. Wenn die Neuronen der verborgenen Schicht zufällig gelöscht werden, wird das vollständig verbundene Netzwerk bis zu einem gewissen Grad spärlich, wodurch die Synergieeffekte verschiedener Funktionen effektiv verringert werden. Mit anderen Worten: Einige Funktionen basieren möglicherweise auf der gemeinsamen Aktion versteckter Knoten mit festen Beziehungen. Durch Dropout wird die Situation effektiv organisiert, in der einige Funktionen nur in Gegenwart anderer Funktionen wirksam sind, wodurch die Robustheit des neuronalen Netzwerks erheblich erhöht wird Sex.

Batch-Normalisierung

Batch-Normalisierung ist eine reine Normalisierungsmethode, die hauptsächlich zur Beschleunigung der Konvergenz des Netzwerks verwendet wird, aber auch einen gewissen Regularisierungseffekt hat.

Hier ist ein Verweis auf die Erklärung der Kovariatenverschiebung in der Zhihu-Antwort von Dr. Wei Xushen.

Hinweis: Der folgende Inhalt stammt aus der Zhihu-Antwort von Dr. ist konsistent“. Wenn sie inkonsistent sind, entstehen neue Probleme beim maschinellen Lernen, wie z. B. Transferlernen/Domänenanpassung usw. Die Kovariatenverschiebung ist ein Zweigproblem unter der Annahme einer inkonsistenten Verteilung. Dies bedeutet, dass die bedingten Wahrscheinlichkeiten des Quellraums und des Zielraums konsistent sind, ihre Grenzwahrscheinlichkeiten jedoch unterschiedlich sind. Wenn Sie sorgfältig darüber nachdenken, werden Sie feststellen, dass sich die Verteilung der Ausgabe jeder Schicht des neuronalen Netzwerks offensichtlich von der Verteilung der jeder Schicht entsprechenden Eingangssignale unterscheidet, da sie Operationen innerhalb der Schicht durchlaufen haben. und der Unterschied wird mit zunehmender Tiefe des Netzwerks größer, aber die Stichprobenbezeichnungen, die sie „angeben“ können, bleiben unverändert, was der Definition der Kovariatenverschiebung entspricht.

Die Grundidee von BN ist eigentlich recht intuitiv, da sich der Aktivierungseingabewert des neuronalen Netzwerks vor der nichtlinearen Transformation (X = WU + B, U ist die Eingabe) mit zunehmender Tiefe des Netzwerks allmählich verschiebt oder Änderungen (d. h. die oben erwähnte Kovariatenverschiebung). Der Grund für die langsame Konvergenz des Trainings liegt im Allgemeinen darin, dass sich die Gesamtverteilung allmählich der Ober- und Untergrenze des Wertebereichs der nichtlinearen Funktion nähert (für die Sigmoidfunktion bedeutet dies, dass der Aktivierungseingabewert X = WU + B ein großer negativer oder negativer Wert ist). positiver Wert ), was dazu führt, dass der Gradient des neuronalen Netzwerks auf niedriger Ebene während der Backpropagation verschwindet, was der wesentliche Grund dafür ist, dass das Training tiefer neuronaler Netzwerke immer langsamer konvergiert. BN verwendet eine bestimmte Standardisierungsmethode, um die Verteilung des Eingabewerts eines beliebigen Neurons in jeder Schicht des neuronalen Netzwerks mit einem Mittelwert von 0 und einer Varianz von 1 auf die Standardnormalverteilung zurückzusetzen, um das dadurch verursachte Problem der Gradientendispersion zu vermeiden Aktivierungsfunktion. Anstatt also zu sagen, dass die Rolle von BN darin besteht, Kovariatenverschiebungen zu mildern, ist es besser zu sagen, dass BN das Problem der Gradientendispersion lindern kann.

Normalisierung, Standardisierung und Regularisierung

Wir haben die Regularisierung bereits erwähnt, hier erwähnen wir kurz die Normalisierung und Standardisierung. Normalisierung: Das Ziel der Normalisierung besteht darin, eine bestimmte Zuordnungsbeziehung zu finden, um die Originaldaten dem Intervall [a, b] zuzuordnen. Im Allgemeinen nehmen a und b Kombinationen von [−1,1], [0,1] an. Im Allgemeinen gibt es zwei Anwendungsszenarien:

  • Konvertieren Sie die Zahl in eine Dezimalzahl zwischen (0, 1)
  • Konvertieren Sie die Dimensionszahl in eine dimensionslose Zahl.

Häufig verwendete Min-Max-Normalisierung:

Grundlagen des maschinellen Lernens: Wie kann eine Überanpassung verhindert werden?

Standardisierung: Verwendung der Satz großer Zahlen zur Umwandlung der Daten in eine Standardnormalverteilung. Die Standardisierungsformel lautet:

Grundlagen des maschinellen Lernens: Wie kann eine Überanpassung verhindert werden?

Der Unterschied zwischen Normalisierung und Standardisierung:

Wir können es einfach so erklären: Die normalisierte Skalierung wird gleichmäßig auf das Intervall (nur durch Extremwerte bestimmt) „abgeflacht“, während die normalisierte Skalierung „elastischer“ und „dynamischer“ ist hat einen guten Zusammenhang mit der Verteilung der Gesamtstichprobe. Hinweis:

  • Normalisierung: Die Skalierung bezieht sich nur auf die Differenz zwischen den Maximal- und Minimalwerten.
  • Standardisierung: Die Skalierung bezieht sich auf jeden Punkt und spiegelt sich in der Varianz wider. Vergleichen Sie dies mit der Normalisierung, bei der alle Datenpunkte einen Beitrag leisten (über den Mittelwert und die Standardabweichung).

Warum Standardisierung und Normalisierung?

  • Modellgenauigkeit verbessern: Nach der Normalisierung sind die Merkmale zwischen verschiedenen Dimensionen numerisch vergleichbar, was die Genauigkeit des Klassifikators erheblich verbessern kann.
  • Modellkonvergenz beschleunigen: Nach der Standardisierung wird der Optimierungsprozess der optimalen Lösung offensichtlich reibungsloser, was die korrekte Konvergenz zur optimalen Lösung erleichtert. Wie im Bild unten gezeigt:

Grundlagen des maschinellen Lernens: Wie kann eine Überanpassung verhindert werden?

Grundlagen des maschinellen Lernens: Wie kann eine Überanpassung verhindert werden?

Das obige ist der detaillierte Inhalt vonGrundlagen des maschinellen Lernens: Wie kann eine Überanpassung verhindert werden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

In diesem Artikel erfahren Sie mehr über SHAP: Modellerklärung für maschinelles Lernen In diesem Artikel erfahren Sie mehr über SHAP: Modellerklärung für maschinelles Lernen Jun 01, 2024 am 10:58 AM

In den Bereichen maschinelles Lernen und Datenwissenschaft stand die Interpretierbarkeit von Modellen schon immer im Fokus von Forschern und Praktikern. Mit der weit verbreiteten Anwendung komplexer Modelle wie Deep Learning und Ensemble-Methoden ist das Verständnis des Entscheidungsprozesses des Modells besonders wichtig geworden. Explainable AI|XAI trägt dazu bei, Vertrauen in maschinelle Lernmodelle aufzubauen, indem es die Transparenz des Modells erhöht. Eine Verbesserung der Modelltransparenz kann durch Methoden wie den weit verbreiteten Einsatz mehrerer komplexer Modelle sowie der Entscheidungsprozesse zur Erläuterung der Modelle erreicht werden. Zu diesen Methoden gehören die Analyse der Merkmalsbedeutung, die Schätzung des Modellvorhersageintervalls, lokale Interpretierbarkeitsalgorithmen usw. Die Merkmalswichtigkeitsanalyse kann den Entscheidungsprozess des Modells erklären, indem sie den Grad des Einflusses des Modells auf die Eingabemerkmale bewertet. Schätzung des Modellvorhersageintervalls

Jenseits von ORB-SLAM3! SL-SLAM: Szenen mit wenig Licht, starkem Jitter und schwacher Textur werden verarbeitet Jenseits von ORB-SLAM3! SL-SLAM: Szenen mit wenig Licht, starkem Jitter und schwacher Textur werden verarbeitet May 30, 2024 am 09:35 AM

Heute diskutieren wir darüber, wie Deep-Learning-Technologie die Leistung von visionbasiertem SLAM (Simultaneous Localization and Mapping) in komplexen Umgebungen verbessern kann. Durch die Kombination von Methoden zur Tiefenmerkmalsextraktion und Tiefenanpassung stellen wir hier ein vielseitiges hybrides visuelles SLAM-System vor, das die Anpassung in anspruchsvollen Szenarien wie schlechten Lichtverhältnissen, dynamischer Beleuchtung, schwach strukturierten Bereichen und starkem Jitter verbessern soll. Unser System unterstützt mehrere Modi, einschließlich erweiterter Monokular-, Stereo-, Monokular-Trägheits- und Stereo-Trägheitskonfigurationen. Darüber hinaus wird analysiert, wie visuelles SLAM mit Deep-Learning-Methoden kombiniert werden kann, um andere Forschungen zu inspirieren. Durch umfangreiche Experimente mit öffentlichen Datensätzen und selbst abgetasteten Daten demonstrieren wir die Überlegenheit von SL-SLAM in Bezug auf Positionierungsgenauigkeit und Tracking-Robustheit.

Implementierung von Algorithmen für maschinelles Lernen in C++: Häufige Herausforderungen und Lösungen Implementierung von Algorithmen für maschinelles Lernen in C++: Häufige Herausforderungen und Lösungen Jun 03, 2024 pm 01:25 PM

Zu den häufigsten Herausforderungen, mit denen Algorithmen für maschinelles Lernen in C++ konfrontiert sind, gehören Speicherverwaltung, Multithreading, Leistungsoptimierung und Wartbarkeit. Zu den Lösungen gehören die Verwendung intelligenter Zeiger, moderner Threading-Bibliotheken, SIMD-Anweisungen und Bibliotheken von Drittanbietern sowie die Einhaltung von Codierungsstilrichtlinien und die Verwendung von Automatisierungstools. Praktische Fälle zeigen, wie man die Eigen-Bibliothek nutzt, um lineare Regressionsalgorithmen zu implementieren, den Speicher effektiv zu verwalten und leistungsstarke Matrixoperationen zu nutzen.

Erklärbare KI: Erklären komplexer KI/ML-Modelle Erklärbare KI: Erklären komplexer KI/ML-Modelle Jun 03, 2024 pm 10:08 PM

Übersetzer |. Rezensiert von Li Rui |. Chonglou Modelle für künstliche Intelligenz (KI) und maschinelles Lernen (ML) werden heutzutage immer komplexer, und die von diesen Modellen erzeugten Ergebnisse sind eine Blackbox, die den Stakeholdern nicht erklärt werden kann. Explainable AI (XAI) zielt darauf ab, dieses Problem zu lösen, indem es Stakeholdern ermöglicht, die Funktionsweise dieser Modelle zu verstehen, sicherzustellen, dass sie verstehen, wie diese Modelle tatsächlich Entscheidungen treffen, und Transparenz in KI-Systemen, Vertrauen und Verantwortlichkeit zur Lösung dieses Problems gewährleistet. In diesem Artikel werden verschiedene Techniken der erklärbaren künstlichen Intelligenz (XAI) untersucht, um ihre zugrunde liegenden Prinzipien zu veranschaulichen. Mehrere Gründe, warum erklärbare KI von entscheidender Bedeutung ist. Vertrauen und Transparenz: Damit KI-Systeme allgemein akzeptiert und vertrauenswürdig sind, müssen Benutzer verstehen, wie Entscheidungen getroffen werden

Fünf Schulen des maschinellen Lernens, die Sie nicht kennen Fünf Schulen des maschinellen Lernens, die Sie nicht kennen Jun 05, 2024 pm 08:51 PM

Maschinelles Lernen ist ein wichtiger Zweig der künstlichen Intelligenz, der Computern die Möglichkeit gibt, aus Daten zu lernen und ihre Fähigkeiten zu verbessern, ohne explizit programmiert zu werden. Maschinelles Lernen hat ein breites Anwendungsspektrum in verschiedenen Bereichen, von der Bilderkennung und der Verarbeitung natürlicher Sprache bis hin zu Empfehlungssystemen und Betrugserkennung, und es verändert unsere Lebensweise. Im Bereich des maschinellen Lernens gibt es viele verschiedene Methoden und Theorien, von denen die fünf einflussreichsten Methoden als „Fünf Schulen des maschinellen Lernens“ bezeichnet werden. Die fünf Hauptschulen sind die symbolische Schule, die konnektionistische Schule, die evolutionäre Schule, die Bayes'sche Schule und die Analogieschule. 1. Der Symbolismus, auch Symbolismus genannt, betont die Verwendung von Symbolen zum logischen Denken und zum Ausdruck von Wissen. Diese Denkrichtung glaubt, dass Lernen ein Prozess der umgekehrten Schlussfolgerung durch das Vorhandene ist

Verbesserter Erkennungsalgorithmus: zur Zielerkennung in hochauflösenden optischen Fernerkundungsbildern Verbesserter Erkennungsalgorithmus: zur Zielerkennung in hochauflösenden optischen Fernerkundungsbildern Jun 06, 2024 pm 12:33 PM

01Ausblicksübersicht Derzeit ist es schwierig, ein angemessenes Gleichgewicht zwischen Detektionseffizienz und Detektionsergebnissen zu erreichen. Wir haben einen verbesserten YOLOv5-Algorithmus zur Zielerkennung in hochauflösenden optischen Fernerkundungsbildern entwickelt, der mehrschichtige Merkmalspyramiden, Multierkennungskopfstrategien und hybride Aufmerksamkeitsmodule verwendet, um die Wirkung des Zielerkennungsnetzwerks in optischen Fernerkundungsbildern zu verbessern. Laut SIMD-Datensatz ist der mAP des neuen Algorithmus 2,2 % besser als YOLOv5 und 8,48 % besser als YOLOX, wodurch ein besseres Gleichgewicht zwischen Erkennungsergebnissen und Geschwindigkeit erreicht wird. 02 Hintergrund und Motivation Mit der rasanten Entwicklung der Fernerkundungstechnologie wurden hochauflösende optische Fernerkundungsbilder verwendet, um viele Objekte auf der Erdoberfläche zu beschreiben, darunter Flugzeuge, Autos, Gebäude usw. Objekterkennung bei der Interpretation von Fernerkundungsbildern

Ist Flash Attention stabil? Meta und Harvard stellten fest, dass die Gewichtsabweichungen ihrer Modelle um Größenordnungen schwankten Ist Flash Attention stabil? Meta und Harvard stellten fest, dass die Gewichtsabweichungen ihrer Modelle um Größenordnungen schwankten May 30, 2024 pm 01:24 PM

MetaFAIR hat sich mit Harvard zusammengetan, um einen neuen Forschungsrahmen zur Optimierung der Datenverzerrung bereitzustellen, die bei der Durchführung groß angelegten maschinellen Lernens entsteht. Es ist bekannt, dass das Training großer Sprachmodelle oft Monate dauert und Hunderte oder sogar Tausende von GPUs verwendet. Am Beispiel des Modells LLaMA270B erfordert das Training insgesamt 1.720.320 GPU-Stunden. Das Training großer Modelle stellt aufgrund des Umfangs und der Komplexität dieser Arbeitsbelastungen einzigartige systemische Herausforderungen dar. In letzter Zeit haben viele Institutionen über Instabilität im Trainingsprozess beim Training generativer SOTA-KI-Modelle berichtet. Diese treten normalerweise in Form von Verlustspitzen auf. Beim PaLM-Modell von Google kam es beispielsweise während des Trainingsprozesses zu Instabilitäten. Numerische Voreingenommenheit ist die Hauptursache für diese Trainingsungenauigkeit.

AlphaFold 3 wird auf den Markt gebracht und sagt die Wechselwirkungen und Strukturen von Proteinen und allen Lebensmolekülen umfassend und mit weitaus größerer Genauigkeit als je zuvor voraus AlphaFold 3 wird auf den Markt gebracht und sagt die Wechselwirkungen und Strukturen von Proteinen und allen Lebensmolekülen umfassend und mit weitaus größerer Genauigkeit als je zuvor voraus Jul 16, 2024 am 12:08 AM

Herausgeber | Rettichhaut Seit der Veröffentlichung des leistungsstarken AlphaFold2 im Jahr 2021 verwenden Wissenschaftler Modelle zur Proteinstrukturvorhersage, um verschiedene Proteinstrukturen innerhalb von Zellen zu kartieren, Medikamente zu entdecken und eine „kosmische Karte“ jeder bekannten Proteininteraktion zu zeichnen. Gerade hat Google DeepMind das AlphaFold3-Modell veröffentlicht, das gemeinsame Strukturvorhersagen für Komplexe wie Proteine, Nukleinsäuren, kleine Moleküle, Ionen und modifizierte Reste durchführen kann. Die Genauigkeit von AlphaFold3 wurde im Vergleich zu vielen dedizierten Tools in der Vergangenheit (Protein-Ligand-Interaktion, Protein-Nukleinsäure-Interaktion, Antikörper-Antigen-Vorhersage) deutlich verbessert. Dies zeigt, dass dies innerhalb eines einzigen einheitlichen Deep-Learning-Frameworks möglich ist

See all articles