Inhaltsverzeichnis
Synthetische Daten sind künstlich erzeugte Informationen, die nicht durch direkte Messung gewonnen werden. „Gefälschte“ Daten sind per se kein neues oder revolutionäres Konzept. Es handelt sich im Wesentlichen um eine Methode zur Generierung von Test- oder Trainingsdaten für ein Modell, dem die verfügbaren oder notwendigen Informationen fehlen, um ordnungsgemäß zu funktionieren.
Während die Art und Weise, wie synthetische Daten generiert werden, sich nicht von zufälligen Daten unterscheidet – nur durch einen komplexeren Satz von Eingaben – dienen synthetische Daten einem anderen Zweck und stellen daher besondere Anforderungen.
Wenn wir nicht die wertvollen Ressourcen sammeln können, die für den Fortschritt der Zivilisation erforderlich sind, werden wir einen Weg finden, sie zu schaffen. Dieses Prinzip gilt mittlerweile gleichermaßen für die Datenwelt des maschinellen Lernens und der künstlichen Intelligenz.
Also, was ist die Lösung? Wir haben viele leicht unterschiedliche Tiere gezeichnet und das Netzwerk gezwungen, die zugrunde liegende Struktur des Bildes zu finden, nicht nur die Position bestimmter Pixel. Aber anstatt eine Million Hunde von Hand zu zeichnen, wäre es besser, ein System speziell zum Zeichnen von Hunden zu entwickeln, mit dem Klassifizierungsalgorithmen trainiert werden können – was wir tatsächlich tun, wenn wir synthetische Daten füttern, um maschinelles Lernen zu trainieren.
Die Welt erlebt derzeit einen sehr drastischen Wandel, insbesondere in der EU: Die Privatsphäre und die erzeugten Daten werden zunehmend geschützt. Im Bereich maschinelles Lernen und KI ist die Stärkung des Datenschutzes ein seit langem bestehendes Problem. Eingeschränkte Daten sind oft genau das, was benötigt wird, um Algorithmen zu trainieren, damit sie Leistung erbringen und Endbenutzern einen Mehrwert bieten, insbesondere bei B2C-Lösungen.
Können synthetische Daten echte Daten ersetzen?
Heim Technologie-Peripheriegeräte KI Synthetische Daten: die Zukunft des maschinellen Lernens

Synthetische Daten: die Zukunft des maschinellen Lernens

Apr 08, 2023 pm 08:41 PM
机器学习 深度学习 合成数据

​Übersetzer |. Bugatti

Rezensent |. Man kann sagen, dass Daten das Lebenselixier maschineller Lernmodelle sind. Doch was passiert, wenn der Zugriff auf diese wertvolle Ressource eingeschränkt ist? Wie viele Projekte und Unternehmen zu zeigen beginnen, sind synthetische Daten hier eine praktikable, wenn nicht sogar eine großartige Option.

Synthetische Daten: die Zukunft des maschinellen LernensWas sind synthetische Daten?

Synthetische Daten sind künstlich erzeugte Informationen, die nicht durch direkte Messung gewonnen werden. „Gefälschte“ Daten sind per se kein neues oder revolutionäres Konzept. Es handelt sich im Wesentlichen um eine Methode zur Generierung von Test- oder Trainingsdaten für ein Modell, dem die verfügbaren oder notwendigen Informationen fehlen, um ordnungsgemäß zu funktionieren.

In der Vergangenheit führte der Mangel an Daten zu der bequemen Methode, einen zufällig generierten Satz von Datenpunkten zu verwenden. Während dies für Lehr- und Testzwecke ausreichend sein kann, sind Zufallsdaten nicht die Daten, auf denen Sie ein Vorhersagemodell trainieren möchten. Das ist das Besondere am Konzept der synthetischen Daten: Sie sind zuverlässig.

Synthetische Daten sind im Wesentlichen ein einzigartiges Konzept, mit dem wir zufällige Daten geschickt generieren können. Daher kann dieser Ansatz auf komplexere Anwendungsfälle angewendet werden, nicht nur auf Tests.

Wie generiert man synthetische Daten?

Während die Art und Weise, wie synthetische Daten generiert werden, sich nicht von zufälligen Daten unterscheidet – nur durch einen komplexeren Satz von Eingaben – dienen synthetische Daten einem anderen Zweck und stellen daher besondere Anforderungen.

Synthesemethoden basieren auf bestimmten Kriterien und sind auf diese beschränkt, die im Voraus als Eingabe eingegeben werden. Eigentlich ist es kein Zufall. Es basiert auf einer Reihe von Beispieldaten mit einer bestimmten Verteilung und Kriterien, die den möglichen Bereich, die Verteilung und die Häufigkeit von Datenpunkten bestimmen. Grob gesagt besteht das Ziel darin, reale Daten zu replizieren, um einen größeren Datensatz zu füllen, der dann groß genug ist, um ein Modell für maschinelles Lernen zu trainieren.

Dieser Ansatz wird von besonderem Interesse bei der Erforschung von Deep-Learning-Methoden zur Verfeinerung synthetischer Daten. Algorithmen können miteinander konkurrieren und zielen darauf ab, einander in ihrer Fähigkeit, synthetische Daten zu generieren und zu identifizieren, zu übertreffen. Tatsächlich geht es hier um ein künstliches Wettrüsten zur Generierung hyperrealistischer Daten.

Warum werden synthetische Daten benötigt?

Wenn wir nicht die wertvollen Ressourcen sammeln können, die für den Fortschritt der Zivilisation erforderlich sind, werden wir einen Weg finden, sie zu schaffen. Dieses Prinzip gilt mittlerweile gleichermaßen für die Datenwelt des maschinellen Lernens und der künstlichen Intelligenz.

Beim Training eines Algorithmus ist es entscheidend, über eine sehr große Datenstichprobengröße zu verfügen, da die vom Algorithmus identifizierten Muster sonst möglicherweise zu einfach für praktische Anwendungen sind. Das ist eigentlich sehr logisch. So wie die menschliche Intelligenz häufig den einfachsten Weg zur Lösung eines Problems einschlägt, geschieht dies häufig auch beim Training von maschinellem Lernen und künstlicher Intelligenz.

Erwägen Sie beispielsweise, dies auf einen Objekterkennungsalgorithmus anzuwenden, der Hunde anhand einer Reihe von Katzenbildern genau identifizieren kann. Wenn die Datenmenge zu gering ist, läuft die KI Gefahr, sich auf Muster zu verlassen, die keine wesentlichen Merkmale des Objekts sind, das sie zu identifizieren versucht. In diesem Fall ist die KI möglicherweise immer noch effektiv, bricht jedoch zusammen, wenn sie auf Daten trifft, die nicht dem ursprünglich identifizierten Muster folgen.

Wie werden synthetische Daten zum Trainieren von KI verwendet?

Also, was ist die Lösung? Wir haben viele leicht unterschiedliche Tiere gezeichnet und das Netzwerk gezwungen, die zugrunde liegende Struktur des Bildes zu finden, nicht nur die Position bestimmter Pixel. Aber anstatt eine Million Hunde von Hand zu zeichnen, wäre es besser, ein System speziell zum Zeichnen von Hunden zu entwickeln, mit dem Klassifizierungsalgorithmen trainiert werden können – was wir tatsächlich tun, wenn wir synthetische Daten füttern, um maschinelles Lernen zu trainieren.

Dieser Ansatz weist jedoch offensichtliche Mängel auf. Das bloße Generieren von Daten aus dem Nichts stellt nicht die reale Welt dar, daher ist es wahrscheinlich, dass der Algorithmus versagt, wenn er auf reale Daten trifft. Die Lösung besteht darin, eine Teilmenge der Daten zu sammeln, darin Trends und Bereiche zu analysieren und zu identifizieren und diese Daten dann zu verwenden, um große Mengen zufälliger Daten zu generieren, die wahrscheinlich repräsentativ dafür sind, wie die Daten aussehen würden, wenn wir sie alle sammeln würden uns.

Das ist auch der Wert synthetischer Daten. Wir müssen Daten nicht mehr endlos sammeln und sie dann vor der Verwendung bereinigen und verarbeiten.

Warum können synthetische Daten das immer besorgniserregendere Datenschutzproblem lösen?

Die Welt erlebt derzeit einen sehr drastischen Wandel, insbesondere in der EU: Die Privatsphäre und die erzeugten Daten werden zunehmend geschützt. Im Bereich maschinelles Lernen und KI ist die Stärkung des Datenschutzes ein seit langem bestehendes Problem. Eingeschränkte Daten sind oft genau das, was benötigt wird, um Algorithmen zu trainieren, damit sie Leistung erbringen und Endbenutzern einen Mehrwert bieten, insbesondere bei B2C-Lösungen.

Datenschutzbedenken werden oft dann ausgeräumt, wenn Einzelpersonen sich für die Nutzung einer Lösung entscheiden und damit der Nutzung ihrer Daten zustimmen. Das Problem dabei ist, dass es schwierig ist, Benutzer dazu zu bringen, Ihnen ihre persönlichen Daten zur Verfügung zu stellen, bis Sie eine Lösung haben, die genügend Wert bietet, um bereit zu sein, sie weiterzugeben. Dadurch geraten Lieferanten häufig in ein Henne-Ei-Dilemma.

Synthetische Daten sind die Lösung, und Unternehmen können durch Early Adopters Zugriff auf Teilmengen von Daten erhalten. Diese Informationen können sie dann als Grundlage nutzen, um genügend Daten für das Training von maschinellem Lernen und KI zu generieren. Dieser Ansatz kann den zeitaufwändigen und teuren Bedarf an privaten Daten erheblich reduzieren und dennoch die Entwicklung von Algorithmen für echte Benutzer ermöglichen.

Für einige Branchen wie das Gesundheitswesen, das Bankwesen und das Recht bieten synthetische Daten eine Möglichkeit, einfacher auf große Datenmengen zuzugreifen, die zuvor nicht verfügbar waren, und beseitigen so die Einschränkungen, denen neue und fortschrittlichere Algorithmen häufig ausgesetzt sind.

Können synthetische Daten echte Daten ersetzen?

Das Problem mit echten Daten besteht darin, dass sie nicht zum Zweck des Trainings von maschinellem Lernen und KI-Algorithmen generiert werden, sondern lediglich ein Nebenprodukt der Ereignisse um uns herum sind. Wie bereits erwähnt schränkt dies natürlich die Verfügbarkeit und Benutzerfreundlichkeit der gesammelten Daten ein, schränkt aber auch die Parameter der Daten und die Möglichkeit von Fehlern (Ausreißern) ein, die die Ergebnisse verfälschen könnten. Aus diesem Grund sind synthetische Daten, die individuell angepasst und gesteuert werden können, beim Training von Modellen effizienter.

Obwohl synthetische Daten ideal für Trainingsszenarien sind, stützen sie sich bei ihrer eigenen Erstellung zwangsläufig immer auf zumindest einen kleinen Teil realer Daten. Die synthetischen Daten ersetzen also niemals die ursprünglichen Daten, auf denen sie basieren. Realistisch gesehen wird dadurch die Menge der für das Algorithmustraining erforderlichen realen Daten erheblich reduziert. Dieser Prozess erfordert viel mehr Daten als das Testen – normalerweise werden 80 % der Daten für das Training und die anderen 20 % für Tests verwendet.

Wenn es richtig gemacht wird, bieten synthetische Daten schließlich eine schnellere und effizientere Möglichkeit, die benötigten Daten zu geringeren Kosten zu erhalten als Daten aus der realen Welt und reduzieren gleichzeitig lästige Datenschutzprobleme.

Originaltitel: Synthetische Daten: Die Zukunft des maschinellen Lernens​, Autor: Christian Lawaetz Halvorsen​

Das obige ist der detaillierte Inhalt vonSynthetische Daten: die Zukunft des maschinellen Lernens. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
2 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Repo: Wie man Teamkollegen wiederbelebt
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Abenteuer: Wie man riesige Samen bekommt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

In diesem Artikel erfahren Sie mehr über SHAP: Modellerklärung für maschinelles Lernen In diesem Artikel erfahren Sie mehr über SHAP: Modellerklärung für maschinelles Lernen Jun 01, 2024 am 10:58 AM

In den Bereichen maschinelles Lernen und Datenwissenschaft stand die Interpretierbarkeit von Modellen schon immer im Fokus von Forschern und Praktikern. Mit der weit verbreiteten Anwendung komplexer Modelle wie Deep Learning und Ensemble-Methoden ist das Verständnis des Entscheidungsprozesses des Modells besonders wichtig geworden. Explainable AI|XAI trägt dazu bei, Vertrauen in maschinelle Lernmodelle aufzubauen, indem es die Transparenz des Modells erhöht. Eine Verbesserung der Modelltransparenz kann durch Methoden wie den weit verbreiteten Einsatz mehrerer komplexer Modelle sowie der Entscheidungsprozesse zur Erläuterung der Modelle erreicht werden. Zu diesen Methoden gehören die Analyse der Merkmalsbedeutung, die Schätzung des Modellvorhersageintervalls, lokale Interpretierbarkeitsalgorithmen usw. Die Merkmalswichtigkeitsanalyse kann den Entscheidungsprozess des Modells erklären, indem sie den Grad des Einflusses des Modells auf die Eingabemerkmale bewertet. Schätzung des Modellvorhersageintervalls

Jenseits von ORB-SLAM3! SL-SLAM: Szenen mit wenig Licht, starkem Jitter und schwacher Textur werden verarbeitet Jenseits von ORB-SLAM3! SL-SLAM: Szenen mit wenig Licht, starkem Jitter und schwacher Textur werden verarbeitet May 30, 2024 am 09:35 AM

Heute diskutieren wir darüber, wie Deep-Learning-Technologie die Leistung von visionbasiertem SLAM (Simultaneous Localization and Mapping) in komplexen Umgebungen verbessern kann. Durch die Kombination von Methoden zur Tiefenmerkmalsextraktion und Tiefenanpassung stellen wir hier ein vielseitiges hybrides visuelles SLAM-System vor, das die Anpassung in anspruchsvollen Szenarien wie schlechten Lichtverhältnissen, dynamischer Beleuchtung, schwach strukturierten Bereichen und starkem Jitter verbessern soll. Unser System unterstützt mehrere Modi, einschließlich erweiterter Monokular-, Stereo-, Monokular-Trägheits- und Stereo-Trägheitskonfigurationen. Darüber hinaus wird analysiert, wie visuelles SLAM mit Deep-Learning-Methoden kombiniert werden kann, um andere Forschungen zu inspirieren. Durch umfangreiche Experimente mit öffentlichen Datensätzen und selbst abgetasteten Daten demonstrieren wir die Überlegenheit von SL-SLAM in Bezug auf Positionierungsgenauigkeit und Tracking-Robustheit.

Identifizieren Sie Über- und Unteranpassung anhand von Lernkurven Identifizieren Sie Über- und Unteranpassung anhand von Lernkurven Apr 29, 2024 pm 06:50 PM

In diesem Artikel wird vorgestellt, wie Überanpassung und Unteranpassung in Modellen für maschinelles Lernen mithilfe von Lernkurven effektiv identifiziert werden können. Unteranpassung und Überanpassung 1. Überanpassung Wenn ein Modell mit den Daten übertrainiert ist, sodass es daraus Rauschen lernt, spricht man von einer Überanpassung des Modells. Ein überangepasstes Modell lernt jedes Beispiel so perfekt, dass es ein unsichtbares/neues Beispiel falsch klassifiziert. Für ein überangepasstes Modell erhalten wir einen perfekten/nahezu perfekten Trainingssatzwert und einen schrecklichen Validierungssatz-/Testwert. Leicht geändert: „Ursache der Überanpassung: Verwenden Sie ein komplexes Modell, um ein einfaches Problem zu lösen und Rauschen aus den Daten zu extrahieren. Weil ein kleiner Datensatz als Trainingssatz möglicherweise nicht die korrekte Darstellung aller Daten darstellt. 2. Unteranpassung Heru.“

Die Entwicklung der künstlichen Intelligenz in der Weltraumforschung und der Siedlungstechnik Die Entwicklung der künstlichen Intelligenz in der Weltraumforschung und der Siedlungstechnik Apr 29, 2024 pm 03:25 PM

In den 1950er Jahren wurde die künstliche Intelligenz (KI) geboren. Damals entdeckten Forscher, dass Maschinen menschenähnliche Aufgaben wie das Denken ausführen können. Später, in den 1960er Jahren, finanzierte das US-Verteidigungsministerium künstliche Intelligenz und richtete Labore für die weitere Entwicklung ein. Forscher finden Anwendungen für künstliche Intelligenz in vielen Bereichen, etwa bei der Erforschung des Weltraums und beim Überleben in extremen Umgebungen. Unter Weltraumforschung versteht man die Erforschung des Universums, das das gesamte Universum außerhalb der Erde umfasst. Der Weltraum wird als extreme Umgebung eingestuft, da sich seine Bedingungen von denen auf der Erde unterscheiden. Um im Weltraum zu überleben, müssen viele Faktoren berücksichtigt und Vorkehrungen getroffen werden. Wissenschaftler und Forscher glauben, dass die Erforschung des Weltraums und das Verständnis des aktuellen Zustands aller Dinge dazu beitragen können, die Funktionsweise des Universums zu verstehen und sich auf mögliche Umweltkrisen vorzubereiten

Implementierung von Algorithmen für maschinelles Lernen in C++: Häufige Herausforderungen und Lösungen Implementierung von Algorithmen für maschinelles Lernen in C++: Häufige Herausforderungen und Lösungen Jun 03, 2024 pm 01:25 PM

Zu den häufigsten Herausforderungen, mit denen Algorithmen für maschinelles Lernen in C++ konfrontiert sind, gehören Speicherverwaltung, Multithreading, Leistungsoptimierung und Wartbarkeit. Zu den Lösungen gehören die Verwendung intelligenter Zeiger, moderner Threading-Bibliotheken, SIMD-Anweisungen und Bibliotheken von Drittanbietern sowie die Einhaltung von Codierungsstilrichtlinien und die Verwendung von Automatisierungstools. Praktische Fälle zeigen, wie man die Eigen-Bibliothek nutzt, um lineare Regressionsalgorithmen zu implementieren, den Speicher effektiv zu verwalten und leistungsstarke Matrixoperationen zu nutzen.

Erklärbare KI: Erklären komplexer KI/ML-Modelle Erklärbare KI: Erklären komplexer KI/ML-Modelle Jun 03, 2024 pm 10:08 PM

Übersetzer |. Rezensiert von Li Rui |. Chonglou Modelle für künstliche Intelligenz (KI) und maschinelles Lernen (ML) werden heutzutage immer komplexer, und die von diesen Modellen erzeugten Ergebnisse sind eine Blackbox, die den Stakeholdern nicht erklärt werden kann. Explainable AI (XAI) zielt darauf ab, dieses Problem zu lösen, indem es Stakeholdern ermöglicht, die Funktionsweise dieser Modelle zu verstehen, sicherzustellen, dass sie verstehen, wie diese Modelle tatsächlich Entscheidungen treffen, und Transparenz in KI-Systemen, Vertrauen und Verantwortlichkeit zur Lösung dieses Problems gewährleistet. In diesem Artikel werden verschiedene Techniken der erklärbaren künstlichen Intelligenz (XAI) untersucht, um ihre zugrunde liegenden Prinzipien zu veranschaulichen. Mehrere Gründe, warum erklärbare KI von entscheidender Bedeutung ist. Vertrauen und Transparenz: Damit KI-Systeme allgemein akzeptiert und vertrauenswürdig sind, müssen Benutzer verstehen, wie Entscheidungen getroffen werden

Ausblick auf zukünftige Trends der Golang-Technologie im maschinellen Lernen Ausblick auf zukünftige Trends der Golang-Technologie im maschinellen Lernen May 08, 2024 am 10:15 AM

Das Anwendungspotenzial der Go-Sprache im Bereich des maschinellen Lernens ist enorm. Ihre Vorteile sind: Parallelität: Sie unterstützt die parallele Programmierung und eignet sich für rechenintensive Operationen bei maschinellen Lernaufgaben. Effizienz: Der Garbage Collector und die Sprachfunktionen sorgen dafür, dass der Code auch bei der Verarbeitung großer Datenmengen effizient ist. Benutzerfreundlichkeit: Die Syntax ist prägnant und erleichtert das Erlernen und Schreiben von Anwendungen für maschinelles Lernen.

Ist Flash Attention stabil? Meta und Harvard stellten fest, dass die Gewichtsabweichungen ihrer Modelle um Größenordnungen schwankten Ist Flash Attention stabil? Meta und Harvard stellten fest, dass die Gewichtsabweichungen ihrer Modelle um Größenordnungen schwankten May 30, 2024 pm 01:24 PM

MetaFAIR hat sich mit Harvard zusammengetan, um einen neuen Forschungsrahmen zur Optimierung der Datenverzerrung bereitzustellen, die bei der Durchführung groß angelegten maschinellen Lernens entsteht. Es ist bekannt, dass das Training großer Sprachmodelle oft Monate dauert und Hunderte oder sogar Tausende von GPUs verwendet. Am Beispiel des Modells LLaMA270B erfordert das Training insgesamt 1.720.320 GPU-Stunden. Das Training großer Modelle stellt aufgrund des Umfangs und der Komplexität dieser Arbeitsbelastungen einzigartige systemische Herausforderungen dar. In letzter Zeit haben viele Institutionen über Instabilität im Trainingsprozess beim Training generativer SOTA-KI-Modelle berichtet. Diese treten normalerweise in Form von Verlustspitzen auf. Beim PaLM-Modell von Google kam es beispielsweise während des Trainingsprozesses zu Instabilitäten. Numerische Voreingenommenheit ist die Hauptursache für diese Trainingsungenauigkeit.

See all articles