Werden synthetische Daten die Zukunft des KI/ML-Trainings bestimmen?-KI-php.cn

Inhaltsverzeichnis

Synthetische Daten werden von Menschen erstellt und nicht aus der realen Welt gesammelt. Derzeit konzentrieren sich viele Anwendungen auf visuelle Daten, beispielsweise Daten, die von Computer-Vision-Systemen gesammelt werden. Dennoch gibt es keinen praktischen Grund, warum synthetische Daten nicht für andere Anwendungsfälle erstellt werden können, beispielsweise zum Testen von Anwendungen oder zur Verbesserung von Algorithmen zur Betrugserkennung. Sie ähneln in gewisser Weise hochstrukturierten digitalen Zwillingen physischer Aufzeichnungen.

Welcher Datenwissenschaftler oder Forscher würde nicht von einem scheinbar endlosen Angebot an Datengeneratoren profitieren? Der Hauptvorteil – die Möglichkeit, die manuelle Erfassung realer Daten zu vermeiden – wird durch synthetische Daten einfach beschleunigt die Möglichkeiten der KI/ML-Anwendung.

Heim

Technologie-Peripheriegeräte

Werden synthetische Daten die Zukunft des KI/ML-Trainings bestimmen?

王林

Apr 14, 2023 am 09:52 AM

ai 合成数据 ml

合成数据会推动 AI/ML 训练的未来吗？

Es besteht kein Zweifel, dass das Sammeln realer Daten zum Trainieren künstlicher Intelligenz oder maschinellen Lernens (KI/ML) zeitaufwändig und teuer ist. Und oft ist es mit Risiken behaftet, aber ein häufigeres Problem besteht darin, dass zu wenig Daten oder verzerrte Daten Unternehmen in die Irre führen können. Aber was wäre, wenn Sie neue Daten, sogenannte synthetische Daten, generieren könnten? Es klingt unwahrscheinlich, aber genau das will Synthesis AI mit 17 Millionen US-Dollar von Risikokapitalfirmen aufbringen, darunter 468 Capital, Sorenson Ventures, Strawberry Creek Ventures, Bee Partners, PJC, iRobot Ventures, Boom Capital und Kubera Venture Capital Series A Finanzierung.

Das ist ein sehr verlässlicher Beweis. Mit der Förderung will das Unternehmen seine Forschung und Entwicklung im Bereich der Mischung realer und synthetischer Daten ausbauen.

Yashar Behzadi, CEO von Synthesis AI, sagte in einer Erklärung: „Synthetische Daten befinden sich an einem Wendepunkt in der Akzeptanz, und unser Ziel ist es, die Technologie weiterzuentwickeln und einen Paradigmenwechsel bei der Konstruktion von Computer-Vision-Systemen voranzutreiben.“ Die Branche Bald wird es ein umfassendes Design und Training von Computer-Vision-Modellen in virtuellen Welten geben, die eine fortschrittlichere und ethischere künstliche Intelligenz ermöglichen.“

Aber was sind synthetische Daten?

Synthetische Daten werden von Menschen erstellt und nicht aus der realen Welt gesammelt. Derzeit konzentrieren sich viele Anwendungen auf visuelle Daten, beispielsweise Daten, die von Computer-Vision-Systemen gesammelt werden. Dennoch gibt es keinen praktischen Grund, warum synthetische Daten nicht für andere Anwendungsfälle erstellt werden können, beispielsweise zum Testen von Anwendungen oder zur Verbesserung von Algorithmen zur Betrugserkennung. Sie ähneln in gewisser Weise hochstrukturierten digitalen Zwillingen physischer Aufzeichnungen.

Durch die Bereitstellung riesiger, realer Datensätze in großem Maßstab können Datenwissenschaftler und Analysten theoretisch den Datenerfassungsprozess überspringen und direkt mit Tests oder Schulungen beginnen.

Das liegt daran, dass der Großteil der Kosten für die Erstellung eines realen Datensatzes nicht nur auf das Sammeln der Rohdaten entfällt. Nehmen wir als Beispiel Computer Vision und selbstfahrende Autos. Autohersteller und Forscher können verschiedene Kameras, Radar- und Lidar-Sensoren an Fahrzeugen anbringen, um diese zu erfassen, aber die Rohdaten haben für KI/ML-Algorithmen keine Bedeutung. Eine ebenso gewaltige Herausforderung besteht darin, die Daten manuell mit Kontextinformationen zu

zu kennzeichnen

, um dem System zu helfen, bessere Entscheidungen zu treffen. Schauen wir uns den Kontext dieser Herausforderung an: Stellen Sie sich vor, Sie fahren regelmäßig eine kurze Fahrt, mit all den Stoppschildern, Kreuzungen, geparkten Autos, Fußgängern usw., und stellen Sie sich dann vor, dass es eine schwierige Aufgabe ist, alle potenziellen Gefahren zu kennzeichnen.

Der Hauptvorteil synthetischer Daten besteht darin, dass sie theoretisch perfekt gekennzeichnete Datensätze erstellen können, die groß genug sind, um KI-/ML-Anwendungen richtig zu trainieren, was bedeutet, dass Datenwissenschaftler ihre Algorithmen plötzlich an einer großen Anzahl neuer Orte testen können, bevor sie sie wirklich implementieren können Weltdaten oder in Situationen, in denen es schwierig ist, sie zu erhalten. Um mit dem Beispiel selbstfahrender Autos fortzufahren: Datenwissenschaftler können synthetische Daten erstellen, um Autos für das Fahren unter rauen Bedingungen wie schneebedeckten Straßen zu trainieren, ohne Fahrer nach Norden oder in die Berge schicken zu müssen, um Daten manuell zu sammeln.

Der Hauptvorteil synthetischer Daten besteht darin, dass sie theoretisch perfekt gekennzeichnete Datensätze in der Größenordnung erstellen können, die zum ordnungsgemäßen Trainieren von KI-/ML-Anwendungen erforderlich ist. Dies bedeutet, dass Datenwissenschaftler Daten erstellen können, bevor echte Daten verfügbar sind oder wenn dies mit Daten schwierig wäre verfügbar, testeten sie ihre Algorithmen plötzlich an vielen neuen Orten. Noch am Beispiel des selbstfahrenden Autos können Datenwissenschaftler synthetische Daten erstellen, um das Auto auf das Fahren unter widrigen Bedingungen wie schneebedeckten Straßen zu trainieren, ohne dass der Fahrer den ganzen Weg nach Norden oder in die Berge fahren muss, um Daten manuell zu sammeln.

Allerdings gibt es bei synthetischen Daten ein Henne-Ei-Problem, da sie nur mit … mehr Daten und mehr KI/ML-Algorithmen erstellt werden können. Beginnen Sie mit einem „Seed“-Datensatz und verwenden Sie ihn dann als Basis für Ihre synthetischen Kreationen, was bedeutet, dass diese nur so gut sind wie die Daten, mit denen Sie beginnen.

(IMMATERIELLE) VORTEILE

Welcher Datenwissenschaftler oder Forscher würde nicht von einem scheinbar endlosen Angebot an Datengeneratoren profitieren? Der Hauptvorteil – die Möglichkeit, die manuelle Erfassung realer Daten zu vermeiden – wird durch synthetische Daten einfach beschleunigt die Möglichkeiten der KI/ML-Anwendung.

Da Analysten und Datenwissenschaftler eine strenge Kontrolle über die Seed-Daten haben und sogar noch einen Schritt weiter gehen können, um Diversität einzubeziehen, oder mit externen Beratern zusammenarbeiten, um Vorurteile aufzudecken und zu entschlüsseln, können sie sich an einen höheren Standard halten. Synthesis AI entwickelt beispielsweise ein System, das den Fahrerstatus überwacht und verschiedene Gesichter sorgfältig in seinen computergenerierten synthetischen Datensatz einbezieht, um sicherzustellen, dass reale Anwendungen für alle funktionieren.

Datenschutz ist ein weiterer potenzieller Gewinn. Wenn ein Unternehmen Millionen von Meilen damit verbringt, reale Daten für seine selbstfahrenden Autos zu sammeln, sammelt es viele Daten, die viele Menschen als persönlich betrachten – insbesondere ihre Gesichter. Große Unternehmen wie Google und Apple haben Möglichkeiten gefunden, diese Art von Problemen in ihrer Kartensoftware zu vermeiden, aber ihre Routen sind für kleine KI/ML-Teams, die ihre Algorithmen testen möchten, nicht machbar.

„Unternehmen kämpfen auch mit ethischen Fragen im Zusammenhang mit Modellvoreingenommenheit und Verbraucherschutz bei Produkten, die den Menschen in den Mittelpunkt stellen. Es ist klar, dass der Aufbau der nächsten Generation von Computer Vision ein neues Paradigma erfordert“, Yashar, CEO und Gründer des Unternehmens Behzadi sagte zu den Medien.

Während synthetische Daten zu Beginn auf einem Startwert basieren, können sie angepasst und modifiziert werden, um KI/ML-Anwendungen in Grenzfällen zu trainieren, die im wirklichen Leben schwierig oder gefährlich zu erfassen sind. Die Unternehmen, die hinter selbstfahrenden Autos stehen, hoffen, dass sie Objekte oder Personen besser identifizieren können, die nur teilweise sichtbar sind, etwa ein Stoppschild, das sich hinter einem Lastwagen versteckt, oder einen Fußgänger, der zwischen zwei Autos steht, die auf die Straße rasen.

Angesichts dieser Erfolge und trotz einiger Bedenken hinsichtlich des Henne-Ei-Problems bei der Kodierung von Verzerrungen in synthetische Daten prognostiziert Gartner

, dass bis 2024 60 % der Daten synthetisch generiert werden. Sie gehen davon aus, dass sich ein Großteil der neuen Daten auf die Korrektur von Vorhersagemodellen konzentrieren wird, wenn die historischen Daten, auf denen sie basieren, an Relevanz verlieren oder auf früheren Erfahrungen basierende Annahmen versagen.

Aber es gibt immer

einigeDaten aus der realen Welt, die gesammelt werden müssen, daher sind wir noch weit davon entfernt, von den Avataren unseres universellen, unvoreingenommenen Selbst völlig überholt zu werden.

Das obige ist der detaillierte Inhalt vonWerden synthetische Daten die Zukunft des KI/ML-Trainings bestimmen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7461

CakePHP-Tutorial

1376

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Welche Methode wird verwendet, um Strings in Objekte in Vue.js umzuwandeln? Apr 07, 2025 pm 09:39 PM

Bei der Konvertierung von Zeichenfolgen in Objekte in Vue.js wird JSON.Parse () für Standard -JSON -Zeichenfolgen bevorzugt. Bei nicht standardmäßigen JSON-Zeichenfolgen kann die Zeichenfolge durch Verwendung regelmäßiger Ausdrücke verarbeitet und Methoden gemäß dem Format oder dekodierten URL-kodiert reduziert werden. Wählen Sie die entsprechende Methode gemäß dem String -Format aus und achten Sie auf Sicherheits- und Codierungsprobleme, um Fehler zu vermeiden.

So verwenden Sie MySQL nach der Installation Apr 08, 2025 am 11:48 AM

Der Artikel führt den Betrieb der MySQL -Datenbank vor. Zunächst müssen Sie einen MySQL -Client wie MySQLworkBench oder Befehlszeilen -Client installieren. 1. Verwenden Sie den Befehl mySQL-uroot-P, um eine Verbindung zum Server herzustellen und sich mit dem Stammkonto-Passwort anzumelden. 2. Verwenden Sie die Erstellung von Createdatabase, um eine Datenbank zu erstellen, und verwenden Sie eine Datenbank aus. 3.. Verwenden Sie CreateTable, um eine Tabelle zu erstellen, Felder und Datentypen zu definieren. 4. Verwenden Sie InsertInto, um Daten einzulegen, Daten abzufragen, Daten nach Aktualisierung zu aktualisieren und Daten nach Löschen zu löschen. Nur indem Sie diese Schritte beherrschen, lernen, mit gemeinsamen Problemen umzugehen und die Datenbankleistung zu optimieren, können Sie MySQL effizient verwenden.

So stellen Sie die Zeitüberschreitung von Vue Axios fest Apr 07, 2025 pm 10:03 PM

Um die Zeitüberschreitung für Vue Axios festzulegen, können wir eine Axios -Instanz erstellen und die Zeitleitungsoption angeben: in globalen Einstellungen: vue.Prototyp. $ Axios = axios.create ({Timeout: 5000}); In einer einzigen Anfrage: this. $ axios.get ('/api/user', {timeout: 10000}).

Laravels Geospatial: Optimierung interaktiver Karten und großen Datenmengen Apr 08, 2025 pm 12:24 PM

Verarbeiten Sie 7 Millionen Aufzeichnungen effizient und erstellen Sie interaktive Karten mit Geospatial -Technologie. In diesem Artikel wird untersucht, wie über 7 Millionen Datensätze mithilfe von Laravel und MySQL effizient verarbeitet und in interaktive Kartenvisualisierungen umgewandelt werden können. Erstes Herausforderungsprojektanforderungen: Mit 7 Millionen Datensätzen in der MySQL -Datenbank wertvolle Erkenntnisse extrahieren. Viele Menschen erwägen zunächst Programmiersprachen, aber ignorieren die Datenbank selbst: Kann sie den Anforderungen erfüllen? Ist Datenmigration oder strukturelle Anpassung erforderlich? Kann MySQL einer so großen Datenbelastung standhalten? Voranalyse: Schlüsselfilter und Eigenschaften müssen identifiziert werden. Nach der Analyse wurde festgestellt, dass nur wenige Attribute mit der Lösung zusammenhängen. Wir haben die Machbarkeit des Filters überprüft und einige Einschränkungen festgelegt, um die Suche zu optimieren. Kartensuche basierend auf der Stadt

VUE.JS Wie kann man ein Array von String -Typ in ein Array von Objekten umwandeln? Apr 07, 2025 pm 09:36 PM

Zusammenfassung: Es gibt die folgenden Methoden zum Umwandeln von VUE.JS -String -Arrays in Objektarrays: Grundlegende Methode: Verwenden Sie die Kartenfunktion, um regelmäßige formatierte Daten zu entsprechen. Erweitertes Gameplay: Die Verwendung regulärer Ausdrücke kann komplexe Formate ausführen, müssen jedoch sorgfältig geschrieben und berücksichtigt werden. Leistungsoptimierung: In Betracht ziehen die große Datenmenge, asynchrone Operationen oder effiziente Datenverarbeitungsbibliotheken können verwendet werden. Best Practice: Clear Code -Stil, verwenden Sie sinnvolle variable Namen und Kommentare, um den Code präzise zu halten.

Wie man MySQL löst, kann nicht gestartet werden Apr 08, 2025 pm 02:21 PM

Es gibt viele Gründe, warum MySQL Startup fehlschlägt und durch Überprüfung des Fehlerprotokolls diagnostiziert werden kann. Zu den allgemeinen Ursachen gehören Portkonflikte (prüfen Portbelegung und Änderung der Konfiguration), Berechtigungsprobleme (Überprüfen Sie den Dienst Ausführen von Benutzerberechtigungen), Konfigurationsdateifehler (Überprüfung der Parametereinstellungen), Datenverzeichniskorruption (Wiederherstellung von Daten oder Wiederaufbautabellenraum), InnoDB-Tabellenraumprobleme (prüfen IBDATA1-Dateien), Plug-in-Ladeversagen (Überprüfen Sie Fehlerprotokolle). Wenn Sie Probleme lösen, sollten Sie sie anhand des Fehlerprotokolls analysieren, die Hauptursache des Problems finden und die Gewohnheit entwickeln, Daten regelmäßig zu unterstützen, um Probleme zu verhindern und zu lösen.

Remote Senior Backend Engineers (Plattformen) benötigen Kreise Apr 08, 2025 pm 12:27 PM

Remote Senior Backend Engineer Job Vacant Company: Circle Standort: Remote-Büro-Jobtyp: Vollzeitgehalt: 130.000 bis 140.000 US-Dollar Stellenbeschreibung Nehmen Sie an der Forschung und Entwicklung von Mobilfunkanwendungen und öffentlichen API-bezogenen Funktionen, die den gesamten Lebenszyklus der Softwareentwicklung abdecken. Die Hauptaufgaben erledigen die Entwicklungsarbeit unabhängig von RubyonRails und arbeiten mit dem Front-End-Team von React/Redux/Relay zusammen. Erstellen Sie die Kernfunktionalität und -verbesserungen für Webanwendungen und arbeiten Sie eng mit Designer und Führung während des gesamten funktionalen Designprozesses zusammen. Fördern Sie positive Entwicklungsprozesse und priorisieren Sie die Iterationsgeschwindigkeit. Erfordert mehr als 6 Jahre komplexes Backend für Webanwendungen

So optimieren Sie die Datenbankleistung nach der MySQL -Installation Apr 08, 2025 am 11:36 AM

Die MySQL -Leistungsoptimierung muss von drei Aspekten beginnen: Installationskonfiguration, Indexierung und Abfrageoptimierung, Überwachung und Abstimmung. 1. Nach der Installation müssen Sie die my.cnf -Datei entsprechend der Serverkonfiguration anpassen, z. 2. Erstellen Sie einen geeigneten Index, um übermäßige Indizes zu vermeiden und Abfrageanweisungen zu optimieren, z. B. den Befehl Erklärung zur Analyse des Ausführungsplans; 3. Verwenden Sie das eigene Überwachungstool von MySQL (ShowProcessList, Showstatus), um die Datenbankgesundheit zu überwachen und die Datenbank regelmäßig zu sichern und zu organisieren. Nur durch kontinuierliche Optimierung dieser Schritte kann die Leistung der MySQL -Datenbank verbessert werden.

See all articles