Inhaltsverzeichnis
Beginnen wir mit dem Datensatz
Split
Hybride Aufteilung
Mehrdimensionale Aufteilung
Fazit
Heim Technologie-Peripheriegeräte KI Unkonventionelle Aufteilungstechniken für Zeitreihen-Datensätze für maschinelles Lernen

Unkonventionelle Aufteilungstechniken für Zeitreihen-Datensätze für maschinelles Lernen

Apr 13, 2023 pm 01:10 PM
机器学习 数据 数据集

Ein Versuch, sicherzustellen, dass Modelle für maschinelles Lernen in unbekannten Umgebungen verallgemeinert werden, besteht darin, die Daten aufzuteilen. Dies kann auf verschiedene Weise erreicht werden, von 3-Wege-Aufteilungen (Training, Test, Bewertung) bis hin zu kreuzvalidierten K-Aufteilungen. Das Grundprinzip besteht darin, dass Sie durch das Trainieren eines Modells für maschinelles Lernen anhand einer Teilmenge von Daten und dessen Auswertung anhand unbekannter Daten besser abschätzen können, ob das Modell während des Trainings unzureichend oder übermäßig angepasst war.

Unkonventionelle Aufteilungstechniken für Zeitreihen-Datensätze für maschinelles Lernen

Für die meisten Arbeiten reicht ein einfaches 3-Wege-Werkzeug aus. In der realen Produktion erfordern Aufteilungsmethoden häufig komplexere Methoden, um Generalisierungsprobleme sicherzustellen. Diese Aufteilungen sind komplexer, da sie aus tatsächlichen Daten abgeleitet werden und nicht aus den Datenstrukturen, auf denen gewöhnliche Aufteilungsmethoden basieren. In diesem Artikel wird versucht, einige unkonventionelle Methoden zur Aufteilung von Daten in der Entwicklung maschinellen Lernens und die Gründe dafür zu erläutern.

Beginnen wir mit dem Datensatz

Der Einfachheit halber verwenden wir ein Tabellenformat, um einen einfachen multivariaten Zeitreihendatensatz darzustellen. Die Daten bestehen aus 3 numerischen Merkmalen, 1 kategorialem Merkmal und 1 Zeitstempelmerkmal. Hier ist die Visualisierung:

Unkonventionelle Aufteilungstechniken für Zeitreihen-Datensätze für maschinelles Lernen

Diese Art von Datensatz ist in vielen Anwendungsfällen und Branchen für maschinelles Lernen üblich. Ein konkretes Beispiel sind zeitgestreamte Daten, die von mehreren Sensoren in einer Fabrikhalle übertragen werden. Die kategoriale Variable ist die ID der Maschine, das numerische Merkmal sind die Informationen, die der Sensor aufzeichnet (z. B. Druck, Temperatur usw.), und der Zeitstempel ist der Zeitpunkt, zu dem die Daten übertragen und in der Datenbank aufgezeichnet wurden.

Split

Angenommen, Sie haben diesen Datensatz in Form einer CSV-Datei von der Datenentwicklungsabteilung erhalten und wurden mit der Erstellung eines Klassifizierungs- oder Regressionsmodells beauftragt. In diesem Fall kann die Beschriftung ein beliebiges Feature oder eine zusätzliche Spalte sein. Als Erstes müssen die Daten in sinnvolle Teilmengen aufgeteilt werden.

Der Einfachheit halber können Sie einfach in Trainingssatz und Testsatz aufteilen. Da taucht sofort das Problem auf: Eine einfache Aufteilung der Daten funktioniert hier nicht: Die Daten bestehen aus mehreren zeitlich indizierten Sensordatenströmen. Wie kann man also die Daten so aufteilen, dass die Reihenfolge erhalten bleibt und das nachfolgende Modell des maschinellen Lernens gut verallgemeinert werden kann? (z. B. Visualisierung der Daten für jede Maschine). Dies führt zu folgenden Ergebnissen:

Horizontale Aufteilung

Unkonventionelle Aufteilungstechniken für Zeitreihen-Datensätze für maschinelles Lernen Durch die Gruppierung wird das Problem der Aufteilung etwas einfacher, und vieles hängt von Ihren Annahmen ab. Sie fragen sich vielleicht: Wie lässt sich ein auf einer Gruppe trainiertes Modell für maschinelles Lernen auf andere Gruppen verallgemeinern, d Im Folgenden finden Sie eine Visualisierung dieser Aufteilung:

Die obige Aufteilungsmethode nenne ich horizontale Aufteilung. In den meisten Bibliotheken für maschinelles Lernen lässt sich diese Aufteilung leicht durch einfaches Gruppieren nach kategorialen Merkmalen und Partitionieren entlang der Kategorien erreichen. Durch das Training mit dieser Aufteilung hat das Modell Informationen gesammelt, die sich über unbekannte Gruppierungen hinweg verallgemeinern lassen.

Unkonventionelle Aufteilungstechniken für Zeitreihen-Datensätze für maschinelles LernenEs ist erwähnenswert, dass die Aufteilung nicht die Zeit als Grundlage für die Aufteilung selbst nutzt. Es kann jedoch davon ausgegangen werden, dass Sie auch jeden Zeitstrom nach Zeitreihenfolge aufteilen, um diese Beziehung in den Daten beizubehalten. Dies bringt uns zur nächsten Aufteilung.

Vertikale Aufteilung

Aber was ist, wenn Sie die Zeit selbst umfassen möchten? Bei den meisten Zeitreihenmodellen sind die üblichen Methoden zur Aufteilung der Daten Vergangenheit und Zukunft. Das heißt, die historischen Daten des Trainingssatzes werden mit den Daten des Bewertungssatzes verglichen. Die Hypothese in diesem Fall lautet: Wie verallgemeinert sich ein auf jeder Gruppe historischer Daten trainiertes Modell für maschinelles Lernen auf jede Gruppe zukünftiger Daten? Diese Frage kann durch eine sogenannte vertikale Aufteilung beantwortet werden:

Diese Aufteilung ist ein erfolgreiches Training wird zeigen, dass das Modell in der Lage ist, Muster im beobachteten Zeitstrom zu extrahieren und genaue Vorhersagen über zukünftiges Verhalten zu treffen. Dies allein bedeutet jedoch nicht, dass sich das Modell gut auf andere zeitliche Ströme aus verschiedenen Gruppen verallgemeinern lässt.

Natürlich müssen eure mehrfachen Zeitströme jetzt einzeln sortiert werden, also müssen wir sie noch gruppieren. Aber dieses Mal ziehen wir, anstatt Gruppen zu kreuzen, Stichproben aus jeder Gruppe in der Vergangenheit, setzen sie in Bewegung und bewerten die zukünftige Gruppe entsprechend. In diesem idealisierten Beispiel haben alle Zeitströme die gleiche Länge, d. h. jeder Zeitstrom hat genau die gleiche Anzahl an Datenpunkten. In der realen Welt ist dies jedoch möglicherweise nicht der Fall. Sie benötigen daher ein System, um jede Gruppe für die Aufteilung zu indizieren.

Hybride Aufteilung

Sie fragen sich vielleicht, ob sie ein Modell generieren können, das sich unter den Einschränkungen sowohl der horizontalen als auch der vertikalen Aufteilung gut verallgemeinern lässt? In diesem Fall wäre die Hypothese: Wie verallgemeinert sich ein auf einigen Gruppen historischer Daten trainiertes maschinelles Lernmodell auf zukünftige Daten dieser Gruppen und auf alle Daten anderer Gruppen? Eine Visualisierung dieser hybriden Aufteilung würde so aussehen:

Unkonventionelle Aufteilungstechniken für Zeitreihen-Datensätze für maschinelles Lernen

Wenn das Modelltraining erfolgreich ist, ist dieses Modell natürlich in der realen Welt definitiv robuster als andere Modelle. Es kann nicht nur nachweisen, dass es Lernmuster für einige Gruppen gesehen hat, sondern auch, dass es Informationen erworben hat, die sich über Gruppen hinweg verallgemeinern lassen. Dies könnte nützlich sein, wenn wir der Fabrik in Zukunft weitere ähnliche Maschinen hinzufügen würden.

Mehrdimensionale Aufteilung

Das Konzept der horizontalen und vertikalen Aufteilung kann auf viele Dimensionen verallgemeinert werden. Beispielsweise möchten Sie möglicherweise auf der Grundlage von zwei kategorialen Merkmalen statt einem gruppieren, um Untergruppen in Ihren Daten weiter zu isolieren und sie nach Untergruppen zu sortieren. Möglicherweise gibt es in der Mitte auch eine komplexe Logik zum Filtern nach Gruppen mit kleinen Stichprobengrößen sowie andere Logik auf Geschäftsebene im Zusammenhang mit der Domäne.

Fazit

Dieses hypothetische Beispiel dient dazu, die endlosen Möglichkeiten der verschiedenen maschinellen Lernaufteilungen zu veranschaulichen, die erstellt werden können. So wie es wichtig ist, bei der Bewertung von Modellen für Fairness beim maschinellen Lernen zu sorgen, ist es ebenso wichtig, genügend Zeit damit zu verbringen, über die Partitionierung Ihres Datensatzes und ihre Konsequenzen für die Verzerrung nachgelagerter Modelle nachzudenken.

Das obige ist der detaillierte Inhalt vonUnkonventionelle Aufteilungstechniken für Zeitreihen-Datensätze für maschinelles Lernen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. Crossplay haben?
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

In diesem Artikel erfahren Sie mehr über SHAP: Modellerklärung für maschinelles Lernen In diesem Artikel erfahren Sie mehr über SHAP: Modellerklärung für maschinelles Lernen Jun 01, 2024 am 10:58 AM

In den Bereichen maschinelles Lernen und Datenwissenschaft stand die Interpretierbarkeit von Modellen schon immer im Fokus von Forschern und Praktikern. Mit der weit verbreiteten Anwendung komplexer Modelle wie Deep Learning und Ensemble-Methoden ist das Verständnis des Entscheidungsprozesses des Modells besonders wichtig geworden. Explainable AI|XAI trägt dazu bei, Vertrauen in maschinelle Lernmodelle aufzubauen, indem es die Transparenz des Modells erhöht. Eine Verbesserung der Modelltransparenz kann durch Methoden wie den weit verbreiteten Einsatz mehrerer komplexer Modelle sowie der Entscheidungsprozesse zur Erläuterung der Modelle erreicht werden. Zu diesen Methoden gehören die Analyse der Merkmalsbedeutung, die Schätzung des Modellvorhersageintervalls, lokale Interpretierbarkeitsalgorithmen usw. Die Merkmalswichtigkeitsanalyse kann den Entscheidungsprozess des Modells erklären, indem sie den Grad des Einflusses des Modells auf die Eingabemerkmale bewertet. Schätzung des Modellvorhersageintervalls

Identifizieren Sie Über- und Unteranpassung anhand von Lernkurven Identifizieren Sie Über- und Unteranpassung anhand von Lernkurven Apr 29, 2024 pm 06:50 PM

In diesem Artikel wird vorgestellt, wie Überanpassung und Unteranpassung in Modellen für maschinelles Lernen mithilfe von Lernkurven effektiv identifiziert werden können. Unteranpassung und Überanpassung 1. Überanpassung Wenn ein Modell mit den Daten übertrainiert ist, sodass es daraus Rauschen lernt, spricht man von einer Überanpassung des Modells. Ein überangepasstes Modell lernt jedes Beispiel so perfekt, dass es ein unsichtbares/neues Beispiel falsch klassifiziert. Für ein überangepasstes Modell erhalten wir einen perfekten/nahezu perfekten Trainingssatzwert und einen schrecklichen Validierungssatz-/Testwert. Leicht geändert: „Ursache der Überanpassung: Verwenden Sie ein komplexes Modell, um ein einfaches Problem zu lösen und Rauschen aus den Daten zu extrahieren. Weil ein kleiner Datensatz als Trainingssatz möglicherweise nicht die korrekte Darstellung aller Daten darstellt. 2. Unteranpassung Heru.“

Langsame Internetgeschwindigkeiten für Mobilfunkdaten auf dem iPhone: Korrekturen Langsame Internetgeschwindigkeiten für Mobilfunkdaten auf dem iPhone: Korrekturen May 03, 2024 pm 09:01 PM

Stehen Sie vor einer Verzögerung oder einer langsamen mobilen Datenverbindung auf dem iPhone? Normalerweise hängt die Stärke des Mobilfunk-Internets auf Ihrem Telefon von mehreren Faktoren ab, wie z. B. der Region, dem Mobilfunknetztyp, dem Roaming-Typ usw. Es gibt einige Dinge, die Sie tun können, um eine schnellere und zuverlässigere Mobilfunk-Internetverbindung zu erhalten. Fix 1 – Neustart des iPhone erzwingen Manchmal werden durch einen erzwungenen Neustart Ihres Geräts viele Dinge zurückgesetzt, einschließlich der Mobilfunkverbindung. Schritt 1 – Drücken Sie einfach einmal die Lauter-Taste und lassen Sie sie los. Drücken Sie anschließend die Leiser-Taste und lassen Sie sie wieder los. Schritt 2 – Der nächste Teil des Prozesses besteht darin, die Taste auf der rechten Seite gedrückt zu halten. Lassen Sie das iPhone den Neustart abschließen. Aktivieren Sie Mobilfunkdaten und überprüfen Sie die Netzwerkgeschwindigkeit. Überprüfen Sie es erneut. Fix 2 – Datenmodus ändern 5G bietet zwar bessere Netzwerkgeschwindigkeiten, funktioniert jedoch besser, wenn das Signal schwächer ist

Implementierung von Algorithmen für maschinelles Lernen in C++: Häufige Herausforderungen und Lösungen Implementierung von Algorithmen für maschinelles Lernen in C++: Häufige Herausforderungen und Lösungen Jun 03, 2024 pm 01:25 PM

Zu den häufigsten Herausforderungen, mit denen Algorithmen für maschinelles Lernen in C++ konfrontiert sind, gehören Speicherverwaltung, Multithreading, Leistungsoptimierung und Wartbarkeit. Zu den Lösungen gehören die Verwendung intelligenter Zeiger, moderner Threading-Bibliotheken, SIMD-Anweisungen und Bibliotheken von Drittanbietern sowie die Einhaltung von Codierungsstilrichtlinien und die Verwendung von Automatisierungstools. Praktische Fälle zeigen, wie man die Eigen-Bibliothek nutzt, um lineare Regressionsalgorithmen zu implementieren, den Speicher effektiv zu verwalten und leistungsstarke Matrixoperationen zu nutzen.

Die Vitalität der Superintelligenz erwacht! Aber mit der Einführung der sich selbst aktualisierenden KI müssen sich Mütter keine Sorgen mehr über Datenengpässe machen Die Vitalität der Superintelligenz erwacht! Aber mit der Einführung der sich selbst aktualisierenden KI müssen sich Mütter keine Sorgen mehr über Datenengpässe machen Apr 29, 2024 pm 06:55 PM

Ich weine zu Tode. Die Daten im Internet reichen überhaupt nicht aus. Das Trainingsmodell sieht aus wie „Die Tribute von Panem“, und KI-Forscher auf der ganzen Welt machen sich Gedanken darüber, wie sie diese datenhungrigen Esser ernähren sollen. Dieses Problem tritt insbesondere bei multimodalen Aufgaben auf. Zu einer Zeit, als sie ratlos waren, nutzte ein Start-up-Team der Abteilung der Renmin-Universität von China sein eigenes neues Modell, um als erstes in China einen „modellgenerierten Datenfeed selbst“ in die Realität umzusetzen. Darüber hinaus handelt es sich um einen zweigleisigen Ansatz auf der Verständnisseite und der Generierungsseite. Beide Seiten können hochwertige, multimodale neue Daten generieren und Datenrückmeldungen an das Modell selbst liefern. Was ist ein Modell? Awaker 1.0, ein großes multimodales Modell, das gerade im Zhongguancun-Forum erschienen ist. Wer ist das Team? Sophon-Motor. Gegründet von Gao Yizhao, einem Doktoranden an der Hillhouse School of Artificial Intelligence der Renmin University.

Tesla-Roboter arbeiten in Fabriken, Musk: Der Freiheitsgrad der Hände wird dieses Jahr 22 erreichen! Tesla-Roboter arbeiten in Fabriken, Musk: Der Freiheitsgrad der Hände wird dieses Jahr 22 erreichen! May 06, 2024 pm 04:13 PM

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

Die U.S. Air Force präsentiert ihren ersten KI-Kampfjet mit großem Aufsehen! Der Minister führte die Testfahrt persönlich durch, ohne in den gesamten Prozess einzugreifen, und 100.000 Codezeilen wurden 21 Mal getestet. Die U.S. Air Force präsentiert ihren ersten KI-Kampfjet mit großem Aufsehen! Der Minister führte die Testfahrt persönlich durch, ohne in den gesamten Prozess einzugreifen, und 100.000 Codezeilen wurden 21 Mal getestet. May 07, 2024 pm 05:00 PM

Kürzlich wurde die Militärwelt von der Nachricht überwältigt: US-Militärkampfflugzeuge können jetzt mithilfe von KI vollautomatische Luftkämpfe absolvieren. Ja, erst kürzlich wurde der KI-Kampfjet des US-Militärs zum ersten Mal der Öffentlichkeit zugänglich gemacht und sein Geheimnis gelüftet. Der vollständige Name dieses Jägers lautet „Variable Stability Simulator Test Aircraft“ (VISTA). Er wurde vom Minister der US-Luftwaffe persönlich geflogen, um einen Eins-gegen-eins-Luftkampf zu simulieren. Am 2. Mai startete US-Luftwaffenminister Frank Kendall mit einer X-62AVISTA auf der Edwards Air Force Base. Beachten Sie, dass während des einstündigen Fluges alle Flugaktionen autonom von der KI durchgeführt wurden! Kendall sagte: „In den letzten Jahrzehnten haben wir über das unbegrenzte Potenzial des autonomen Luft-Luft-Kampfes nachgedacht, aber es schien immer unerreichbar.“ Nun jedoch,

Fünf Schulen des maschinellen Lernens, die Sie nicht kennen Fünf Schulen des maschinellen Lernens, die Sie nicht kennen Jun 05, 2024 pm 08:51 PM

Maschinelles Lernen ist ein wichtiger Zweig der künstlichen Intelligenz, der Computern die Möglichkeit gibt, aus Daten zu lernen und ihre Fähigkeiten zu verbessern, ohne explizit programmiert zu werden. Maschinelles Lernen hat ein breites Anwendungsspektrum in verschiedenen Bereichen, von der Bilderkennung und der Verarbeitung natürlicher Sprache bis hin zu Empfehlungssystemen und Betrugserkennung, und es verändert unsere Lebensweise. Im Bereich des maschinellen Lernens gibt es viele verschiedene Methoden und Theorien, von denen die fünf einflussreichsten Methoden als „Fünf Schulen des maschinellen Lernens“ bezeichnet werden. Die fünf Hauptschulen sind die symbolische Schule, die konnektionistische Schule, die evolutionäre Schule, die Bayes'sche Schule und die Analogieschule. 1. Der Symbolismus, auch Symbolismus genannt, betont die Verwendung von Symbolen zum logischen Denken und zum Ausdruck von Wissen. Diese Denkrichtung glaubt, dass Lernen ein Prozess der umgekehrten Schlussfolgerung durch das Vorhandene ist

See all articles