Die Betriebsumgebung dieses Artikels: Windows 7-System, Dell G3-Computer.
Datenvorverarbeitung bezieht sich auf die notwendige Verarbeitung wie Überprüfung, Überprüfung, Sortierung usw. vor der Klassifizierung oder Gruppierung der gesammelten Daten.
Datenvorverarbeitung dient einerseits der Verbesserung der Datenqualität, andererseits aber auch der Anpassung an die zur Datenanalyse eingesetzte Software bzw. Methoden. Im Allgemeinen sind die Datenvorverarbeitungsschritte: Datenbereinigung, Datenintegration, Datentransformation, Datenreduktion, und jeder große Schritt hat einige kleine Unterteilungen. Natürlich müssen diese vier Hauptschritte bei der Datenvorverarbeitung nicht unbedingt ausgeführt werden.
1. Datenbereinigung
Datenbereinigung wandelt, wie der Name schon sagt, „schwarze“ Daten in „saubere“ Daten um.
Schmutzig in der Form, wie etwa fehlende Werte und Sonderzeichen;
Schmutzig im Inhalt, wie etwa Ausreißer.
1. Fehlende Werte
Fehlende Werte umfassen die Identifizierung fehlender Werte und die Verarbeitung fehlender Werte.
In R wird die Funktion is.na verwendet, um fehlende Werte zu identifizieren, und die Funktion complete.cases wird verwendet, um festzustellen, ob die Beispieldaten vollständig sind.
Häufig verwendete Methoden zum Umgang mit fehlenden Werten sind: Löschen, Ersetzen und Interpolation.
-
Löschmethode: Die Löschmethode kann in das Löschen von Beobachtungsstichproben und -variablen entsprechend unterschiedlichen Löschwinkeln, das Löschen von Beobachtungsstichproben (Zeilenlöschmethode) und die Funktion na.omit in R unterteilt werden, die Zeilen mit fehlenden Werten löschen kann.
Dies entspricht einer Reduzierung der Stichprobengröße im Austausch für Vollständigkeit der Informationen. Wenn jedoch Variablen erheblich fehlen und nur geringe Auswirkungen auf die Forschungsziele haben, können Sie erwägen, die Variable R zu löschen und die Anweisung mydata[,-p] zu verwenden. um es zu vervollständigen. mydata stellt den Namen des gelöschten Datensatzes dar, p ist die Anzahl der Spalten der gelöschten Variablen und - steht für Löschung.
Ersetzungsmethode: Die Ersetzungsmethode ersetzt, wie der Name schon sagt, unterschiedliche Ersetzungsregeln für verschiedene Variablen. Die Variable, in der sich der fehlende Wert befindet, ist ein numerischer Typ Die Variable wird verwendet, um den fehlenden Wert zu ersetzen. Wenn es sich um eine nicht numerische Variable handelt, wird sie durch den Median oder Modus anderer beobachteter Werte unter der Variablen ersetzt.
-
Interpolationsmethode: Die Interpolationsmethode ist in Regressionsinterpolation und Mehrfachinterpolation unterteilt.
Regressionsinterpolation bezieht sich auf die Behandlung der interpolierten Variablen als abhängige Variable y und andere Variablen als unabhängige Variablen, die Verwendung des Regressionsmodells zur Anpassung und die Verwendung der LM-Regressionsfunktion in R zur Interpolation fehlender Werte.
Multiple Imputation bezieht sich auf die Generierung ein vollständiger Datensatz aus einem Datensatz, der fehlende Werte enthält. Es wird mehrmals durchgeführt, um eine Zufallsstichprobe fehlender Werte zu generieren. Das Mäusepaket in R kann mehrere Imputationen durchführen.
2. Ausreißer
Ausreißer umfassen wie fehlende Werte die Identifizierung und Verarbeitung von Ausreißern.
Die Identifizierung von Ausreißern erfolgt normalerweise mit einem Streudiagramm mit einer Variablen oder einem Boxplot. In R ist Dotchart eine Funktion, die ein Streudiagramm mit einer Variablen zeichnet, und die Boxplot-Funktion zeichnet ein Boxplot in Grafiken , die Werte, die weit von den normalen Punkten innerhalb des Bereichs entfernt sind, werden als Ausreißer behandelt.
Die Verarbeitung von Ausreißern umfasst das Löschen von Beobachtungen, die Ausreißer enthalten (direktes Löschen, wenn nur wenige Stichproben vorhanden sind, führt das direkte Löschen zu einer unzureichenden Stichprobengröße und ändert die Verteilung der Variablen), sie als fehlende Werte zu behandeln (vorhandene Informationen verwenden, und behandeln Sie sie als fehlende Werte) Wenn fehlende Werte ausgefüllt werden), Mittelwertkorrektur (der Ausreißer wird mit dem Mittelwert der beiden vorherigen und späteren Beobachtungen korrigiert) und keine Verarbeitung. Beim Umgang mit Ausreißern müssen Sie zunächst die möglichen Gründe für das Auftreten von Ausreißern prüfen und dann entscheiden, ob die Ausreißer verworfen werden sollten.
2. Datenintegration
Die sogenannte Datenintegration besteht darin, mehrere Datenquellen in einem Datenspeicher zusammenzuführen. Wenn sich die analysierten Daten ursprünglich in einem Datenspeicher befinden, besteht natürlich keine Notwendigkeit für die Datenintegration (All-in-One).
Die Implementierung der Datenintegration besteht darin, zwei Datenrahmen basierend auf Schlüsselwörtern zu kombinieren und die Zusammenführungsfunktion in R zu verwenden. Die Anweisung lautet merge (dataframe1, dataframe2, by="keyword") und die Standardeinstellung ist in aufsteigender Reihenfolge
Bei der Datenintegration können folgende Probleme auftreten:
-
Derselbe Name hat Synonyme. Der Name eines Attributs in Datenquelle A ist derselbe wie der Name eines Attributs in Datenquelle B, aber die dargestellten Entitäten sind unterschiedlich können nicht als Schlüsselwörter verwendet werden;
Synonyme Namen, das heißt, ein Attribut in zwei Datenquellen hat einen unterschiedlichen Namen, stellt jedoch dieselbe Entität dar, die als Schlüsselwort verwendet werden kann
Datenintegration führt häufig dazu, dass Daten verwendet werden Redundanz, und das gleiche Attribut kann mehrmals vorkommen. Es kann sich auch um eine Duplizierung handeln, die durch inkonsistente Attributnamen verursacht wird. Führen Sie bei doppelten Attributen zuerst eine relevante Analyse und Erkennung durch und löschen Sie sie dann, wenn sie vorhanden sind
3. Daten Transformation
Bei der Datentransformation geht es darum, sie in eine geeignete Form umzuwandeln, um den Anforderungen der Software- oder Analysetheorie gerecht zu werden.
1. Einfache Funktionstransformation
Einfache Funktionstransformation wird verwendet, um Daten ohne Normalverteilung in Daten mit Normalverteilung umzuwandeln. Zu den häufig verwendeten gehören Quadrat, Quadratwurzel, Logarithmus, Differenz usw. Beispielsweise werden in Zeitreihen oft Logarithmus- oder Differenzoperationen an Daten durchgeführt, um instationäre Folgen in stationäre Folgen umzuwandeln.
2. Standardisierung
Bei der Normalisierung geht es darum, den Einfluss der variablen Dimension zu beseitigen, indem beispielsweise der Unterschied in den Einheiten und der Wertebereich direkt verglichen werden.
Minimum-Maximum-Normalisierung: Wird auch als Dispersionsstandardisierung bezeichnet und transformiert die Daten linear, um ihren Bereich auf [0,1] zu ändern auf 0 und die Standardabweichung beträgt 1
Dezimalskalierungsnormalisierung: Verschieben Sie die Dezimalstellen des Attributwerts und ordnen Sie den Attributwert [-1,1] zu.
- 3. Kontinuierliche Attributdiskretisierung
Konvertierung Kontinuierliche Attributvariablen in kategoriale Attribute sind die Diskretisierung kontinuierlicher Attribute. Insbesondere erfordern einige Klassifizierungsalgorithmen, dass Daten kategoriale Attribute sind, wie beispielsweise der ID3-Algorithmus. Zu den häufig verwendeten Diskretisierungsmethoden gehören die folgenden:
Methode gleicher Breite: Teilen Sie den Wertebereich des Attributs in Intervalle mit derselben Breite auf, ähnlich wie beim Erstellen einer Häufigkeitsverteilungstabelle.
Methode gleicher Häufigkeit: Teilen Sie die gleichen Datensätze auf. Platzieren Sie sie in jedem Intervall.
Eindimensionales Clustering: Verwenden Sie zunächst den Clustering-Algorithmus für die Werte kontinuierlicher Attribute, führen Sie dann die Clustersätze zu einem kontinuierlichen Wert zusammen und markieren Sie ihn mit das gleiche Zeichen.
- 4. Datenreduzierung
Datenreduzierung bezieht sich auf das Finden nützlicher Merkmale von Daten, die vom Entdeckungsziel abhängen, basierend auf dem Verständnis der Mining-Aufgabe und dem Inhalt der Daten selbst, um die zu reduzieren Größe der Daten, wodurch die Datenmenge minimiert und gleichzeitig das ursprüngliche Erscheinungsbild der Daten so weit wie möglich beibehalten wird. Datenreduzierung kann die Auswirkungen ungültiger und fehlerhafter Daten auf die Modellierung verringern, den Zeitaufwand verkürzen und den Speicherplatz für die Datenspeicherung verringern.
1. AttributreduktionBei der Attributreduktion geht es darum, die kleinste Attributteilmenge zu finden und die Wahrscheinlichkeitsverteilung der Teilmenge zu bestimmen, die der Wahrscheinlichkeitsverteilung der Originaldaten nahe kommt.
Attribute zusammenführen: Einige alte Attribute zu einem neuen zusammenführen;
Schrittweise vorwärts auswählen: Beginnen Sie mit einem leeren Attributsatz und wählen Sie jedes Mal das aktuell optimale Attribut aus dem ursprünglichen Attributsatz aus und fügen Sie es dem aktuellen hinzu Kind Konzentrieren Sie sich, bis das optimale Attribut nicht ausgewählt werden kann oder ein Einschränkungswert erfüllt ist.
Wählen Sie Schritt für Schritt: Beginnen Sie mit einem leeren Attributsatz, wählen Sie jedes Mal das aktuell schlechteste Attribut im ursprünglichen Attributsatz aus und eliminieren Sie den aktuellen Teilsatz. die ganze Zeit, bis das schlechteste Attribut nicht ausgewählt werden kann oder ein Einschränkungswert erfüllt ist;
-
Entscheidungsbaum-Induktion: Attribute, die nicht in diesem Entscheidungsbaum erscheinen, werden aus der anfänglichen Menge gelöscht, um eine bessere Attribut-Teilmenge zu erhalten;
Hauptkomponentenanalyse: Verwenden Sie weniger Variablen, um die meisten Variablen in den Originaldaten zu erklären (verwenden Sie stark korrelierte Variablen, um sie in unabhängige oder unkorrelierte Variablen umzuwandeln). - 2. Numerische Reduzierung
- Durch Reduzierung der Datenmenge, einschließlich parametrischer und nichtparametrischer Methoden, parametrischer Methoden wie linearer Regression und multipler Regression, nichtparametrischer Methoden wie Histogramme, Stichproben usw.
“!