Datenrahmenspalten für Konsistenz normalisieren
Bei der Datenanalyse ist es häufig erforderlich, Spalten eines Datenrahmens zu normalisieren, um die Konsistenz der Datenbereiche sicherzustellen. Dies ist besonders wichtig, wenn Sie mit Daten aus verschiedenen Quellen arbeiten oder wenn Werte auf unterschiedlichen Skalen liegen.
Problemstellung
Betrachten Sie einen Datenrahmen mit Spalten, die unterschiedliche Wertebereiche haben:
df: A B C 1000 10 0.5 765 5 0.35 800 7 0.09
Das Ziel besteht darin, die Spalten dieses Datenrahmens so zu normalisieren, dass jeder Wert zwischen 0 und 1 liegt.
Lösung
Mittelwertnormalisierung
Mit Pandas kann die Mittelwertnormalisierung wie folgt implementiert werden:
normalized_df = (df - df.mean()) / df.std()
Diese Methode subtrahiert den Mittelwert jeder Spalte von den Originalwerten und dividiert sie dann durch Standardabweichung.
Min-Max-Normalisierung
Für Min-Max-Normalisierung:
normalized_df = (df - df.min()) / (df.max() - df.min())
Dieser Ansatz berechnet jeweils die Minimal- und Maximalwerte Spalte und verwendet sie, um die ursprünglichen Werte auf den Bereich [0, 1] zu skalieren.
Ergebnis
Beide Normalisierungsmethoden erzeugen einen Datenrahmen mit Spalten, in denen sich jeder Wert befindet zwischen 0 und 1. Für den angegebenen Beispieldatenrahmen ist die erwartete Ausgabe:
A B C 1 1 1 0.765 0.5 0.7 0.8 0.7 0.18
Das obige ist der detaillierte Inhalt vonWie können Sie DataFrame-Spalten normalisieren, um Datenkonsistenz zu erreichen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!