Spalten eines Datenrahmens normalisieren
In einem Datensatz ist es üblich, dass verschiedene Spalten unterschiedliche Wertebereiche haben. Dies kann den Vergleich und die Analyse der Daten erschweren. Durch die Normalisierung von Spalten werden sie auf einen gemeinsamen Bereich skaliert, normalerweise zwischen 0 und 1, was einen einfacheren Vergleich und eine einfachere Analyse ermöglicht.
Eine Methode zur Normalisierung von Spalten in Pandas, einer beliebten Datenanalysebibliothek, ist die Mittelwertnormalisierung. Dabei wird von jedem Wert der Mittelwert subtrahiert und das Ergebnis durch die Standardabweichung dividiert. Dadurch werden die Werte in einen Mittelwert von 0 und eine Standardabweichung von 1 übersetzt, wie in der Formel dargestellt:
normalized_df = (df - df.mean()) / df.std()
Alternativ kann die Min-Max-Normalisierung verwendet werden. Diese Methode skaliert Werte basierend auf den Mindest- und Höchstwerten in der Spalte. Die Formel für die Min-Max-Normalisierung lautet:
normalized_df = (df - df.min()) / (df.max() - df.min())
Um eine der beiden Methoden anzuwenden, verwenden Sie einfach die bereitgestellten Formeln im Datenrahmen. Pandas wendet die Funktion automatisch spaltenweise an und stellt so die Normalisierung für jede Spalte unabhängig sicher.
Das obige ist der detaillierte Inhalt vonWie normalisiert man Spalten in einem Datenrahmen für Vergleich und Analyse?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!