Heim > Backend-Entwicklung > Python-Tutorial > Wie kann ich Ausreißer effizient aus einer Pandas DataFrame-Spalte entfernen?

Wie kann ich Ausreißer effizient aus einer Pandas DataFrame-Spalte entfernen?

Linda Hamilton
Freigeben: 2024-12-06 11:56:11
Original
454 Leute haben es durchsucht

How Can I Efficiently Remove Outliers from a Pandas DataFrame Column?

Ausschluss von Ausreißern in Pandas DataFrames: Erkennen und Entfernen von Datenanomalien

Bei der Datenanalyse können Ausreißer Ergebnisse verzerren und Interpretationen verzerren. Um dieses Problem zu entschärfen, ist es wichtig, Ausreißer aus Datensätzen zu erkennen und auszuschließen. Dieser Artikel demonstriert eine elegante Methode zum Ausschluss von Ausreißern in Pandas-DataFrames mithilfe der Funktion scipy.stats.zscore.

Angenommen, Sie haben einen DataFrame mit mehreren Spalten, von denen eine (mit dem Namen „Vol“) Werte mit einem Clear enthält Ausreißer (z. B. 4000, während die meisten Werte um 1200 liegen). Um Zeilen mit solchen Ausreißern in einer bestimmten Spalte zu entfernen, führen Sie die folgenden Schritte aus:

Verwenden von scipy.stats.zscore zur Ausreißererkennung

  1. Importieren Notwendige Bibliotheken:

    import pandas as pd
    import numpy as np
    from scipy import stats
    Nach dem Login kopieren
  2. Berechnen Sie den Z-Score für die ausreißeranfällige Spalte:

    df["Vol_zscore"] = stats.zscore(df["Vol"])
    Nach dem Login kopieren
  3. Erstellen Sie eine Bedingung, um Zeilen innerhalb von drei Standardabweichungen vom Mittelwert zu identifizieren:

    mask = np.abs(df["Vol_zscore"]) < 3
    Nach dem Login kopieren
  4. Verwenden Sie die Bedingung, um den DataFrame zu filtern und Ausreißer zu entfernen Zeilen:

    filtered_df = df[mask]
    Nach dem Login kopieren

Durch die Anwendung dieser Schritte können Sie Zeilen mit Ausreißern in einer bestimmten Spalte Ihres Pandas DataFrame effizient erkennen und ausschließen. Mit dieser Methode können Sie Anomalien entfernen, die Ihre Datenanalyse möglicherweise verzerren könnten, und genauere und zuverlässigere Ergebnisse gewährleisten.

Das obige ist der detaillierte Inhalt vonWie kann ich Ausreißer effizient aus einer Pandas DataFrame-Spalte entfernen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage