Bevor Sie Erkenntnisse aus realen Daten gewinnen, ist es wichtig, Ihre Daten zu prüfen, um sicherzustellen, dass die Daten konsistent und fehlerfrei sind. Allerdings können die Daten Fehler enthalten und einige Werte scheinen von anderen Werten abzuweichen. Diese Werte werden als Ausreißer bezeichnet. Ausreißer wirken sich negativ auf die Datenanalyse aus und führen zu falschen Erkenntnissen, die zu einer schlechten Entscheidungsfindung der Beteiligten führen. Daher ist der Umgang mit Ausreißern ein entscheidender Schritt in der Datenvorverarbeitungsphase in der Datenwissenschaft. In diesem Artikel werden wir verschiedene Möglichkeiten bewerten, wie wir mit Ausreißern umgehen können.
Ausreißer sind Datenpunkte, die sich erheblich von der Mehrheit der Datenpunkte in einem Datensatz unterscheiden. Dabei handelt es sich um Werte, die außerhalb des erwarteten oder üblichen Wertebereichs für eine bestimmte Variable liegen. Ausreißer treten aus verschiedenen Gründen auf, z. B. Fehler bei der Dateneingabe oder Stichprobenfehler. Beim maschinellen Lernen können Ausreißer dazu führen, dass Ihre Modelle falsche Vorhersagen treffen und somit ungenaue Vorhersagen verursachen.
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnings('ignore') plt.style.use('ggplot')
df_house_price = pd.read_csv(r'C:\Users\Admin\Desktop\csv files\housePrice.csv')
df_house_price.head()
sns.boxplot(df_house_price['Price']) plt.title('Box plot showing outliers in prices') plt.show()
Q1 = df_house_price['Price'].quantile(0.25) Q3 = df_house_price['Price'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
Obergrenze bedeutet, dass jeder Wert über 12872625000,0 ein Ausreißer ist
Ausreißerwerte in der Preisspalte entfernen
filt = (df_house_price['Price'] >= lower_bound) & (df_house_price['Price'] <= upper_bound) df = df_house_price[filt] df.head()
sns.boxplot(df['Price']) plt.title('Box plot after removing outliers') plt.show()
Die IQR-Methode ist einfach und robust gegenüber Ausreißern und hängt nicht von der Normalitätsannahme ab. Der Nachteil besteht darin, dass es nur univariate Daten verarbeiten kann und gültige Datenpunkte entfernen kann, wenn die Daten verzerrt sind oder starke Enden aufweisen.
Danke
Folgen Sie mir auf LinkedIn und auf Github für mehr.
Das obige ist der detaillierte Inhalt vonUmgang mit Ausreißern in Python – IQR-Methode. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!