現実世界のデータから洞察を得る前に、データを精査して、データに一貫性があり、エラーがないことを確認することが重要です。ただし、データにはエラーが含まれる可能性があり、一部の値は他の値と異なって見える場合があり、これらの値は外れ値として知られています。異常値はデータ分析に悪影響を及ぼし、誤った洞察をもたらし、利害関係者による不適切な意思決定につながります。したがって、外れ値への対処は、データ サイエンスにおけるデータの前処理段階における重要なステップです。この記事では、外れ値を処理するさまざまな方法を評価します。
外れ値は、データセット内の大部分のデータ ポイントと大きく異なるデータ ポイントです。これらは、特定の変数の予想される値または通常の値の範囲外にある値です。外れ値は、データ入力時のエラー、サンプリングエラーなど、さまざまな理由で発生します。機械学習では、外れ値によりモデルが誤った予測を行う可能性があり、その結果、不正確な予測が生じる可能性があります。
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnings('ignore') plt.style.use('ggplot')
df_house_price = pd.read_csv(r'C:\Users\Admin\Desktop\csv files\housePrice.csv')
df_house_price.head()
sns.boxplot(df_house_price['Price']) plt.title('Box plot showing outliers in prices') plt.show()
Q1 = df_house_price['Price'].quantile(0.25) Q3 = df_house_price['Price'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
上限は、12872625000.0 を超える値は外れ値であることを意味します
価格列の外れ値を削除します
filt = (df_house_price['Price'] >= lower_bound) & (df_house_price['Price'] <= upper_bound) df = df_house_price[filt] df.head()
sns.boxplot(df['Price']) plt.title('Box plot after removing outliers') plt.show()
IQR 手法はシンプルかつ外れ値に対して堅牢であり、正規性の仮定に依存しません。欠点は、一変量データしか処理できないことと、データが歪んでいたり裾が重い場合に有効なデータ ポイントが削除される可能性があることです。
ありがとうございます
詳細については、リンクインと github で私をフォローしてください。
以上がPython での外れ値の処理 - IQR メソッドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。