Pandas DataFrames での外れ値の除外: データ異常の検出と削除
データ分析では、外れ値によって結果が歪められ、解釈が歪む可能性があります。この問題を軽減するには、データセットから外れ値を検出して除外することが重要です。この記事では、scipy.stats.zscore 関数を使用して pandas DataFrame で異常値を除外するエレガントな方法を示します。
複数の列を持つ DataFrame があり、そのうちの 1 つ (「Vol」という名前) に明確な値が含まれているとします。外れ値 (例: ほとんどの値が 1200 程度であるのに 4000)。特定の列でそのような異常値を含む行を削除するには、次の手順に従います。
異常値の検出に scipy.stats.zscore を使用する
必要ライブラリ:
import pandas as pd import numpy as np from scipy import stats
外れ値の影響を受けやすい列の Z スコアを計算します:
df["Vol_zscore"] = stats.zscore(df["Vol"])
行を識別する条件を作成しますから 3 標準偏差以内意味:
mask = np.abs(df["Vol_zscore"]) < 3
条件を使用して DataFrame をフィルターし、異常値の行を削除します:
filtered_df = df[mask]
これらの手順を適用すると、 Pandas DataFrame の特定の列に外れ値を含む行を効率的に検出して除外できます。この方法を使用すると、データ分析に偏りをもたらす可能性がある異常を除去し、より正確で信頼性の高い結果を保証できます。
以上がPandas DataFrame 列から外れ値を効率的に削除するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。