Z スコアを使用した Pandas DataFrame の外れ値の検出と除外
Pandas DataFrame からの外れ値の特定と削除は、精度とデータ分析の信頼性。これを達成するための一般的なアプローチは、データ ポイントの平均からの標準偏差の数を測定する Z スコアを利用することです。
このアプローチを実装するには、scipy.stats.zscore 関数を使用する必要があります。指定されたデータ配列の Z スコアを計算します。 DataFrame の各列に Z スコアを適用することで、どの行に平均と大きく異なる値が含まれているかを判断することが可能になります。
たとえば、「」などの特定の列が含まれるすべての行を除外します。 Vol」に外れ値が含まれている場合は、次の式を使用できます:
df[(np.abs(stats.zscore(df["Vol"])) < 3).all(axis=1)]
この式は、「Vol」列の各値の絶対 Z スコアを計算します。絶対値は、平均からの偏差の方向を無視するために使用されます。結果はブールマスクで、True は外れ値のない行を示します。このマスクを使用して DataFrame のインデックスを作成すると、極端な「Vol」値を持つ行が効果的に除外されます。
複数の列を考慮する必要がある場合は、任意の列に外れ値のある行を検査するように構文を変更できます。
df[(np.abs(stats.zscore(df)) < 3).all(axis=1)]
この場合、(np.abs(stats.zscore(df))
Z スコアと提供された式を利用することで、外れ値のデータ ポイントを簡単にフィルターで除外し、クリーンで信頼性の高いデータセットを確保できます。さらなる分析のために。
以上がZ スコアは Pandas DataFrame から外れ値を特定して削除するのにどのように役立ちますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。