ホームページ > バックエンド開発 > Python チュートリアル > Z スコアは Pandas DataFrame から外れ値を特定して削除するのにどのように役立ちますか?

Z スコアは Pandas DataFrame から外れ値を特定して削除するのにどのように役立ちますか?

DDD
リリース: 2024-12-02 18:19:15
オリジナル
179 人が閲覧しました

How Can Z-Scores Help Identify and Remove Outliers from Pandas DataFrames?

Z スコアを使用した Pandas DataFrame の外れ値の検出と除外

Pandas DataFrame からの外れ値の特定と削除は、精度とデータ分析の信頼性。これを達成するための一般的なアプローチは、データ ポイントの平均からの標準偏差の数を測定する Z スコアを利用することです。

このアプローチを実装するには、scipy.stats.zscore 関数を使用する必要があります。指定されたデータ配列の Z スコアを計算します。 DataFrame の各列に Z スコアを適用することで、どの行に平均と大きく異なる値が含まれているかを判断することが可能になります。

たとえば、「」などの特定の列が含まれるすべての行を除外します。 Vol」に外れ値が含まれている場合は、次の式を使用できます:

df[(np.abs(stats.zscore(df["Vol"])) < 3).all(axis=1)]
ログイン後にコピー

この式は、「Vol」列の各値の絶対 Z スコアを計算します。絶対値は、平均からの偏差の方向を無視するために使用されます。結果はブールマスクで、True は外れ値のない行を示します。このマスクを使用して DataFrame のインデックスを作成すると、極端な「Vol」値を持つ行が効果的に除外されます。

複数の列を考慮する必要がある場合は、任意の列に外れ値のある行を検査するように構文を変更できます。

df[(np.abs(stats.zscore(df)) < 3).all(axis=1)]
ログイン後にコピー

この場合、(np.abs(stats.zscore(df))

Z スコアと提供された式を利用することで、外れ値のデータ ポイントを簡単にフィルターで除外し、クリーンで信頼性の高いデータセットを確保できます。さらなる分析のために。

以上がZ スコアは Pandas DataFrame から外れ値を特定して削除するのにどのように役立ちますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート