ホームページ > バックエンド開発 > Python チュートリアル > Pandas DataFrame 列から外れ値を効率的に削除するにはどうすればよいですか?

Pandas DataFrame 列から外れ値を効率的に削除するにはどうすればよいですか?

Linda Hamilton
リリース: 2024-12-06 11:56:11
オリジナル
445 人が閲覧しました

How Can I Efficiently Remove Outliers from a Pandas DataFrame Column?

Pandas DataFrames での外れ値の除外: データ異常の検出と削除

データ分析では、外れ値によって結果が歪められ、解釈が歪む可能性があります。この問題を軽減するには、データセットから外れ値を検出して除外することが重要です。この記事では、scipy.stats.zscore 関数を使用して pandas DataFrame で異常値を除外するエレガントな方法を示します。

複数の列を持つ DataFrame があり、そのうちの 1 つ (「Vol」という名前) に明確な値が含まれているとします。外れ値 (例: ほとんどの値が 1200 程度であるのに 4000)。特定の列でそのような異常値を含む行を削除するには、次の手順に従います。

異常値の検出に scipy.stats.zscore を使用する

  1. 必要ライブラリ:

    import pandas as pd
    import numpy as np
    from scipy import stats
    ログイン後にコピー
  2. 外れ値の影響を受けやすい列の Z スコアを計算します:

    df["Vol_zscore"] = stats.zscore(df["Vol"])
    ログイン後にコピー
  3. 行を識別する条件を作成しますから 3 標準偏差以内意味:

    mask = np.abs(df["Vol_zscore"]) < 3
    ログイン後にコピー
  4. 条件を使用して DataFrame をフィルターし、異常値の行を削除します:

    filtered_df = df[mask]
    ログイン後にコピー

これらの手順を適用すると、 Pandas DataFrame の特定の列に外れ値を含む行を効率的に検出して除外できます。この方法を使用すると、データ分析に偏りをもたらす可能性がある異常を除去し、より正確で信頼性の高い結果を保証できます。

以上がPandas DataFrame 列から外れ値を効率的に削除するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート