Pandas DataFrames でのグループ平均による欠損値の代入
データ操作タスクでは、NaN として示される欠損値が発生することがよくあります。この問題に対処するための 1 つのアプローチは、これらの欠損値を特定のグループ内で計算された平均値で埋めることです。
サンプル データフレームを考えてみましょう:
name | value |
---|---|
A | 1 |
A | NaN |
B | NaN |
B | 2 |
B | 3 |
B | 1 |
C | 3 |
C | NaN |
C | 3 |
私たちの目標は、NaN を置き換えることです。対応するグループの値は「値」の平均値となります。これを実現するには、transform() メソッドを利用します。
mean_values = df.groupby('name').transform(lambda x: x.fillna(x.mean())) df["value"] = mean_values
実行後、データフレームが更新されます。
name | value |
---|---|
A | 1 |
A | 1 |
B | 2 |
B | 2 |
B | 3 |
B | 1 |
C | 3 |
C | 3 |
C | 3 |
各 NaN 値は、それぞれのグループ平均値に置き換えられます。 、さらなる分析のためにデータの整合性を維持します。
以上がグループ平均を使用して Pandas DataFrame の欠損値を代入するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。