一貫性を保つためにデータフレームの列を正規化する
データ分析では、データ範囲の一貫性を確保するためにデータフレームの列を正規化することが必要になることがよくあります。これは、さまざまなソースからのデータを扱う場合、または値が異なるスケールにある場合に特に重要です。
問題ステートメント
さまざまな値の範囲を持つ列を含むデータフレームを考えてみましょう。
df: A B C 1000 10 0.5 765 5 0.35 800 7 0.09
目的は、各値が 0 と 1 の間に収まるようにこのデータフレームの列を正規化することです。
解決策
平均正規化
Pandas を使用すると、平均正規化を次のように実装できます。
normalized_df = (df - df.mean()) / df.std()
このメソッドは、元の値から各列の平均を減算し、それらを標準偏差。
最小-最大正規化
最小-最大正規化の場合:
normalized_df = (df - df.min()) / (df.max() - df.min())
このアプローチでは、それぞれの最小値と最大値が計算されます。
Result
どちらの正規化方法でも、各値が次の列を持つデータフレームが生成されます。 0 と 1 の間。指定されたサンプル データフレームの場合、期待される出力は次のとおりです:
A B C 1 1 1 0.765 0.5 0.7 0.8 0.7 0.18
以上がデータの一貫性を確保するために DataFrame 列を正規化するにはどうすればよいでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。