標準化 DataFrame 欄位以保持一致性
在資料分析中,通常需要標準化 DataFrame 的資料列以確保資料範圍的一致性。當處理來自不同來源的資料或值具有不同比例時,這一點尤其重要。
問題陳述
考慮一個包含不同值範圍的列的資料框:
df: A B C 1000 10 0.5 765 5 0.35 800 7 0.09
目標是標準化此資料幀的資料列,使每個值落在0 和1 之間。
解
平均值歸一化
使用Pandas,平均值歸一化可以實現如下:
normalized_df = (df - df.mean()) / df.std()
此方法從原始值中減去每列的平均值,然後除以標準差。
最小-最大歸一化
對於最小-最大歸一化:
normalized_df = (df - df.min()) / (df.max() - df.min())
此方法計算每個值的最小值和最大值列並使用它們將原始值縮放到範圍[0, 1]。
結果
兩種標準化方法都會產生一個資料幀,其中每個值是0 到 1 之間。對於給定的範例資料幀,預期輸出為:
A B C 1 1 1 0.765 0.5 0.7 0.8 0.7 0.18
以上是如何標準化 DataFrame 欄位以實現資料一致性?的詳細內容。更多資訊請關注PHP中文網其他相關文章!