以下為大家分享一篇Python對多屬性的重複資料去重實例,具有很好的參考價值,希望對大家有幫助。一起來看看吧
python中的pandas模組中對重複資料去重步驟:
1)利用DataFrame中的duplicated方法傳回一個布林型的Series,顯示各行是否有重複行,沒有重複行顯示為FALSE,有重複行顯示為TRUE;
2)再利用DataFrame中的drop_duplicates方法用於返回一個移除了重複行的DataFrame。
註解:
如果duplicated方法和drop_duplicates方法中沒有設定參數,則這兩個方法預設會判斷全部咧,如果在這兩個方法中加入了指定的屬性名稱(或稱為列名),例如:frame.drop_duplicates(['state']),則指定部分列(state列)進行重複項的判斷。
具體實例如下:
>>> import pandas as pd >>> data={'state':[1,1,2,2],'pop':['a','b','c','d']} >>> frame=pd.DataFrame(data) >>> frame pop state 0 a 1 1 b 1 2 c 2 3 d 2 >>> IsDuplicated=frame.duplicated() >>> print IsDuplicated 0 False 1 False 2 False 3 False dtype: bool >>> frame=frame.drop_duplicates(['state']) >>> frame pop state 0 a 1 2 c 2 >>> IsDuplicated=frame.duplicated(['state']) >>> print IsDuplicated 0 False 2 False dtype: bool >>>
#
以上是Python對多屬性的重複資料去重的詳細內容。更多資訊請關注PHP中文網其他相關文章!