計算按特定列分組的唯一值是資料分析中的一項常見任務。 Pandas 提供了多種方法來實現此目的。
在您的例子中,您有一個包含「ID」和「域」列的 DataFrame,並且需要計算每個「域」的唯一「ID」值。
使用df.groupby['domain', 'ID'].count()':
此方法傳回一個包含'ID' 和'domain' 群組計數的DataFrame 。但是,它計算每個組中的行數,而不僅僅是唯一的“ID”值。
使用`nunique()' 的解:
df.groupby ('domain')['ID'].nunique() 計算每個「domain ”組的唯一“ID”計數。產生的 DataFrame 將以 'domain' 欄位作為索引,並將計數作為新欄位。
剝離單引號:
如果您的'domain' 列包含單引號,請在分組前使用df.domain.str.strip("'")將其刪除。
保留列名稱:
保留'ID'結果中的列名,使用df.groupby(by='domain', as_index=False).agg( {'ID': pd.Series.nunique})。這將建立一個包含“domain”和“ID”(唯一計數)列的 DataFrame。
以上是如何使用 Pandas 計算按列分組的唯一值?的詳細內容。更多資訊請關注PHP中文網其他相關文章!