如何使用 Pandas 計算按列分組的唯一值？-Python教學-PHP中文網

如何使用 Pandas 計算按列分組的唯一值？

Patricia Arquette

發布： 2024-10-18 15:47:03

原創

922 人瀏覽過

How to Count Unique Values Grouped by a Column with Pandas?

使用 Pandas 計算每組的唯一值

計算按特定列分組的唯一值是資料分析中的一項常見任務。 Pandas 提供了多種方法來實現此目的。

在您的例子中，您有一個包含「ID」和「域」列的 DataFrame，並且需要計算每個「域」的唯一「ID」值。

使用df.groupby['domain', 'ID'].count()':

此方法傳回一個包含'ID' 和'domain' 群組計數的DataFrame 。但是，它計算每個組中的行數，而不僅僅是唯一的“ID”值。

使用`nunique()' 的解：

df.groupby ('domain')['ID'].nunique() 計算每個「domain ”組的唯一“ID”計數。產生的 DataFrame 將以 'domain' 欄位作為索引，並將計數作為新欄位。

剝離單引號：

如果您的'domain' 列包含單引號，請在分組前使用df.domain.str.strip("'")將其刪除。

保留列名稱：

保留'ID'結果中的列名，使用df.groupby(by='domain', as_index=False).agg( {'ID': pd.Series.nunique})。這將建立一個包含“domain”和“ID”（唯一計數）列的 DataFrame。

以上是如何使用 Pandas 計算按列分組的唯一值？的詳細內容。更多資訊請關注PHP中文網其他相關文章！