如何使用 Pandas 計算按列分組的唯一值?

Patricia Arquette
發布: 2024-10-18 15:47:03
原創
831 人瀏覽過

How to Count Unique Values Grouped by a Column with Pandas?

使用 Pandas 計算每組的唯一值

計算按特定列分組的唯一值是資料分析中的一項常見任務。 Pandas 提供了多種方法來實現此目的。

在您的例子中,您有一個包含「ID」和「域」列的 DataFrame,並且需要計算每個「域」的唯一「ID」值。

使用df.groupby['domain', 'ID'].count()':

此方法傳回一個包含'ID' 和'domain' 群組計數的DataFrame 。但是,它計算每個組中的行數,而不僅僅是唯一的“ID”值。

使用`nunique()' 的解:

df.groupby ('domain')['ID'].nunique() 計算每個「domain ”組的唯一“ID”計數。產生的 DataFrame 將以 'domain' 欄位作為索引,並將計數作為新欄位。

剝離單引號:

如果您的'domain' 列包含單引號,請在分組前使用df.domain.str.strip("'")將其刪除。

保留列名稱:

保留'ID'結果中的列名,使用df.groupby(by='domain', as_index=False).agg( {'ID': pd.Series.nunique})。這將建立一個包含“domain”和“ID”(唯一計數)列的 DataFrame。

以上是如何使用 Pandas 計算按列分組的唯一值?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板