Pandas에서 도메인별로 그룹화된 고유 값 계산
각 도메인 내의 고유한 사용자 ID를 확인하려면 Pandas의 nunique()를 활용할 수 있습니다. 기능. 이 함수는 하나 이상의 다른 열로 그룹화된 지정된 열의 고유 값 수를 계산합니다.
귀하의 경우 데이터를 도메인별로 그룹화하고 nunique()를 사용하여 ID의 고유 값을 계산할 수 있습니다. 열:
<code class="python">df.groupby('domain')['ID'].nunique()</code>
이렇게 하면 도메인을 인덱스로, 각 도메인의 고유 ID 개수를 값으로 사용하여 DataFrame이 생성됩니다.
domain | count |
---|---|
vk.com | 3 |
twitter.com | 2 |
facebook.com | 1 |
google.com | 1 |
도메인 값 앞에 또는 후행 작은따옴표(')는 str.strip("'") 메서드를 사용하여 그룹화하기 전에 제거할 수 있습니다.
<code class="python">df.groupby(df.domain.str.strip("'"))['ID'].nunique()</code>
또는 다음을 사용하여 출력 DataFrame에서 도메인 열 이름을 유지할 수 있습니다. as_index=False인 agg() 함수:
<code class="python">df.groupby(by='domain', as_index=False).agg({'ID': pd.Series.nunique})</code>
이 접근 방식은 도메인 열과 각 도메인의 고유 ID 수가 포함된 ID라는 새 열이 있는 DataFrame을 반환합니다.
위 내용은 Pandas에서 도메인별로 그룹화된 고유 값을 계산하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!