Pandas를 사용하여 그룹당 고유 값을 계산하는 방법은 무엇입니까?-파이썬 튜토리얼-php.cn

Pandas를 사용하여 그룹당 고유 값을 계산하는 방법은 무엇입니까?

Susan Sarandon

풀어 주다： 2024-10-18 15:49:03

원래의

1084명이 탐색했습니다.

How to Count Unique Values per Groups with Pandas?

Pandas를 사용하여 그룹당 고유 값 계산

표 형식 데이터로 작업할 때 특정 내에서 고유한 값 발생을 계산해야 하는 경우가 종종 있습니다. 여러 떼. Pandas 라이브러리를 사용하여 Python에서 이를 달성하려면 groupby() 및 nunique() 메소드를 활용할 수 있습니다.

문제 설명:

문제를 설명하려면 다음을 고려하십시오. 다음 데이터 세트:

각 도메인 내의 고유 ID 값을 계산하는 작업이 있습니다.

해결책:

계산하려면 그룹당 고유한 값을 사용하려면 다음 코드를 사용할 수 있습니다.

<code class="python">df = df.groupby('domain')['ID'].nunique()</code>

로그인 후 복사

groupby() 메서드는 도메인 열을 기준으로 데이터를 그룹화하는 반면, nunique() 메서드는 각 그룹 내에서 고유한 ID 발생 횟수를 계산합니다. 출력은 도메인 이름이 인덱스이고 해당 고유 값이 값으로 계산되는 시리즈입니다.

domain
vk.com        3
twitter.com   2
facebook.com  1
google.com    1

로그인 후 복사

추가 참고 사항:

도메인 열의 경우 값에 작은따옴표(')가 포함되어 있으면 str.strip("'") 메서드를 사용하여 그룹화하기 전에 이를 제거할 수 있습니다.
출력에서 열 이름을 유지하려면 pd와 함께 agg() 메서드를 사용하세요. .Series.nunique 함수.

문자열 조작의 예:

<code class="python">df['clean_domain'] = df.domain.str.strip("'")
df = df.groupby('clean_domain')['ID'].nunique()</code>

로그인 후 복사

agg()의 예:

<code class="python">df = df.groupby(by='domain', as_index=False).agg({'ID': pd.Series.nunique})</code>

로그인 후 복사

위 내용은 Pandas를 사용하여 그룹당 고유 값을 계산하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!