Pandas를 사용하여 그룹당 고유 값 계산
표 형식 데이터로 작업할 때 특정 내에서 고유한 값 발생을 계산해야 하는 경우가 종종 있습니다. 여러 떼. Pandas 라이브러리를 사용하여 Python에서 이를 달성하려면 groupby() 및 nunique() 메소드를 활용할 수 있습니다.
문제 설명:
문제를 설명하려면 다음을 고려하십시오. 다음 데이터 세트:
ID | domain |
---|---|
123 | vk.com |
123 | vk.com |
123 | twitter.com |
456 | vk.com' |
456 | facebook.com |
456 | vk.com |
456 | google.com |
789 | twitter.com |
789 | vk.com |
각 도메인 내의 고유 ID 값을 계산하는 작업이 있습니다.
해결책:
계산하려면 그룹당 고유한 값을 사용하려면 다음 코드를 사용할 수 있습니다.
<code class="python">df = df.groupby('domain')['ID'].nunique()</code>
groupby() 메서드는 도메인 열을 기준으로 데이터를 그룹화하는 반면, nunique() 메서드는 각 그룹 내에서 고유한 ID 발생 횟수를 계산합니다. 출력은 도메인 이름이 인덱스이고 해당 고유 값이 값으로 계산되는 시리즈입니다.
domain vk.com 3 twitter.com 2 facebook.com 1 google.com 1
추가 참고 사항:
문자열 조작의 예:
<code class="python">df['clean_domain'] = df.domain.str.strip("'") df = df.groupby('clean_domain')['ID'].nunique()</code>
agg()의 예:
<code class="python">df = df.groupby(by='domain', as_index=False).agg({'ID': pd.Series.nunique})</code>
위 내용은 Pandas를 사용하여 그룹당 고유 값을 계산하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!