Pandas에서는 다단계 그룹화 및 집계를 수행하여 복잡한 통계를 계산할 수 있습니다. 일반적인 작업 중 하나는 다른 여러 열로 정의된 그룹 내의 열 평균을 계산하는 것입니다.
다음 DataFrame을 고려하세요.
cluster org time 1 a 8 1 a 6 2 h 34 1 c 23 2 d 74 3 w 6
각 클러스터 내 조직당 평균 시간을 계산하려면 , 클러스터와 조직 모두를 기준으로 DataFrame을 그룹화할 수 있습니다.
df.groupby(['cluster', 'org'], as_index=False).mean()
이렇게 하면 클러스터와 조직별로 그룹화된 DataFrame이 생성됩니다. 각 그룹에 대해 계산된 평균 시간:
cluster org time 0 1 a 12.333333 1 1 c 23.0 2 2 h 34.0 3 2 d 74.0 4 3 w 6.0
각 클러스터 내의 평균 시간만 원하는 경우 클러스터별로만 그룹화할 수 있습니다.
df.groupby('cluster').mean()
이렇게 하면 DataFrame이 생성됩니다. 각 클러스터에 대해 계산된 평균 시간:
cluster time 0 1 12.333333 1 2 54.0 2 3 6.0
또는 다중 열 조합에서 그룹별 방법을 사용할 수 있습니다. ['cluster', 'org'] 그런 다음 평균 시간을 계산합니다.
df.groupby(['cluster', 'org']).mean()['time']
이렇게 하면 클러스터와 조직의 각 조합에 대해 계산된 평균 시간이 포함된 시리즈가 생성됩니다.
위 내용은 Pandas의 여러 그룹 내에서 평균값을 계산하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!