Pandas를 사용하면 다양한 집계 작업을 수행하여 차원을 줄이고 데이터를 요약할 수 있습니다.
Pandas는 다양한 기능을 제공합니다. 평균(), 합계(), 개수(), 최소() 및 최대()를 포함한 집계 함수. 이러한 함수를 사용하여 각 그룹에 대한 요약 통계를 계산할 수 있습니다. 예:
# Calculate mean of each group based on 'A' and 'B' columns df1 = df.groupby(['A', 'B']).mean() # Print the results print(df1)
여러 열에 집계를 적용하면 그룹화된 열 수에 따라 결과 개체가 시리즈 또는 DataFrame이 될 수 있습니다.
DataFrame을 가져오려면 모든 열에 대해서는 groupby 함수에서 as_index=False를 사용하세요.
문자열 열을 집계하려면 목록, 튜플 또는 조인 작업을 사용할 수 있습니다.
예:
# Convert 'B' column values to a list for each group df1 = df.groupby('A')['B'].agg(list).reset_index() # Combine 'B' column values into a string with separator for each group df2 = df.groupby('A')['B'].agg(','.join).reset_index()
각 항목에서 누락되지 않은 값을 계산하려면 그룹의 경우 GroupBy.count()를 사용하세요. 누락된 값을 포함하여 모든 값을 계산하려면 GroupBy.size()를 사용합니다.
예:
# Count non-missing values in 'C' column for each group df1 = df.groupby('A')['C'].count().reset_index(name='COUNT') # Count all values in 'A' column for each group df2 = df.groupby('A').size().reset_index(name='COUNT')
transform() 메소드를 사용하여 집계된 값을 포함하는 새 열을 추가할 수 있습니다. 변환() 함수는 지정된 작업을 각 그룹에 적용하고 원래 개체와 동일한 크기의 새 개체를 반환합니다.
예:
# Create a new 'C1' column with the sum of 'C' grouped by 'A' df['C1'] = df.groupby('A')['C'].transform('sum')
위 내용은 Pandas로 데이터 집계를 수행하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!