데이터 분석에서는 표현과 분석을 단순화하기 위해 데이터를 범주로 구간화하는 것이 유용한 경우가 많습니다. 이는 백분율을 처리할 때처럼 숫자 데이터로 작업할 때 흔히 사용되는 기술입니다.
아래 표시된 대로 숫자 값을 포함하는 "percentage"라는 데이터 프레임 열이 있다고 가정해 보겠습니다.
df['percentage'].head() 46.5 44.2 100.0 42.12
이 열을 구간화하고 각 구간에 대한 값 개수를 얻으려면 pd.cut 함수를 사용할 수 있습니다. 이를 달성하는 두 가지 방법은 다음과 같습니다.
value_counts와 함께 pd.cut 사용:
bins = [0, 1, 5, 10, 25, 50, 100] df['binned'] = pd.cut(df['percentage'], bins) print(df.groupby(df['binned']).size())
np.searchsorted 및 groupby 사용:
df['binned'] = np.searchsorted(bins, df['percentage'].values) print(df.groupby(df['binned']).size())
두 방법 모두 다음을 반환합니다. 출력:
percentage (0, 1] 0 (1, 5] 0 (5, 10] 0 (10, 25] 0 (25, 50] 3 (50, 100] 1 dtype: int64
이 출력은 bin (0, 1], (1, 5], (5, 10] 및 (10, 25))에 값이 없음을 나타냅니다. 세 가지 값은 bin(25, 50]에 있고 하나의 값이 bin(50, 100]에 들어갑니다.
위 내용은 Pandas 열을 효율적으로 분류하고 각 저장소의 값을 계산하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!