> 백엔드 개발 > 파이썬 튜토리얼 > Pandas 열을 효율적으로 분류하고 각 저장소의 값을 계산하는 방법은 무엇입니까?

Pandas 열을 효율적으로 분류하고 각 저장소의 값을 계산하는 방법은 무엇입니까?

Susan Sarandon
풀어 주다: 2024-12-09 19:17:17
원래의
335명이 탐색했습니다.

How to Efficiently Bin a Pandas Column and Count Values in Each Bin?

Pandas를 사용하여 열 구간화

데이터 분석에서는 표현과 분석을 단순화하기 위해 데이터를 범주로 구간화하는 것이 유용한 경우가 많습니다. 이는 백분율을 처리할 때처럼 숫자 데이터로 작업할 때 흔히 사용되는 기술입니다.

아래 표시된 대로 숫자 값을 포함하는 "percentage"라는 데이터 프레임 열이 있다고 가정해 보겠습니다.

df['percentage'].head()
46.5
44.2
100.0
42.12
로그인 후 복사

이 열을 구간화하고 각 구간에 대한 값 개수를 얻으려면 pd.cut 함수를 사용할 수 있습니다. 이를 달성하는 두 가지 방법은 다음과 같습니다.

value_counts와 함께 pd.cut 사용:

bins = [0, 1, 5, 10, 25, 50, 100]
df['binned'] = pd.cut(df['percentage'], bins)
print(df.groupby(df['binned']).size())
로그인 후 복사

np.searchsorted 및 groupby 사용:

df['binned'] = np.searchsorted(bins, df['percentage'].values)
print(df.groupby(df['binned']).size())
로그인 후 복사

두 방법 모두 다음을 반환합니다. 출력:

percentage
(0, 1]       0
(1, 5]       0
(5, 10]      0
(10, 25]     0
(25, 50]     3
(50, 100]    1
dtype: int64
로그인 후 복사

이 출력은 bin (0, 1], (1, 5], (5, 10] 및 (10, 25))에 값이 없음을 나타냅니다. 세 가지 값은 bin(25, 50]에 있고 하나의 값이 bin(50, 100]에 들어갑니다.

위 내용은 Pandas 열을 효율적으로 분류하고 각 저장소의 값을 계산하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿