> 백엔드 개발 > 파이썬 튜토리얼 > 각 Pandas 그룹 내에서 상위 N개 레코드를 효율적으로 얻는 방법은 무엇입니까?

각 Pandas 그룹 내에서 상위 N개 레코드를 효율적으로 얻는 방법은 무엇입니까?

Patricia Arquette
풀어 주다: 2024-12-02 19:27:14
원래의
1007명이 탐색했습니다.

How to Efficiently Get the Top N Records within Each Pandas Group?

Pandas 그룹 내에서 최고 기록 얻기

다음 데이터세트에서:

df = pd.DataFrame({'id':[1,1,1,2,2,2,2,3,4], 'value':[1,2,3,1,2,3,4,1,1]})
로그인 후 복사

우리는 각 ID에 대한 상위 2개 레코드입니다. 간단한 접근 방식은 groupby 방법을 사용하여 각 그룹 내에서 행 번호를 할당하는 것입니다.

dfN = df.groupby('id').apply(lambda x:x['value'].reset_index()).reset_index()
로그인 후 복사

그러나 head 함수는 더 효율적인 솔루션을 제공합니다.

df.groupby('id').head(2)
로그인 후 복사

이 작업은 다음을 생성합니다.

       id  value
id             
1  0   1      1
   1   1      2 
2  3   2      1
   4   2      2
3  7   3      1
4  8   4      1
로그인 후 복사

MultiIndex를 제거하고 결과를 평면화하려면, 사용:

df.groupby('id').head(2).reset_index(drop=True)
로그인 후 복사

이렇게 하면 원하는 결과가 나옵니다.

    id  value
0   1      1
1   1      2
2   2      1
3   2      2
4   3      1
5   4      1
로그인 후 복사

따라서 head 함수는 각 Pandas 그룹 내의 최상위 레코드를 검색하기 위한 간결하고 최적화된 접근 방식을 제공합니다.

위 내용은 각 Pandas 그룹 내에서 상위 N개 레코드를 효율적으로 얻는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿