고유한 값을 위해 Pandas Groupby 내에서 문자열을 어떻게 결합할 수 있나요?

Susan Sarandon
풀어 주다: 2024-10-25 00:27:02
원래의
293명이 탐색했습니다.

How Can I Combine Strings Within Pandas Groupby for Unique Values?

Pandas Groupby를 사용하여 문자열 연합을 얻는 방법

Pandas의 groupby 방법을 사용하여 데이터를 그룹화할 때 숫자 열은 다음을 사용하여 쉽게 집계할 수 있습니다. 합계와 같은 기능을 합니다. 그러나 간단한 연결이 항상 바람직한 것은 아니기 때문에 문자열 열을 집계하는 것은 어려운 일입니다. 이 문서에서는 그룹 내에서 문자열 통합을 얻는 방법을 살펴봅니다.

문제:

다음 DataFrame을 고려하세요.

A B C
1 0.749065 This
2 0.301084 is
3 0.463468 a
4 0.643961 random
1 0.866521 string
2 0.120737 !

df 적용. groupby("A")["B"].sum()은 각 그룹에 대해 B열의 숫자 값 합계를 반환합니다. 그러나 문자열 열 C에서 df.groupby("A")["C"].sum()을 호출하면 예상대로 작동하지 않아 문자열이 연결됩니다.

해결책:

사용자 정의 함수:

한 가지 접근 방식은 그룹 내의 문자열 값을 집계하는 사용자 정의 함수를 정의하는 것입니다. 이 함수는 apply() 메서드를 사용하여 DataFrame에 적용할 수 있습니다. 예:

<code class="python">def f(x):
    return Series(dict(A = x['A'].sum(), 
                        B = x['B'].sum(), 
                        C = "{%s}" % ', '.join(x['C'])))

df.groupby('A').apply(f)</code>
로그인 후 복사

이렇게 하면 각 그룹의 C열에 문자열이 통합된 DataFrame이 반환됩니다. 여기서 문자열은 중괄호 안에 포함됩니다.

Lambda with . sum():

또 다른 방법은 숫자 열에 .sum()을 사용하고 문자열 열에 사용자 정의 연결을 사용하여 groupby 객체에 람다 함수를 적용하는 것입니다.

<code class="python">df.groupby('A').apply(lambda x: x.sum())</code>
로그인 후 복사

이것은 숫자 값과 연결된 문자열의 합계를 포함하는 DataFrame을 반환합니다. 문자열 합집합을 얻으려면 람다 함수 내에서 문자열 조작을 사용할 수 있습니다.

성능 고려 사항:

groupby에 사용자 정의 함수를 적용한다는 점에 유의하는 것이 중요합니다. 개체는 숫자 열에 집계 함수를 사용하는 것보다 느립니다. 대규모 데이터 세트의 경우 이러한 성능 균형을 고려해야 합니다.

위 내용은 고유한 값을 위해 Pandas Groupby 내에서 문자열을 어떻게 결합할 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!