Pandas DataFrame에서 여러 목록 열을 효율적으로 중첩 해제하는 방법은 무엇입니까?

Susan Sarandon
풀어 주다: 2024-11-17 20:58:02
원래의
437명이 탐색했습니다.

How to Efficiently Unnest Multiple List Columns in a Pandas DataFrame?

Pandas DataFrame에서 여러 목록 열을 효율적으로 중첩 해제(분해)하는 방법

문제: 대규모 데이터 세트에서 중첩 목록 열 폭발

pandas DataFrames에서는 목록이 포함된 열을 여러 행으로 "중첩 해제"하거나 "폭발"해야 하는 경우가 있습니다. 그러나 특히 대규모 데이터세트의 경우 계산 비용이 많이 드는 작업일 수 있습니다.

해결책: pandas >= 1.3 사용

pandas 버전 1.3 이상에는 다음과 같은 내장 함수가 있습니다. 여러 열의 중첩을 동시에 해제할 수 있는 DataFrame.explode 이 함수를 사용하려면 모든 목록 열의 길이가 동일해야 합니다. 사용 방법:

df.explode(['B', 'C', 'D', 'E']).reset_index(drop=True)
로그인 후 복사

Pandas용 솔루션 < 1.3

이전 버전의 pandas의 경우 약간 더 복잡한 접근 방식이 필요합니다.

  1. DataFrame의 인덱스를 분해해서는 안 되는 열로 설정하세요.
  2. 분해할 각 열에 Series.explode를 적용합니다.
  3. 중첩되지 않은 DataFrame을 얻으려면 인덱스를 재설정합니다.
df.set_index(['A']).apply(pd.Series.explode).reset_index()
로그인 후 복사

효율성 고려 사항

두 방법 모두 DataFrame.explode보다 약간 빠른 set_index 및Explode를 사용하여 효율적인 솔루션을 제공합니다. 다음 표는 성능 비교를 보여줍니다.

Method Time (seconds)
DataFrame.explode 0.00259
Set index and explode 0.00127
Stacking approach 0.120

중복 질문에 대한 참고 사항

이 질문은 처음에 중복으로 표시되었지만 특히 대규모를 처리할 수 있는 효율적인 방법의 필요성을 강조합니다. 데이터 세트. 중복된 질문에 대한 답변이 이 요구 사항을 적절하게 충족하지 못했습니다.

위 내용은 Pandas DataFrame에서 여러 목록 열을 효율적으로 중첩 해제하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿