> 백엔드 개발 > 파이썬 튜토리얼 > Pandas에서 중복된 색인 행을 제거하는 방법은 무엇입니까?

Pandas에서 중복된 색인 행을 제거하는 방법은 무엇입니까?

Barbara Streisand
풀어 주다: 2024-11-22 05:51:16
원래의
454명이 탐색했습니다.

How to Remove Duplicate Indexed Rows in Pandas?

Pandas에서 중복 색인 행 제거

Pandas에서는 여러 소스의 데이터를 추가하는 경우와 같은 다양한 시나리오에서 중복 색인 값이 발생할 수 있습니다. 또는 잘못된 관찰을 수정합니다. 이러한 중복 행을 제거하는 것은 데이터 일관성과 분석 정확성을 위해 필수적입니다.

권장되는 접근 방식 중 하나는 ~df3.index.duplicated(keep='first') 방법을 활용하는 것입니다. 이 방법은 데이터 프레임의 고유 행을 유지하면서 중복 행을 효율적으로 식별하고 삭제합니다.

df3 = df3[~df3.index.duplicated(keep='first')]
로그인 후 복사

이 방법은 특히 대규모 데이터 프레임의 경우 성능 측면에서 drop_duplicates 및 groupby와 같은 다른 기술보다 성능이 뛰어납니다. 또한 읽기 쉽고 이해하기 쉽습니다.

MultiIndex 데이터 프레임의 경우 각 고유 인덱스 값의 마지막 항목을 유지하는 ~df1.index.duplicated(keep='last') 메서드를 사용할 수 있습니다. :

df1[~df1.index.duplicated(keep='last')]
로그인 후 복사

이 접근 방식을 사용하면 결과 데이터 프레임에 고유한 인덱스 값만 포함되어 데이터를 방해할 수 있는 중복 행이 제거됩니다. 분석 및 모델링.

위 내용은 Pandas에서 중복된 색인 행을 제거하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿