> 백엔드 개발 > 파이썬 튜토리얼 > Pandas의 인덱스를 기반으로 중복 행을 제거하는 방법은 무엇입니까?

Pandas의 인덱스를 기반으로 중복 행을 제거하는 방법은 무엇입니까?

Barbara Streisand
풀어 주다: 2024-11-13 05:13:02
원래의
267명이 탐색했습니다.

How to Remove Duplicate Rows Based on Indices in Pandas?

Pandas에서 인덱스를 기반으로 중복 행을 제거하는 방법

데이터 분석에서는 데이터세트. 데이터 조작을 위한 인기 있는 Python 라이브러리인 Pandas로 작업할 때 여러 행이 동일한 인덱스 값을 공유하는 시나리오가 발생할 수 있습니다. 이 문제는 데이터 입력 오류나 의도하지 않은 중복 등의 이유로 발생할 수 있습니다.

중복 행의 예

시간별 관측을 나타내는 다음 날씨 DataFrame을 고려하세요. 간격:

                      Sta  Precip1hr  Precip5min  Temp  DewPnt  WindSpd  WindDir  AtmPress
Date                                                                                      
2001-01-01 00:00:00  KPDX          0           0     4       3        0        0     30.31
2001-01-01 00:05:00  KPDX          0           0     4       3        0        0     30.30
2001-01-01 00:10:00  KPDX          0           0     4       3        4       80     30.30
2001-01-01 00:15:00  KPDX          0           0     3       2        5       90     30.30
2001-01-01 00:20:00  KPDX          0           0     3       2       10      110     30.28
로그인 후 복사

이 DataFrame에서 DataFrame 끝에 "2001-01-01 00:00:00"이 중복되었습니다. 데이터를 정리하려면 이러한 중복 행을 제거하는 것이 중요합니다.

중복 방법 사용

Pandas는 중복 행을 식별하고 선택하기 위해 Duplicate라는 효율적인 방법을 제공합니다. 이 방법은 DataFrame의 모든 열을 기반으로 중복 행을 고려합니다. keep 매개변수를 전달하면 각 중복 그룹의 첫 번째 발생 또는 마지막 발생을 유지할지 지정할 수 있습니다.

이 경우 인덱스를 기반으로 각 중복 그룹의 첫 번째 발생을 유지하려고 합니다.

df3 = df3[~df3.index.duplicated(keep='first')]
로그인 후 복사

이 접근 방식은 DataFrame의 인덱스에서 직접 작동하는 Pandas Index 개체의 Duplicate 메서드를 활용합니다. ~를 사용하여 결과를 부정함으로써 중복으로 표시되지 않은 행을 선택합니다. keep='first'를 지정하면 각 중복 인덱스 그룹의 첫 번째 인스턴스가 유지됩니다.

성능 고려 사항

다양한 방법의 성능에 유의하는 것이 중요합니다. 중복 행을 제거하는 방법은 데이터 및 특정 조건에 따라 다릅니다. 벤치마킹에 따르면, 주어진 예에서는 Duplicate 메서드가 가장 성능이 좋았고, Groupby 메서드와 Reset_index().drop_duplicates()가 그 뒤를 이었습니다.

위 내용은 Pandas의 인덱스를 기반으로 중복 행을 제거하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿