Pandas에서 연속 중복 항목을 효율적으로 삭제
Pandas DataFrames로 작업할 때 중복 값을 제거해야 하는 경우가 많습니다. 그러나 내장된 drop_duplicates() 메서드는 연속 중복을 포함하여 중복 값의 모든 인스턴스를 제거합니다. 연속된 중복 항목만 삭제해야 하는 경우 더 효율적인 방법을 사용할 수 있습니다.
한 가지 접근 방식은 Shift() 함수를 사용하는 것입니다. DataFrame을 이동된 버전(a.shift(-1))과 비교하여 연속 중복이 발생하는 위치를 식별하는 부울 마스크를 생성할 수 있습니다. 그러면 다음 예에서 볼 수 있듯이 이 마스크를 사용하여 고유한 값만 선택할 수 있습니다.
a.loc[a.shift(-1) != a]
또 다른 방법은 diff() 함수를 활용하는 것입니다. 행 간의 차이를 계산하고 연속 중복을 식별하는 데 사용할 수 있습니다. 그러나 대규모 데이터 세트의 경우 Shift() 방법보다 느립니다.
사용 방법:
a.loc[a.diff() != 0]
원래 답변에서는 기간이 -1인 Shift()를 사용하는 것이 제안되었지만 올바른 사용법은 다음과 같습니다. 기본 이동 기간은 1이므로 Shift(1)(또는 간단히 Shift())입니다. 이렇게 수정하면 첫 번째 연속 값만 반환됩니다.
a.loc[a.shift(1) != a]
shift() 및 diff() 모두 방법은 Pandas에서 연속 중복 항목을 삭제하는 효율적인 방법을 제공하며 특정 컨텍스트 및 성능 요구 사항에 따라 고려해야 합니다.
위 내용은 Pandas에서 연속 중복 항목을 효율적으로 삭제하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!