지역 사회

배우다

도구 라이브러리

AI 도구

여가

한국어

집 > 백엔드 개발 > 파이썬 튜토리얼 > Pandas DataFrame에서 모든 중복 행을 식별하는 방법은 무엇입니까?

Pandas DataFrame에서 모든 중복 행을 식별하는 방법은 무엇입니까?

Barbara Streisand

풀어 주다： 2024-10-25 15:15:02

원래의

1167명이 탐색했습니다.

How to Identify All Duplicate Rows in a Pandas DataFrame?

Python에서 Pandas를 사용하여 모든 중복 항목 목록을 어떻게 얻나요?

문제:

Pandas DataFrame에 중복 행이 포함되어 있지만 Duplicated() 메서드를 사용하면 첫 번째 중복 인스턴스만 반환됩니다. 수동 비교를 위해 모든 중복 행 발생에 대한 포괄적인 목록이 필요합니다.

해결책 1: 중복 ID가 있는 행 격리

Pandas를 pd로 가져오기
데이터를 DataFrame df로 읽습니다.
ID 열을 별도의 시리즈 ID로 추출합니다.
ID 값이 다음의 중복 ID와 일치하는지 여부에 따라 df를 필터링합니다. ids[ids.duplicated()]:

<code class="python">df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>

로그인 후 복사

이 방법은 모든 중복 행을 효과적으로 검색하는 반면 출력에는 중복 ID 행이 생성됩니다.

해결 방법 2 : ID별로 그룹화하고 중복 항목 필터링

df에서 groupby("ID")를 사용하여 ID 값별로 행을 그룹화합니다.
결과 그룹만 필터링하여 유지합니다. 행이 두 개 이상인 경우:

<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>

로그인 후 복사

이 접근 방식은 중복된 ID 행 없이 간소화된 출력을 생성합니다.

위 내용은 Pandas DataFrame에서 모든 중복 행을 식별하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

이전 기사：Python에서 텍스트 파일이 비어 있는지 확인하는 방법은 무엇입니까? 다음 기사：## Flatten vs. Ravel: 각 Numpy 함수를 언제 사용해야 합니까?

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

저자별 최신 기사

최신 이슈

function_exists()는 사용자 정의 함수를 결정할 수 없습니다. 기능 테스트() { ...

에서 2024-04-29 11:01:01

0

3

2861

Chrome 모바일 버전을 표시하는 방법 안녕하세요 선생님, Chrome을 모바일 버전으로 어떻게 변경하나요?

에서 2024-04-23 00:22:19

0

11

3004

자식 창이 부모 창을 작동하지만 출력이 응답하지 않습니다. 처음 두 문장은 실행 가능하지만 마지막 문장은 구현할 수 없습니다.

에서 2024-04-19 15:37:47

0

1

2494

상위 창에 출력이 없습니다. document.onclick = function(){ window.opener.document.write('나는 자식 창의 출력입니다.');

에서 2024-04-18 23:52:34

0

1

2426

CSS 마인드맵 코스웨어는 어디에 있나요? 코스웨어

에서 2024-04-16 10:10:18

0

0

2469

관련 주제

더>

인기 추천

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿