pandas drop_duplicates 함수는 DataFrame에서 중복 행을 제거하는 강력한 도구입니다. 하위 집합에서 중복된 행을 삭제하려고 합니다. 열?
다음 DataFrame을 고려하세요.
A | B | C |
---|---|---|
foo | 0 | A |
foo | 1 | A |
foo | 1 | B |
bar | 1 | A |
열 A와 C에서 일치하는 행을 삭제한다고 가정합니다. 이 경우 다음을 원할 것입니다. 행 0과 1을 삭제합니다.
이를 달성하려면 keep 매개변수를 False로 설정한 상태에서 drop_duplicates 함수를 사용할 수 있습니다. 이 매개변수는 중복 행을 처리하는 방법을 지정합니다. 기본적으로 keep은 first로 설정됩니다. 즉, 처음으로 나타나는 중복 행이 유지됩니다. keep을 False로 설정하면 모든 중복 행이 삭제됩니다.
다음 코드는 A열과 C열에 중복 값이 있는 행을 삭제하는 방법을 보여줍니다.
import pandas as pd df = pd.DataFrame({"A": ["foo", "foo", "foo", "bar"], "B": [0, 1, 1, 1], "C": ["A", "A", "B", "A"]}) # Drop rows with duplicate values in columns 'A' and 'C' df = df.drop_duplicates(subset=['A', 'C'], keep=False) print(df)
출력:
A B C 2 foo 1 B 3 bar 1 A
보시다시피 0행과 1행은 A열과 C열과 중복되므로 삭제되었습니다.
위 내용은 Pandas의 특정 열에 중복 행을 삭제하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!