> 백엔드 개발 > 파이썬 튜토리얼 > Pandas를 사용하여 데이터의 중복 값을 처리하는 방법: 중복 제거 방법에 대한 포괄적인 분석

Pandas를 사용하여 데이터의 중복 값을 처리하는 방법: 중복 제거 방법에 대한 포괄적인 분석

PHPz
풀어 주다: 2024-01-24 10:49:16
원래의
2486명이 탐색했습니다.

Pandas를 사용하여 데이터의 중복 값을 처리하는 방법: 중복 제거 방법에 대한 포괄적인 분석

Pandas 중복 제거 방법의 종합 분석: 데이터의 중복 값을 쉽게 처리하고, 구체적인 코드 예제가 필요합니다.

소개:
데이터 분석 및 처리 과정에서 데이터에 중복 값이 ​​포함된 경우를 자주 접하게 됩니다. 이러한 중복된 값은 분석 결과를 오도하거나 데이터의 정확성에 영향을 미칠 수 있습니다. 따라서 중복 제거는 데이터 처리에서 중요한 부분입니다. Python에서 널리 사용되는 데이터 처리 라이브러리인 Pandas는 다양한 중복 제거 방법을 제공하고 데이터의 중복 값을 쉽게 처리할 수 있습니다. 이 기사에서는 Pandas에서 일반적으로 사용되는 중복 제거 방법을 분석하고 독자가 이러한 방법을 더 잘 이해하고 적용할 수 있도록 구체적인 코드 예제를 제공합니다.

1. drop_duplicates 방법
drop_duplicates 방법은 Pandas에서 가장 일반적으로 사용되는 중복 제거 방법 중 하나입니다. 지정된 열이나 행을 기반으로 데이터에서 중복된 값을 제거합니다. 구체적인 사용법은 다음과 같습니다.

df.drop_duplicates(subset=None, keep='first', inplace=False)
로그인 후 복사

그 중 df는 중복 제거할 데이터 세트를 나타내고, 하위 집합은 지정된 열 또는 행을 나타내며, 기본값은 None이므로 모든 열이 중복 제거된다는 의미입니다. keep 매개변수는 유지할 반복 값을 나타냅니다. 기본값은 처음 나타나는 값을 유지한다는 의미인 'first'입니다. 또한 마지막에 나타나는 값을 유지한다는 의미인 'last'를 선택할 수도 있습니다. inplace 매개변수는 원본 데이터 세트를 수정할지 여부를 나타냅니다. 기본값은 중복 제거된 새 데이터 세트를 반환한다는 의미입니다.

구체적인 예:
중복 값을 포함하는 데이터 세트 df가 있다고 가정합니다.

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 1, 2, 3],
                   'B': ['a', 'b', 'c', 'a', 'b', 'c']})

print(df)
로그인 후 복사

실행 결과는 다음과 같습니다.

   A  B
0  1  a
1  2  b
2  3  c
3  1  a
4  2  b
5  3  c
로그인 후 복사

drop_duplicates 메서드를 사용하여 중복 값을 제거할 수 있습니다.

df_drop_duplicates = df.drop_duplicates()

print(df_drop_duplicates)
로그인 후 복사

실행 결과는 다음과 같습니다. :

   A  B
0  1  a
1  2  b
2  3  c
로그인 후 복사

결과에서 볼 수 있듯이 drop_duplicates 메소드는 데이터 세트에서 중복 값을 성공적으로 제거합니다.

2. 중복 방법
중복 방법은 Pandas에서 일반적으로 사용되는 또 다른 중복 제거 방법입니다. drop_duplicates 메서드와 달리 Duplicated 메서드는 부울 계열을 반환하여 각 행이나 열의 요소가 중복되었는지 여부를 확인합니다. 구체적인 사용법은 다음과 같습니다.

df.duplicated(subset=None, keep='first')
로그인 후 복사

그 중 df는 복제할 데이터 세트를 나타내고, subset은 지정된 열이나 행을 나타내며, 기본값은 None으로 모든 열을 판단한다는 의미입니다. keep 매개변수의 의미는 drop_duplicates 메소드의 의미와 동일합니다.

구체적인 예:
위의 데이터 세트 df를 계속 사용한다고 가정하면, 복제 방법을 사용하여 각 행이 반복되는지 확인할 수 있습니다.

df_duplicated = df.duplicated()

print(df_duplicated)
로그인 후 복사

실행 결과는 다음과 같습니다.

0    False
1    False
2    False
3     True
4     True
5     True
dtype: bool
로그인 후 복사

결과에서 볼 수 있듯이 , 반환된 시리즈 라인 1과 2의 0번째와 0번째는 False이며, 라인 3, 4, 5는 True이며, 이러한 라인이 반복된다는 것을 나타냅니다.

3. drop_duplicates 및 중복 방법의 적용 시나리오
drop_duplicates 및 중복 방법은 데이터 정리 및 데이터 분석에 널리 사용됩니다.

  1. 데이터 중복 제거: 지정된 열 또는 행 값을 기반으로 데이터에서 중복을 삭제합니다. 데이터 정확성을 보장합니다.
  2. 데이터 분석: 중복 제거를 통해 중복된 샘플이나 관찰을 제거하여 데이터 분석 결과의 정확성을 보장할 수 있습니다.

구체적인 예:
여러 도시의 판매 기록이 포함된 판매 데이터 세트 df가 있다고 가정합니다. 각 도시의 총 매출을 계산하고 중복된 도시를 제거하려고 합니다. 이를 달성하기 위해 다음 코드를 사용할 수 있습니다.

import pandas as pd

df = pd.DataFrame({'City': ['Beijing', 'Shanghai', 'Guangzhou', 'Shanghai', 'Beijing'],
                   'Sales': [1000, 2000, 3000, 1500, 1200]})

df_drop_duplicates = df.drop_duplicates(subset='City')
df_total_sales = df.groupby('City')['Sales'].sum()

print(df_drop_duplicates)
print(df_total_sales)
로그인 후 복사

실행 결과는 다음과 같습니다.

        City  Sales
0    Beijing   1000
1   Shanghai   2000
2  Guangzhou   3000
       Sales
City        
Beijing  2200
Guangzhou  3000
Shanghai  3500
로그인 후 복사

결과에서 볼 수 있듯이 먼저 drop_duplicates 메서드를 사용하여 중복 도시를 제거한 다음 groupby 및 sum 메서드를 사용했습니다. 각 도시의 총 매출을 계산합니다.

결론:
이 기사의 분석을 통해 우리는 Pandas에서 일반적으로 사용되는 중복 제거 방법인 drop_duplicates 및 Duplicate의 사용 및 적용 시나리오를 이해했습니다. 이러한 방법을 사용하면 데이터의 중복 값을 쉽게 처리하고 데이터 분석 및 처리의 정확성을 보장할 수 있습니다. 실제 적용에서는 특정 문제에 따라 적절한 방법을 선택하고 데이터 정리 및 분석을 위해 이를 다른 Pandas 방법과 결합할 수 있습니다.

코드 예시:

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 1, 2, 3],
                   'B': ['a', 'b', 'c', 'a', 'b', 'c']})

# 使用drop_duplicates方法去重
df_drop_duplicates = df.drop_duplicates()
print(df_drop_duplicates)

# 使用duplicated方法判断重复值
df_duplicated = df.duplicated()
print(df_duplicated)

# 应用场景示例
df = pd.DataFrame({'City': ['Beijing', 'Shanghai', 'Guangzhou', 'Shanghai', 'Beijing'],
                   'Sales': [1000, 2000, 3000, 1500, 1200]})

df_drop_duplicates = df.drop_duplicates(subset='City')
df_total_sales = df.groupby('City')['Sales'].sum()

print(df_drop_duplicates)
print(df_total_sales)
로그인 후 복사

위 코드는 Python 환경에서 실행되었으며, 그 결과 중복 제거된 데이터 세트와 총 판매 통계가 출력됩니다.

참고 자료:

  1. Pandas 공식 문서: https://pandas.pydata.org/docs/
  2. "Using Python for Data Analysis"(2판), 저자: Wes McKinney, People's Posts and Telecommunications Press, 2019 Year .

위 내용은 Pandas를 사용하여 데이터의 중복 값을 처리하는 방법: 중복 제거 방법에 대한 포괄적인 분석의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿