> 백엔드 개발 > 파이썬 튜토리얼 > Pandas DataFrame 열에서 이상값을 효율적으로 제거하려면 어떻게 해야 합니까?

Pandas DataFrame 열에서 이상값을 효율적으로 제거하려면 어떻게 해야 합니까?

Linda Hamilton
풀어 주다: 2024-12-06 11:56:11
원래의
445명이 탐색했습니다.

How Can I Efficiently Remove Outliers from a Pandas DataFrame Column?

Pandas DataFrame의 이상값 제외: 데이터 이상 감지 및 제거

데이터 분석에서 이상값은 결과를 왜곡하고 해석을 왜곡할 수 있습니다. 이 문제를 완화하려면 데이터세트에서 이상값을 감지하고 제외하는 것이 중요합니다. 이 기사는 scipy.stats.zscore 함수를 사용하여 pandas DataFrames에서 이상값을 제외하는 우아한 방법을 보여줍니다.

여러 열이 있는 DataFrame이 있고 그 중 하나("Vol"이라는 이름)에 명확한 값이 포함되어 있다고 가정합니다. 특이치(예: 4000, 대부분의 값은 약 1200임) 특정 열에서 이러한 이상값이 있는 행을 제거하려면 다음 단계를 따르세요.

이상값 감지를 위해 scipy.stats.zscore 사용

  1. 가져오기 필요한 라이브러리:

    import pandas as pd
    import numpy as np
    from scipy import stats
    로그인 후 복사
  2. 이상값에 민감한 열의 Z 점수를 계산합니다.

    df["Vol_zscore"] = stats.zscore(df["Vol"])
    로그인 후 복사
  3. 행을 식별하는 조건 만들기 표준편차 3개 이내 의미:

    mask = np.abs(df["Vol_zscore"]) < 3
    로그인 후 복사
  4. 조건을 사용하여 DataFrame을 필터링하고 이상값 행을 제거합니다.

    filtered_df = df[mask]
    로그인 후 복사

이 단계를 적용하면 Pandas DataFrame의 특정 열에서 이상값이 포함된 행을 효율적으로 감지하고 제외할 수 있습니다. 이 방법을 사용하면 데이터 분석에 잠재적으로 편향을 줄 수 있는 이상 현상을 제거하고 보다 정확하고 신뢰할 수 있는 결과를 보장할 수 있습니다.

위 내용은 Pandas DataFrame 열에서 이상값을 효율적으로 제거하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿