Pandas DataFrame의 이상값 제외: 데이터 이상 감지 및 제거
데이터 분석에서 이상값은 결과를 왜곡하고 해석을 왜곡할 수 있습니다. 이 문제를 완화하려면 데이터세트에서 이상값을 감지하고 제외하는 것이 중요합니다. 이 기사는 scipy.stats.zscore 함수를 사용하여 pandas DataFrames에서 이상값을 제외하는 우아한 방법을 보여줍니다.
여러 열이 있는 DataFrame이 있고 그 중 하나("Vol"이라는 이름)에 명확한 값이 포함되어 있다고 가정합니다. 특이치(예: 4000, 대부분의 값은 약 1200임) 특정 열에서 이러한 이상값이 있는 행을 제거하려면 다음 단계를 따르세요.
이상값 감지를 위해 scipy.stats.zscore 사용
가져오기 필요한 라이브러리:
import pandas as pd import numpy as np from scipy import stats
이상값에 민감한 열의 Z 점수를 계산합니다.
df["Vol_zscore"] = stats.zscore(df["Vol"])
행을 식별하는 조건 만들기 표준편차 3개 이내 의미:
mask = np.abs(df["Vol_zscore"]) < 3
조건을 사용하여 DataFrame을 필터링하고 이상값 행을 제거합니다.
filtered_df = df[mask]
이 단계를 적용하면 Pandas DataFrame의 특정 열에서 이상값이 포함된 행을 효율적으로 감지하고 제외할 수 있습니다. 이 방법을 사용하면 데이터 분석에 잠재적으로 편향을 줄 수 있는 이상 현상을 제거하고 보다 정확하고 신뢰할 수 있는 결과를 보장할 수 있습니다.
위 내용은 Pandas DataFrame 열에서 이상값을 효율적으로 제거하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!