학생 잔차는 회귀 분석에서 데이터의 잠재적 이상값을 식별하는 데 자주 사용됩니다. 이상값은 데이터의 전체 추세와 크게 다르며 적합 모델에 상당한 영향을 미칠 수 있는 점입니다. 이상값을 식별하고 분석하면 데이터의 기본 패턴을 더 잘 이해하고 모델의 정확도를 높일 수 있습니다. 이번 글에서는 스튜던트화 잔차(Studentized Residual)와 이를 파이썬으로 구현하는 방법에 대해 자세히 살펴보겠습니다.
"학생화 잔차"라는 용어는 표준 편차를 추정치로 나눈 특정 잔차 클래스를 의미합니다. 회귀 분석 잔차는 반응 변수의 관측값과 모델에서 생성된 기대값 간의 차이를 설명합니다. 적합 모델에 큰 영향을 미칠 수 있는 데이터의 이상값을 찾기 위해 스튜던트화 잔차가 사용되었습니다.
다음 공식은 일반적으로 스튜던트화 잔차를 계산하는 데 사용됩니다. -
으아악"잔차"는 관찰된 반응 값과 예상 반응 값의 차이를 나타내고, "잔차 표준 편차"는 잔차 표준 편차의 추정치를 나타내며, "hii"는 각 데이터 포인트에 대한 레버리지 계수를 나타냅니다.
statsmodels 패키지는 Python에서 스튜던트화 잔차를 계산하는 데 사용할 수 있습니다. 예를 들어 다음을 고려하십시오 -
OLSResults는 statsmodels의 ols() 메서드를 사용하여 피팅된 선형 모델을 나타냅니다.
으아악여기서 "등급"과 "점수"는 단순 선형 회귀를 나타냅니다.
numpy, pandas, Statsmodel API를 가져옵니다.
데이터세트를 만듭니다.
데이터세트에서 간단한 선형 회귀 모델을 수행합니다.
학생화 잔차를 계산하세요.
학생 잔차를 인쇄하세요.
다음은 scikit-posthocs 라이브러리를 사용하여 Dunn의 테스트를 실행하는 데모입니다. -
으아악다음으로 statsmodels OLS 클래스를 사용하여 선형 회귀 모델을 만듭니다. -
으아악이상치 테스트() 방법을 사용하여 데이터세트의 각 관측값에 대한 스튜던트화 잔차를 DataFrame에서 생성할 수 있습니다. -
으아악학생화 잔차에 대한 예측 변수 값을 빠르게 플롯할 수도 있습니다. -
여기에서는 matpotlib 라이브러리를 사용하여 색상 = '검은색' 및 라이프스타일 = '--'으로 차트를 그립니다.
matplotlib의 pyplot 라이브러리 가져오기
예측 변수 값 정의
학생 잔차 정의
예측 변수와 스튜던트화 잔차의 산점도 만들기
가능한 데이터 이상값을 식별하고 평가합니다. 스튜던트화 잔차를 조사하면 데이터의 전체 추세에서 크게 벗어나는 점을 찾고 해당 점이 적합 모델에 영향을 미치는 이유를 탐색할 수 있습니다. 중요한 관측값 식별 스튜던트화 잔차를 사용하여 적합 모델에 큰 영향을 미치는 영향력 있는 데이터를 발견하고 평가할 수 있습니다. 레버리지가 높은 지점을 찾으세요. 스튜던트화 잔차를 사용하여 높은 레버리지 지점을 식별할 수 있습니다. 레버리지는 적합 모델에 대한 특정 지점의 영향을 측정한 것입니다. 전반적으로 스튜던트화 잔차를 사용하면 회귀 모델의 성능을 분석하고 개선하는 데 도움이 됩니다.
위 내용은 Python에서 학생 잔차를 계산하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!