일변량 데이터 분석은 변화하는 하나의 변수만 사용하는 간단한 유형의 분석입니다. 주로 데이터의 설명과 패턴 인식에 중점을 두지만 원인과 관계는 다루지 않습니다. 정보는 단일 변수를 다루기 때문에 가장 간단한 분석 유형입니다.
단변량 분석은 단일 변수/특성을 분석하는 데 사용됩니다. 목표는 데이터를 가져와서 존재할 수 있는 패턴을 조사하면서 이를 설명하고 요약하는 것입니다. 일변량 분석은 데이터 세트의 각 변수를 개별적으로 연구하며 범주형 변수와 수치형 변수를 모두 사용할 수 있습니다.
중심 경향(평균, 중앙값 및 모드)과 데이터 분산 또는 분포(범위, 최소값, 최대값, 사분위수, 분산 및 표준 편차) 측정은 에서 이러한 유형의 데이터 모드를 설명하는 데 도움이 될 수 있습니다. 또한 빈도 분포표, 히스토그램, 원형 차트, 빈도 다각형 및 막대 차트와 같은 도구를 사용하여 이러한 패턴을 보여줄 수 있습니다.
이변량 데이터에는 두 개의 변수가 포함됩니다. 이변량 분석은 두 변수 간의 관계를 파악하는 것을 목표로 원인과 관계에 중점을 둡니다.
비교, 상관 관계, 원인 및 설명은 모두 이변량 데이터 분석의 일부입니다. 변수 중 하나는 독립적이고 다른 하나는 종속적이며 이러한 변수는 데이터를 더 잘 이해하기 위해 차트의 X 및 Y 축에 표시되는 경우가 많습니다.
다중 공선성(공선성이라고도 함)은 회귀 모델의 한 특성 변수가 다른 특성 변수와 높은 선형 상관 관계를 갖는 통계 현상입니다. 두 개 이상의 변수가 완벽하게 상관되어 있는 경우 이를 공선성이라고 합니다.
독립변수의 상관관계가 높은 경우 한 변수의 변화로 인해 다른 변수의 변화가 발생하여 모델 결과가 크게 변동됩니다. 데이터나 모델이 약간 변경되면 모델 결과가 불안정해지고 크게 변동됩니다. 다중 공선성은 다음과 같은 문제로 이어질 수 있습니다.
모델이 매번 다른 결과를 제공하면 모델에 대한 중요한 변수 목록을 결정하기가 어려워집니다.
계수 추정치가 불안정하여 모델을 해석하기 어렵습니다. 즉, 예측 변수가 한 단위씩 변경되면 출력이 얼마나 변경되는지 확인할 방법이 없습니다.
모델의 불안정성으로 인해 과적합이 발생할 수 있습니다. 모델이 다른 데이터 세트에 적용되면 정확도는 훈련 데이터 세트보다 훨씬 낮아집니다.
공선성이 약간 또는 중간 정도만 발생하더라도 상황에 따라 모델에는 문제가 되지 않을 수도 있습니다. 그러나 심각한 공선성 문제가 있는 경우 문제를 해결하는 것이 좋습니다.
위 내용은 기계 학습의 일변량, 이변량, 다중 공선성 문제 분석의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!