다변량 꽃 데이터세트인
Iris는 가장 유용한 Python scikit-learn 데이터세트 중 하나입니다. 이는 각각 50개의 인스턴스로 구성된 3개 범주로 나뉘며 세 가지 붓꽃 종(Iris Mountaina, Iris virginia 및 Iris variegated)의 꽃받침과 꽃잎 부분에 대한 측정값을 포함합니다. 이 외에도 Iris 데이터 세트에는 세 가지 종 각각의 50개 인스턴스가 포함되어 있으며 sepal_length(cm), sepal_width(cm), Petal_length(cm), Petal_width(cm)의 네 가지 기능으로 구성됩니다.
주성분 분석(PCA)을 사용하여 IRIS 데이터세트를 2가지 특징이 있는 새로운 특징 공간으로 변환할 수 있습니다.
아래 단계에 따라 Python에서 PCA를 사용하여 IRIS 데이터 세트를 2개 기능 데이터 세트로 변환할 수 있습니다. -
1단계 - 먼저 scikit-learn에서 필요한 패키지를 가져옵니다. 데이터세트와 분해 패키지를 가져와야 합니다.
Step 2 - IRIS 데이터세트를 로드합니다.
단계 3 - 데이터 세트에 대한 자세한 정보를 인쇄합니다.
단계 4 - 주성분 분석(PCA)을 초기화하고 fit() 함수를 적용하여 데이터를 피팅합니다. p>
단계 5 - 데이터세트를 새로운 차원, 즉 2특성 데이터세트로 변환합니다.
아래 예에서는 위 단계를 사용하여 scikit-learn IRIS 식물 데이터 세트를 PCA를 통해 2가지 기능으로 변환합니다.
으아악다음과 같은 출력이 생성됩니다 -
으아악주성분 분석(PCA)이라는 통계 방법을 사용하여 Iris 데이터 세트를 3가지 특징이 있는 새로운 특징 공간으로 변환할 수 있습니다. PCA는 본질적으로 원래 데이터 세트의 특징을 분석하여 데이터를 새로운 특징 공간에 선형적으로 투영합니다.
PCA의 주요 개념은 데이터의 "주요" 기능을 선택하고 이를 기반으로 기능을 구축하는 것입니다. 크기는 작지만 원래 데이터 세트와 동일한 정보를 갖는 새로운 데이터 세트를 제공합니다.
아래 예에서는 PCA를 사용하여 scikit-learn 붓꽃 식물 데이터 세트(3개 구성 요소로 초기화됨)를 변환합니다.
으아악다음과 같은 출력이 생성됩니다 -
으으으으위 내용은 Scikit-learn의 IRIS 데이터 세트를 Python에서 두 가지 기능만 있는 데이터 세트로 변환하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!