K KNN(Nearest Neighbor Algorithm)은 분류 및 회귀에 사용할 수 있는 간단하고 효과적인 알고리즘입니다. 기본 아이디어는 서로 다른 특징 사이의 거리를 측정하여 샘플이 속한 카테고리를 식별하는 것입니다. 이번 글에서는 Python에서 KNN을 분류하는 방법을 살펴보겠습니다.
1. 데이터 세트 준비
먼저 데이터 세트를 준비해야 합니다. 이 예에서는 각각 4가지 특징(꽃받침 길이, 꽃받침 너비, 꽃잎 길이, 꽃잎 너비)이 있는 3가지 붓꽃(Setosa, Versicolour 및 Virginica)이 포함된 Iris 데이터세트를 사용합니다.
Pandas 라이브러리를 사용하여 데이터를 읽고 전처리합니다. 먼저 필요한 라이브러리를 가져와야 합니다.
import pandas as pd import numpy as np import matplotlib.pyplot as plt
그런 다음 데이터세트를 로드합니다.
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data" names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class'] dataset = pd.read_csv(url, names=names)
이제 데이터세트가 있으므로 탐색을 시작할 수 있습니다.
2. 데이터 시각화
분류에 앞서 데이터를 시각화하고 탐색해야 합니다. 우리는 각 특징의 히스토그램뿐만 아니라 다른 특징에 대한 각 특징의 산점도를 그릴 것입니다. 시각화를 위해 Matplotlib 라이브러리와 Seaborn 라이브러리를 사용할 수 있습니다.
기능 간 산점도:
import seaborn as sns sns.pairplot(dataset, hue="class")
이것에서 가능합니다 그림을 통해 붓꽃의 특성이 매우 다르다는 것을 알 수 있으며, 이는 분류의 기초가 됩니다.
각 기능의 히스토그램:
dataset.hist() plt.show()
이 사진에서 가능 데이터 세트의 각 기능은 정규화의 기초가 되는 서로 다른 분포를 가지고 있음을 알 수 있습니다.
3. 데이터 전처리
분류 전에 데이터 전처리가 필요합니다. 데이터 세트를 입력 특성과 출력 범주로 분할한 다음 특성 값을 0~1 범위로 확장할 수 있습니다.
먼저 데이터 세트를 입력 특성과 출력 범주로 나눕니다.
X = dataset.iloc[:, :-1].values y = dataset.iloc[:, 4].values
그런 다음 특성 값을 0에서 1 사이의 범위로 조정합니다.
from sklearn.preprocessing import StandardScaler scaler = StandardScaler() X = scaler.fit_transform(X)
이제 전처리된 데이터 세트가 있습니다.
4. 데이터 세트 분할
분류 전에 데이터 세트를 훈련 세트와 테스트 세트로 분할해야 합니다. Scikit-learn 라이브러리의 train_test_split 함수를 사용하여 이를 수행할 수 있습니다.
from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
이렇게 하면 80:20 비율의 훈련 세트와 테스트 세트가 생성됩니다.
5. KNN 모델 학습
이제 KNN 모델 학습을 시작할 수 있습니다. 먼저 KNeighborsClassifier 클래스를 가져오고 인스턴스를 만든 다음 fit 함수를 사용하여 모델을 맞춥니다.
from sklearn.neighbors import KNeighborsClassifier classifier = KNeighborsClassifier(n_neighbors=5) classifier.fit(X_train, y_train)
이것은 KNN 분류기를 생성하고 훈련 세트를 사용하여 분류하도록 훈련시킵니다.
6. 예측
이제 KNN 모델을 사용하여 테스트 세트에 대한 예측을 할 수 있습니다. 예측 함수를 사용하여 예측을 하고 결과를 변수에 저장합니다.
y_pred = classifier.predict(X_test)
7. 모델 평가
마지막으로 모델을 평가하고 정확도를 결정해야 합니다. Scikit-learn 라이브러리의 conflict_matrix 및 classification_report 함수를 사용하여 모델의 정확성을 평가할 수 있습니다.
from sklearn.metrics import confusion_matrix, classification_report print(confusion_matrix(y_test, y_pred)) print(classification_report(y_test, y_pred))
이렇게 하면 모델의 정확성을 보여주는 혼동 행렬 및 분류 보고서가 출력됩니다.
요약
Python에서 분류를 위해 KNN 알고리즘을 사용하려면 다음 단계가 필요합니다.
1. 데이터 세트 준비
2. 데이터 사전 처리
4. KNN 모델 훈련
6. 예측
7. 모델 평가
KNN 알고리즘은 분류 및 회귀에 사용할 수 있는 간단하고 효과적인 알고리즘입니다. Python에서 분류를 위해 KNN 알고리즘을 사용하려면 위 단계를 따라야 합니다. 동시에 모델이 정확하게 분류할 수 있도록 데이터 시각화 및 전처리도 수행해야 합니다.
위 내용은 Python에서 분류를 위해 KNN 알고리즘을 사용하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!