knn과 k-means의 차이점: 1. [k-means] 알고리즘은 일반적인 거리 기반 클러스터링 알고리즘으로 거리를 유사성 평가 지표로 사용합니다. 즉, knn 간의 거리가 가까울수록 좋다고 간주됩니다. 2. knn 알고리즘에는 프로그램 실행이 시작되면 데이터 세트가 메모리에 로드되고 분류가 시작됩니다.
knn과 k-평균의 차이점:
1. k-평균 클러스터링 알고리즘 프로세스 및 원리
k-평균 알고리즘(k-평균 클러스터링 알고리즘)은 기본 A 분할 알고리즘입니다. 알려진 수의 클러스터링 카테고리가 있습니다. 거리를 유사성 평가 지표로 사용하는 대표적인 거리 기반 군집화 알고리즘이다. 즉, 두 객체 사이의 거리가 가까울수록 유사성이 큰 것으로 간주된다. 유클리드 거리를 사용하여 측정됩니다(간단히 이해하면 두 점 사이의 직선 거리입니다. 유클리드 거리는 이 거리의 정의를 표준화하고 N 차원으로 확장합니다). 대규모 데이터 세트를 처리할 수 있으며 효율적입니다. 클러스터링 결과는 k개의 범주로 구분된 k개의 데이터 세트입니다. 클러스터링 결과의 표현 방식에 따라 하드 k-평균(H CM) 알고리즘, 퍼지 k-평균 알고리즘(F CM), 확률 k-평균 알고리즘(P CM)으로 나눌 수 있습니다.
1.1. 기본 아이디어
이것은 주어진 클러스터링 목적 함수를 기반으로 합니다. 알고리즘은 반복 업데이트 방법을 채택합니다. 각 반복 프로세스는 목적 함수를 감소시키는 방향으로 수행됩니다. 더 나은 분류 효과를 얻으려면 최대 작은 값
1.2 원리
원래 k-평균 알고리즘은 먼저 k개 점을 초기 군집 중심으로 무작위로 선택한 다음 각 데이터 객체에서 각 군집 중심까지의 거리를 계산하고 데이터 객체를 분류합니다. 클러스터 중심이 가장 가까운 클래스로 이동하여 조정된 새 클래스에 대한 새 클러스터 중심을 계산합니다. 인접한 두 클러스터 중심에 변화가 없으면 데이터 객체의 조정이 종료되고 클러스터링이 완료되었음을 의미합니다. 기준 함수 f는 수렴이었습니다. 각 iteration에서 각 샘플의 분류가 올바른지 확인해야 하며, 올바르지 않으면 수정해야 합니다. 모든 데이터가 조정된 후 클러스터 중심이 수정되고 다음 반복이 시작됩니다. 반복 알고리즘에서 모든 데이터 개체가 올바르게 분류되면 조정이 없으며 클러스터 중심에 변화가 없습니다. 이는 f가 수렴되고 알고리즘이 종료되었음을 나타냅니다.
1.3 알고리즘 흐름도
1.4 알고리즘의 초기점을 선택하는 방법은 무엇입니까?
1) 배치에서 최대한 멀리 떨어져 있는 K개의 점을 선택합니다
먼저 무작위로 한 점을 첫 번째 초기 군집 중심점으로 선택한 다음 그 점에서 가장 멀리 있는 점을 두 번째 초기 군집 중심으로 선택합니다. 그런 다음 처음 두 점과 가장 가까운 거리를 갖는 점을 세 번째 초기 군집의 중심점으로 선택하는 방식으로 K개의 초기 군집 중심점이 선택될 때까지 계속됩니다.
2) 초기 군집화를 위해 계층적 군집화 또는 Canopy 알고리즘을 선택한 다음 이러한 군집의 중심점을 K-Means 알고리즘의 초기 군집 중심점으로 사용합니다.
알고리즘 1.5에서 k를 선택하는 방법은 무엇인가요?
우리가 가정하는 클러스터 수가 실제 클러스터 수보다 크거나 같으면 표시기는 천천히 상승하고, 실제 클러스터 수보다 적게 얻으려고 하면 표시기가 급격하게 상승합니다. 클러스터 인덱스는 중요한 참조 인덱스 역할을 합니다.
클러스터의 직경은 클러스터에 있는 두 지점 사이의 최대 거리를 나타냅니다.
군집의 반경은 군집의 모든 지점에서 군집 중심까지의 최대 거리를 나타냅니다.
1.6 장점, 단점 및 개선 방법은 무엇입니까?
임의의 요소를 사용하기 때문에 사용이 간편하므로 최적의 클래스를 찾는다는 보장은 없습니다. 클러스터 수를 합리적으로 초기화할 필요가 없습니다. 즉, K를 초기화해야 합니다.
2. K-최근접 이웃 분류 알고리즘(KNN)
2.1 문제는
K N N: 위 그림에서 그림에 설정된 데이터가 좋은 것을 알 수 있습니다. data, 즉 all 라벨을 붙인 후, 한 카테고리는 파란색 사각형, 다른 카테고리는 빨간색 삼각형, 녹색 원은 우리가 분류하려는 데이터입니다. K=3이면 녹색 점에 가장 가까운 2개의 빨간색 삼각형과 1개의 파란색 사각형이 있으므로 분류할 녹색 점이 빨간색 삼각형에 속합니다. 그리고 녹색 점에 가장 가까운 1개의 파란색 사각형이 최근에 2개의 빨간색 삼각형과 3개의 파란색 사각형으로 투표되었으므로 분류할 녹색 점이 파란색 사각형에 속합니다. 특징 공간의 인접한 샘플은 대부분 특정 범주에 속하며 샘플도 이 범주에 속합니다. KNN이 본질적으로 통계적 방법에 기반을 두고 있음을 알 수 있습니다! 실제로 많은 머신러닝 알고리즘도 데이터 통계를 기반으로 합니다.
2.2 KNN 알고리즘
소개
K N N은 K-Nearest Neighbor의 약자로, 일종의 메모리 기반 학습, 인스턴스 기반 학습이라고도 하며 게으른 학습에 속합니다. 즉, 명확한 사전 훈련 과정이 없습니다. 대신 프로그램이 실행되기 시작하면 데이터 세트를 메모리에 로드한 후 훈련이 필요하지 않으며 분류가 시작됩니다. KNN 역시 지도 학습 알고리즘으로, 새로운 데이터의 특징값과 훈련 데이터 사이의 거리를 계산한 후 분류(투표 방법) 또는 회귀를 위해 K(K>=1)개의 가장 가까운 이웃을 선택합니다. K=1이면 새 데이터는 가장 가까운 이웃 클래스에 할당됩니다.
Steps
1) 테스트 데이터와 각 훈련 데이터 사이의 거리를 계산합니다. 유클리드 거리 공식을 사용하여 계산할 수 있습니다.
2) 거리가 증가하는 관계에 따라 정렬합니다.
3) 거리가 가장 작은 K개 점을 선택합니다(k 값은 스스로 결정합니다).
4) 상위 K 범주의 발생 빈도를 결정합니다.
5) 첫 번째 K 포인트 중 빈도가 가장 높은 카테고리를 테스트 데이터의 예측 분류로 반환합니다.
Features
비모수적 통계 방법: 매개변수 K 선택을 도입할 필요가 없습니다. K = 1일 때 분류할 표본은 가장 가까운 표본의 클래스로 분류됩니다. K = | K를 합리적으로 선택해야 하며, 너무 작으면 쉽게 교란되고, 너무 크면 계산 복잡도가 높아집니다. 알고리즘의 복잡성: 차원의 저주 차원의 수가 증가하면 필요한 훈련 샘플의 수가 급격히 증가합니다.
2.3 알고리즘의 장점과 단점
장점: 간단하고 효과적입니다.
단점: 계산량이 많습니다. 출력은 해석하기가 쉽지 않습니다. 모든 훈련 샘플을 저장해야 합니다.
3. KNN과 k-평균의 차이점
관련 무료 학습 권장 사항: php 프로그래밍(동영상)
위 내용은 knn과 k-평균의 차이점은 무엇입니까의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!