일반적인 지도 학습 알고리즘-일체 포함-php.cn

일반적인 지도 학습 알고리즘

지도 학습은 보이지 않는 예를 예측하기 위해 알고리즘을 훈련하여 레이블이 지정된 예를 사용하는 기계 학습 유형입니다. 목표는 입력 데이터를 출력 레이블에 매핑하는 함수를 배우는 것입니다.

지도 학습에서 알고리즘은 일련의 입력 예제와 그에 상응하는 올바른 출력 레이블이 포함된 훈련 데이터 세트를 받습니다. 이 데이터 세트를 사용하여 알고리즘은 새로운 예에 대한 출력 레이블을 예측하는 함수를 학습할 수 있습니다. 알고리즘의 성능을 평가하기 위해 일반적으로 독립적인 테스트 데이터 세트를 사용하여 학습된 함수의 정확성을 확인합니다. 이 테스트 데이터 세트는 보이지 않는 데이터에 대한 알고리즘 성능을 테스트하는 데 사용됩니다.

1. 선형 회귀

선형 회귀는 연속 값을 예측하는 데 사용되는 방법으로, 특성과 대상 간의 관계가 선형이라고 가정합니다. 목표는 예측값과 실제값 사이의 제곱 오차의 합을 최소화하는 최적선을 찾는 것입니다. 또한 선형 회귀를 다항식 회귀와 함께 사용하여 다항식 곡선을 데이터에 맞출 수 있습니다.

2. 로지스틱 회귀

로지스틱 회귀는 이진 분류에 사용되는 알고리즘입니다. 연속적인 값을 예측하기 때문에 회귀 알고리즘이지만, 예측된 값을 확률로 변환하는 로지스틱 함수를 사용하기 때문에 분류 작업에 자주 사용됩니다. 로지스틱 회귀는 로지스틱 함수(시그모이드 함수라고도 함)를 사용하여 표본이 특정 클래스에 속할 확률을 예측하기 때문에 "로지스틱" 회귀라고 합니다.

최적화 알고리즘(예: 경사하강법)을 사용하여 샘플이 특정 클래스에 속할 확률을 예측하는 데 사용할 수 있는 가중치 집합을 학습하는 것을 목표로 합니다. 예측은 예측 확률을 임계값으로 설정하여 수행됩니다.

3. 서포트 벡터 머신(SVM)

서포트 벡터 머신 알고리즘은 고차원 공간에서 두 클래스의 분리를 최대화하는 초평면을 찾으려는 선형 분류기로서 분류 및 분석에 사용됩니다. 회귀.

SVM은 초평면을 정의하는 가중치 세트를 학습하여 작동합니다. 초평면은 클래스 분리를 최대화하고 각 클래스의 가장 가까운 예제까지 최대 거리(마진이라고 함)를 갖도록 선택됩니다. 초평면이 발견되면 SVM을 사용하여 새 사례를 특징 공간에 투영하고 초평면의 어느 쪽에 속하는지에 따라 클래스를 예측함으로써 새로운 사례를 분류할 수 있습니다. 커널 함수는 선형 또는 비선형일 수 있으며 데이터를 더 높은 차원 공간으로 변환하여 서포트 벡터 머신이 변환된 공간에서 선형 경계를 찾을 수 있도록 합니다.

SVM은 입력 데이터를 고차원 공간(선형적으로 분리 가능할 수 있음)에 매핑하여 비선형 결정 경계를 학습할 수 있으므로 데이터가 고차원이고 선형적으로 분리 불가능한 작업에 특히 유용합니다. 그런 다음 공간 결정 경계를 학습합니다(커널 기술이라고도 함).

4. 결정 트리

결정 트리 알고리즘은 분류 및 회귀에 사용되는 트리 구조를 기반으로 예측을 수행하는 비선형 분류기입니다. 이는 특성 값을 기반으로 입력 공간을 영역으로 반복적으로 나누는 방식으로 작동합니다.

결정 트리는 특성 값에 따라 입력 공간을 여러 영역으로 반복적으로 나누는 방식으로 작동합니다. 트리의 각 단계에서 알고리즘은 지니 지수 또는 정보 획득과 같은 분할 기준을 기반으로 데이터를 가장 잘 분할하는 기능을 선택합니다. 프로세스는 트리의 최대 깊이 또는 리프 노드의 최소 예제 수와 같은 중지 기준에 도달할 때까지 계속됩니다.

새로운 예에 대한 예측을 위해 알고리즘은 리프 노드에 도달할 때까지 특성 값을 기반으로 트리의 가지를 추적합니다. 그런 다음 리프 노드에 있는 예제의 대다수 클래스(분류 작업의 경우) 또는 리프 노드에 있는 예제의 평균 또는 중앙값(회귀 작업의 경우)을 기반으로 예측이 이루어집니다.

의사결정 트리는 간단하고 해석 가능하며 구현하기 쉬운 모델입니다. 또한 학습 및 예측 속도가 빠르고 다양한 데이터 유형을 처리할 수 있습니다. 그러나 의사결정 트리는 과적합되기 쉬우며, 특히 트리가 매우 깊게 자라는 경우에는 더욱 그렇습니다.

5.K Nearest Neighbors (KNN)

K Nearest Neighbor 알고리즘은 주어진 테스트 예제에서 K개의 가장 가까운 예제의 다수 클래스를 예측하는 비모수적 방법으로 분류 및 회귀에 사용됩니다.

KNN은 모든 학습 샘플을 저장한 다음 테스트 샘플에 가장 가까운 특징 공간의 K 샘플을 기반으로 예측하는 방식으로 작동합니다. K 값은 실무자가 선택한 하이퍼파라미터입니다. 분류를 위해 K개의 최근 사례 중 다수 클래스를 기반으로 예측이 이루어집니다. 회귀 분석의 경우 K개의 최근 사례에 대한 대상 변수의 평균 또는 중앙값을 기반으로 예측이 이루어집니다.

KNN은 알고리즘이 테스트 예제와 모든 훈련 예제 사이의 거리를 계산해야 하기 때문에 계산 비용이 많이 들 수 있습니다. 또한 K와 거리 측정법의 선택에 민감할 수도 있습니다. 또한 고급 알고리즘과 비교하기 위한 기본 모델 역할도 합니다.

6. Naive Bayes

Naive Bayes 알고리즘은 특정 기능이 존재하는 경우 특정 이벤트가 발생할 확률을 기반으로 예측하는 확률 분류기입니다. Naive Bayes는 클래스 레이블이 주어지면 데이터의 모든 기능이 서로 독립적이라는 "순진한" 가정을 합니다. 이 가정은 비현실적인 경우가 많지만 이러한 가정에도 불구하고 알고리즘은 실제로는 여전히 잘 작동합니다.

Naive Bayes 알고리즘에는 다양한 변형이 있습니다. Gaussian Naive Bayes는 연속 특성에 사용되며 특성이 정규 분포를 따른다고 가정합니다. 다항식 Naive Bayes는 개수 데이터에 사용되며 특징이 다항식 분포를 따른다고 가정합니다. Bernoulli Naive Bayes는 이진 기능에 사용되며 기능이 Bernoulli 분포를 따른다고 가정합니다. Naive Bayes는 구현이 쉽고 훈련과 예측이 빠른 간단하고 효율적인 알고리즘입니다.

7. 신경망

신경망은 뇌의 구조와 기능에서 영감을 얻은 기계 학습 알고리즘입니다. 이는 노드 또는 단위라고 불리는 층으로 함께 연결된 인공 뉴런으로 구성됩니다. 신경망은 분류, 회귀, 시퀀스 생성을 포함한 광범위한 작업을 수행하는 방법을 학습할 수 있습니다. 입력 데이터와 출력 간의 복잡한 관계를 학습해야 하는 작업에 특히 적합합니다.

피드포워드 신경망, 컨볼루션 신경망, 순환 신경망을 포함하여 다양한 유형의 신경망이 있습니다. 피드포워드 신경망은 입력층, 하나 이상의 은닉층, 출력층으로 구성된 가장 기본적인 유형의 신경망입니다. 컨벌루션 신경망은 이미지 분류, 객체 감지 등의 작업에 사용되며, 이미지와 같은 격자형 구조의 데이터를 처리하도록 설계되었습니다. 순환 신경망은 언어 번역, 음성 인식 등의 작업에 사용되며, 시계열이나 자연어 등의 순차적 데이터를 처리하도록 설계되었습니다.

신경망은 예측된 출력과 실제 출력 간의 차이를 측정하는 손실 함수를 최소화하기 위해 확률적 경사하강법과 같은 최적화 알고리즘을 사용하여 훈련됩니다. 손실을 최소화하기 위해 훈련 중에 노드 간 연결의 가중치가 조정됩니다.

8. Random Forest

Random Forest 알고리즘은 다중 의사결정 트리의 예측을 결합하여 최종 예측을 하는 앙상블 방법입니다. 랜덤 포레스트는 훈련 데이터의 다양한 하위 집합에 대해 많은 의사결정 트리를 훈련한 다음 개별 트리의 예측을 평균화하여 생성됩니다. 트리가 데이터의 부트스트랩 샘플에 대해 훈련되기 때문에 이 프로세스를 부트스트래핑이라고 합니다. 부트스트래핑 프로세스는 트리 훈련 프로세스에 무작위성을 도입하여 과적합을 줄이는 데 도움이 됩니다.

랜덤 포레스트는 분류, 회귀, 특징 선택 등의 작업에 널리 사용됩니다. 이들은 많은 기능을 갖춘 대규모 데이터 세트를 처리하는 능력과 광범위한 작업에서 우수한 성능을 발휘하는 것으로 알려져 있습니다. 또한 과적합에 강하므로 많은 기계 학습 애플리케이션에 적합한 선택입니다.

9. 부스팅 알고리즘

부스팅은 일련의 약한 모델을 훈련하고 해당 예측을 결합하여 최종 예측을 하는 기계 학습 기술입니다. 부스팅에서는 약한 모델을 순차적으로 훈련시키며, 각 모델은 이전 모델의 오류를 수정하도록 훈련됩니다. 최종 예측은 가중 다수결을 사용하여 개별 약한 모델의 예측을 결합하여 이루어집니다. 개별 모델의 가중치는 일반적으로 모델의 정확도에 따라 선택됩니다. 부스팅은 일반적으로 분류 및 회귀와 같은 작업에 사용됩니다. 광범위한 작업에서 높은 정확도를 달성하는 능력과 많은 기능을 갖춘 대규모 데이터 세트를 처리하는 능력으로 알려져 있습니다.

위 내용은 일반적인 지도 학습 알고리즘의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!