다양한 기계 학습 및 그 이상: 기계 학습 A-Z

王林
풀어 주다: 2024-07-26 17:42:34
원래의
660명이 탐색했습니다.

onths of Machine Learning and beyond: Machine Learning A-Z

소개

지난 여름에 머신러닝 공부를 제대로 시작하기도 전에 이미 Udemy에서 여러 머신러닝 강좌를 구매했습니다. 그 중 가장 기본이 되는 과목이 Machine Learning A-Z: AI, Python & R이었는데, 이것이 저의 출발점이 되었습니다. 이 과정은 광범위한 기존 기계 학습 기술과 일부 딥 러닝을 다루면서 현장에 대한 완벽한 입문 역할을 했습니다.

코스 감상

일반적으로 우리는 프로그래머로서 구조화된 데이터를 사용하여 작업합니다. 그러나 세상은 본질적으로 지저분합니다. 머신러닝은 구조화되지 않은 정보를 처리하는 데 매우 유용한 도구임이 입증되었습니다. 초능력을 얻는 듯한 느낌을 주는 완전히 새로운 접근 방식의 세계를 소개했기 때문에 이 과정에 깊은 인상을 받았습니다.

코스 내용

이 과정에서는 머신러닝 프로세스를 단계별로 설명합니다. 프로세스의 초기 중요한 단계는 데이터 전처리이며, 이는 알고리즘이 적용되기 전에도 발생합니다.

데이터 전처리

전처리의 시작은 데이터 분할입니다. 데이터 세트를 훈련, 검증, 테스트 세트의 세 부분으로 나누는 것이 일반적입니다. 훈련 세트는 모델 훈련에 사용되고, 검증 세트는 훈련 중 과적합을 평가하는 데 사용되고, 테스트 세트는 훈련 후 모델의 성능을 평가하는 데 사용됩니다. 훈련.

누락된 데이터를 처리하는 것도 또 다른 중요한 측면입니다. 상황과 누락된 데이터의 양에 따라 다음 두 가지 기본 옵션이 있습니다.

  • 다른 데이터 포인트를 기반으로 결측값 대치
  • 데이터가 누락된 행 전체 제거

또한 일부 기계 학습 알고리즘은 입력 데이터의 규모에 민감하기 때문에 특성 확장을 수행하는 것이 중요한 경우가 많습니다. 예를 들어, K-NN(K-Nearest Neighbors)과 같은 데이터 포인트 사이의 거리를 계산하는 알고리즘은 이를 보상하기 위해 데이터가 조정되지 않으면 더 큰 규모의 변수 쪽으로 편향됩니다. 특징 스케일링은 독립 변수의 범위가 분석에 동일하게 기여하는지 확인하는 데 도움이 됩니다. 이는 정규화 또는 표준화와 같은 방법을 통해 수행할 수 있습니다. 정규화는 특성의 크기를 일반적으로 0에서 1 사이의 고정된 범위로 조정합니다. 표준화는 모든 특성의 평균이 0이고 표준편차가 1이 되도록 조정합니다.

이러한 전처리 단계는 실제 시나리오에서 잘 작동하는 강력한 기계 학습 모델을 만드는 데 필요합니다.

클래식 머신러닝 모델

회귀

회귀 모델은 하나 이상의 입력 변수를 기반으로 연속 결과를 예측하는 데 사용되는 통계 도구 유형입니다. 이는 변수 간 관계의 강도를 예측하고 결정하는 데 기본입니다. 이러한 모델은 관찰된 데이터에 가장 적합한 방정식을 생성하여 작동합니다. 저는 이미 몇 년 전에 수강한 통계 강좌에서 선형 회귀를 통해 회귀 모델에 대한 경험이 있습니다.

다항 회귀는 1보다 큰 거듭제곱을 갖는 항을 추가하여 선형 회귀를 확장합니다. 이를 통해 모델은 더 넓은 범위의 데이터 형태에 적합하고 변수 간의 더 복잡한 관계를 포착할 수 있습니다. 그러나 차수가 높은 다항식은 모델이 훈련 데이터에 너무 가깝게 적합하고 보이지 않는 데이터에 대해 성능이 저하되는 과적합으로 이어질 수 있습니다. 이는 모델이 훈련 데이터에서 노이즈를 학습하여 이를 실제 관계로 착각하기 때문에 발생합니다.

다음으로 이 과정에서는 과적합 위험이 낮은 비선형 관계를 캡슐화하고 지수 관계를 모델링할 수 있는 강력한 모델인 지원 벡터 회귀(SVR)를 소개합니다. SVR의 주요 목표는 대부분의 데이터 포인트에 최대한 가깝게 맞는 예측 선을 만드는 동시에 선을 최대한 부드럽고 평평하게 유지하는 것입니다. 즉, SVR은 학습 데이터를 면밀히 따르는 것과 새로운, 보이지 않는 데이터에서는 제대로 작동하지 않을 수 있는 지나치게 복잡한 모델을 피하는 것 사이에서 균형을 맞추려고 노력합니다. 편차가 허용되는 작은 오차 범위를 허용함으로써 이를 수행합니다. 따라서 SVR은 특히 데이터가 복잡하거나 변동성이 많은 경우 연속 값을 예측하는 데 강력한 선택입니다.

이후에는 결정 트리랜덤 포레스트가 소개됩니다. 일반적으로 분류로 알려진 이러한 기술은 회귀 설정에도 적용 가능합니다. 이 과정에서는 이러한 모델이 데이터 특징에서 추론된 의사결정 규칙을 기반으로 출력을 예측할 수 있는 방법을 설명합니다. 의사결정 트리Random Forest는 데이터세트 내 기능의 일련의 이진 결정을 기반으로 모델을 생성합니다. 이 접근 방식을 사용하면 훈련 데이터에는 잘 맞는 모델이 나올 수 있지만 의사 결정 프로세스가 임의적이고 변수 간의 기본 수학적 관계를 반드시 포착할 필요는 없기 때문에 새 데이터에 일반화하지 못할 수 있습니다.

반면 SVR, 다항회귀와 같은 방법은 데이터에 내재된 수학적 관계를 식별하는 것을 목표로 합니다. 예를 들어 SVR은 특정 오류 한계 내에서 가능한 최상의 곡선을 맞추려고 시도하며 다항식 회귀는 다항식 방정식을 따르는 관계를 모델링할 수 있습니다. 변수 간의 실제 관계가 수학적인 경우 이러한 방법은 과적합 위험이 적고 더 나은 성능을 발휘할 가능성이 높습니다. 수학적 관계를 찾아내고 활용하는 이러한 기능을 사용하면 SVR, 선형다항 회귀가 기본 데이터 관계가 강력하고 명확한 결과를 예측하는 데 더욱 강력해집니다.

회귀 분석에서 모델 선택

회귀 섹션은 최고의 모델을 선택하기 위한 전략으로 마무리됩니다. 다양한 접근 방식을 실험하고 테스트 데이터에 대한 성능을 평가하는 것이 여전히 권장됩니다. 실험은 여전히 ​​최적의 모델을 선택하는 유일한 방법이기 때문입니다.

분류

분류에는 입력 변수를 기반으로 범주형 응답을 예측하는 작업이 포함됩니다.

로지스틱 회귀는 이름에도 불구하고 기본 분류 기법으로 이진 분류 문제에 이상적입니다. 이는 예/아니요, 참/거짓과 같은 두 가지 가능한 상태를 갖는 결과를 예측하는 데 사용됩니다. 일반적으로 1로 레이블이 지정된 기본 클래스의 확률을 입력 특성의 함수로 모델링하여 작동합니다. 로지스틱 회귀는 선형 방정식의 출력에 로지스틱 함수를 적용하여 0과 1 사이의 확률 점수를 생성합니다. 이 모델은 이진 분류 문제에 강력하고 간단하며 효율적입니다.

이 강좌의 다음 모델은 K-Nearest Neighbours(K-NN)입니다. 이웃이 분류되는 방식에 따라 데이터 포인트를 분류하고 다중 클래스 문제와 더 복잡한 결정 경계를 처리할 수 있습니다.

이 과정에서는 분류를 위한 지원 벡터 머신(SVM)도 다루며 선형 및 비선형 분류를 처리하기 위해 다양한 커널을 사용하는 방법을 설명합니다. 서포트 벡터 머신은 다차원 공간에 초평면을 구성하여 서로 다른 클래스를 구분합니다. SVM은 고차원 공간에서 잘 작동합니다. 다양한 커널 기능을 사용하여 초평면을 데이터에 더 잘 적응시킬 수 있기 때문에 다재다능합니다. 예를 들어, 선형 커널은 선형으로 분리 가능한 데이터에 적합한 반면, RBF(방사형 기초 함수) 커널은 비선형 관계를 매핑할 수 있습니다.

클러스터링

분류와 클러스터링은 모두 데이터를 구성하는 방법이지만 용도가 다릅니다. 분류는 모델이 레이블이 지정된 데이터를 학습하는 지도 학습 접근 방식입니다. 이는 모델이 이미 할당된 카테고리나 클래스가 있는 예제로부터 학습한다는 의미입니다. 그 임무는 학습한 내용을 기반으로 새로운 데이터의 범주를 예측하는 것입니다. 예를 들어, 분류 모델은 그에 따라 레이블이 지정된 이메일 데이터 세트를 사용한 학습을 ​​기반으로 이메일이 스팸인지 스팸이 아닌지 결정할 수 있습니다.

반면 클러스터링은 동일한 그룹에 있는 개체가 다른 그룹에 있는 개체보다 서로 더 유사하도록 개체 집합을 그룹화하는 비지도 학습 기술입니다. . 데이터에 대해 사전 정의된 레이블이 없을 때 사용됩니다. 모델 자체는 데이터에 내재된 그룹화를 발견합니다. 클러스터링의 예로는 다양한 고객 유형에 대한 사전 지식 없이 구매 행동에 따라 고객을 그룹으로 분류할 수 있습니다.

두 가지 방법 모두 데이터 분석의 기본입니다.

  • 분류에서는 예측 모델링을 위해 레이블이 지정된 데이터를 사용합니다.
  • 클러스터링은 데이터에 숨겨진 패턴을 발견하는 데 도움이 됩니다.

클러스터링 기술

K-평균은 특징에 따라 데이터를 K개의 고유하고 겹치지 않는 클러스터로 분할하는 널리 사용되는 클러스터링 기술입니다. 이 프로세스에는 K 포인트를 클러스터 중심으로 무작위로 초기화하고 유클리드 거리를 기반으로 각 데이터 포인트를 가장 가까운 클러스터에 할당하는 작업이 포함됩니다. 그런 다음 클러스터 중심은 할당된 점의 평균으로 다시 계산되며 이 프로세스는 중심이 안정화되고 더 이상 크게 움직이지 않을 때까지 반복됩니다. 이 방법은 대규모 데이터 세트에 특히 효과적이며 단순성과 효율성으로 인해 널리 사용됩니다. K-평균은 클러스터가 구형이고 크기가 균일한 데이터에 가장 잘 작동하므로 복잡한 클러스터 모양에서는 효율성이 떨어집니다.

계층적 군집화K-Means와 달리 군집 개수를 미리 지정할 필요가 없습니다. 분할 방법이나 응집 방법을 통해 클러스터의 계층 구조를 구축합니다.

집합적 접근 방식에서는 각 데이터 포인트가 자체 클러스터로 시작하고 클러스터 쌍이 계층 구조 위로 올라갈 때 병합됩니다. 모든 포인트가 계층 구조 상단의 단일 클러스터로 병합될 때까지 프로세스가 계속됩니다. 이 방법은 데이터 포인트 간의 유사성 수준을 식별하는 데 유용하며 덴드로그램을 사용하여 시각적으로 표현됩니다. 이는 덴드로그램을 적절한 수준으로 절단하여 클러스터 수를 결정하는 데 도움이 될 수 있습니다.

하향식 클러스터링이라고도 알려진 계층적 클러스터링의 분할 방법은 단일 클러스터의 모든 관측치에서 시작하여 점차적으로 클러스터를 더 작은 클러스터로 분할합니다. 이 접근 방식은 계층 구조의 최상위에서 시작하여 아래로 진행되므로 개념적으로 간단합니다. 모든 분할은 각 분할 수준에서 가능한 가장 뚜렷하고 일관된 클러스터를 생성하도록 설계되었습니다.

실제로 분할 방법에서는 클러스터를 각 단계에서 검사하고 분할하기에 가장 좋은 지점을 선택합니다. 여기에는 클러스터 내의 관측치 사이의 거리를 측정하고 가장 큰 거리를 분할할 지점으로 식별하는 작업이 포함됩니다. 프로세스는 각 관측값이 자체 클러스터가 될 때까지 또는 지정된 클러스터 수에 도달할 때까지 각 후속 클러스터를 분할하면서 재귀적으로 계속됩니다. 일반적으로 각 분할에서 데이터에 대한 전역 보기가 필요하므로 일반적으로 집계 방식보다 계산 집약적이므로 대규모 데이터 세트에서는 일반적으로 사용되지 않습니다.

계층적 클러스터링은 소규모 데이터세트에 또는 생물학이나 과거 데이터를 클러스터링하는 등 데이터 요소 간의 관계를 면밀히 조사해야 하는 경우에 특히 유용합니다.

딥러닝 모델

딥 러닝은 여러 계층으로 구성된 신경망을 사용하는 머신 러닝의 하위 집합입니다. 이는 기존의 기계 학습 기술과 크게 다릅니다. 기존 기계 학습은 종종 수동으로 선택하고 엔지니어링하는 기능에 중점을 두는 반면, 딥 러닝은 기능을 학습하도록 신경망을 훈련시키는 것을 목표로 합니다. 모델은 단순한 패턴에서 복잡한 패턴을 구축하여 특징 추출을 자동화합니다. 이는 입력 데이터가 고도로 차원적이고 데이터 내의 관계가 복잡한 이미지 및 음성 인식과 같은 작업에 딥 러닝을 매우 강력하게 만듭니다. 하지만 딥러닝 모델을 훈련하려면 막대한 양의 정보가 필요합니다.

인공신경망

딥 러닝의 기본 요소는 순방향 조밀 연결 신경망, 즉 인공 신경망(ANN)입니다. 이러한 네트워크에서 뉴런은 레이어로 배열되어 있으며, 첫 번째 레이어는 입력 데이터를 가져오고 마지막 레이어는 출력을 생성합니다. 한 계층의 각 뉴런은 다음 계층의 모든 뉴런에 연결되어 네트워크가 "밀집되게 연결"됩니다. 이러한 뉴런에는 네트워크가 훈련 과정 동안 데이터로부터 학습함에 따라 조정되는 가중치와 편향이 있습니다. 각 뉴런의 출력은 비선형 활성화 함수에 의해 계산되며, 이는 데이터에서 비선형 관계를 포착하는 기능을 도입합니다.

ANN의 뉴런 레이어는 가중치와 편향으로 구성된 벡터로 표현될 수 있습니다. 데이터는 행렬 곱셈을 사용하여 이러한 계층을 통해 전달됩니다. 각 레이어의 출력은 입력 데이터에 가중치 행렬을 곱한 다음 편향 항을 추가하여 계산됩니다. 이 출력은 다음 레이어로 전송되기 전에 활성화 함수를 통과합니다.

활성화 기능은 모델에 비선형성을 도입하여 네트워크가 데이터의 복잡한 비선형 관계를 학습하고 모델링할 수 있도록 하기 때문에 매우 중요합니다. 비선형 활성화 함수가 없으면 네트워크는 깊이에 관계없이 선형 경계만 학습할 수 있는 단일 레이어 퍼셉트론처럼 동작합니다.

컨볼루셔널 신경망

기본 ANN의 대안은 CNN(Convolutional Neural Network)입니다. 모든 입력이 각 뉴런에 연결되는 조밀하게 연결된 네트워크와 달리 CNN은 픽셀 볼륨에 대해 작동하고 필터를 사용하여 이미지의 가장자리와 같이 입력에서 감지된 특징의 존재를 요약하는 특징 맵을 만듭니다. 이를 통해 CNN은 필요한 매개변수 수를 줄이고 계산 부담을 줄이므로 공간 계층과 관련된 작업에 매우 효율적입니다.

컨볼루션 신경망은 이미지와 같은 격자형 토폴로지를 가진 데이터를 처리하기 위한 특수한 종류의 신경망입니다. CNN은 필터가 입력 위로 미끄러질 때 컨볼루션 작업을 수행하는 필터를 사용하여 입력에서 감지된 특징의 존재를 요약하는 특징 맵을 생성합니다. 이는 이미지 관련 작업에 매우 효율적입니다.

CNN은 디지털 신호 처리의 기본 기술인 컨볼루션의 수학적 연산을 활용합니다. DSP의 맥락에서 컨볼루션은 필터로 신호를 변경하여 중요한 특징을 추출하는 데 사용됩니다. 마찬가지로 CNN에서 컨볼루션에는 이미지에 필터를 적용하여 특징 맵을 생성하는 작업이 포함됩니다. 이 프로세스를 통해 네트워크는 필터에 해당하는 이미지의 유사점이나 특정 특징을 효과적으로 감지할 수 있습니다. 예를 들어 필터는 가장자리나 특정 모양을 감지하도록 학습될 수 있습니다.

입력 이미지가 연속적인 컨볼루션 레이어를 통해 처리되므로 CNN은 각 레이어에서 여러 필터를 사용하여 점점 더 복잡해지는 패턴을 검색합니다. 첫 번째 레이어는 단순한 가장자리나 질감을 감지할 수 있는 반면, 더 깊은 레이어는 개체의 일부나 전체 개체와 같은 더 복잡한 특징을 인식할 수 있습니다.

경사하강법 및 신경망 훈련

경사하강법은 신경망 및 기타 기계 학습 모델 훈련에 사용되는 기본 최적화 알고리즘입니다. 이는 모델의 예측이 실제 데이터와 얼마나 잘 일치하는지 측정하는 손실 함수를 최소화하기 위해 모델의 매개변수를 반복적으로 조정하는 방식으로 작동합니다. 각 단계에서 알고리즘은 모델 매개변수에 대한 손실 함수의 기울기를 계산하고 손실을 줄이는 방향으로 매개변수를 이동합니다.

역전파는 신경망에서 이러한 기울기를 효율적으로 계산하는 데 사용되는 기술입니다. 여기에는 두 단계가 포함됩니다.

  • 입력 데이터가 네트워크를 통해 전달되어 예측을 생성하는 정방향 전달입니다.
  • 역방향 전달은 예측을 기반으로 손실 함수의 기울기를 계산합니다. 나중에 가중치를 업데이트하기 위해 네트워크를 통해 다시 전파됩니다.

이 프로세스는 미적분학의 연쇄 법칙을 활용하여 기울기를 추정하여 전체 오류에 대한 기여도에 비례하여 각 가중치가 조정되도록 합니다. 경사하강법역전파를 함께 사용하면 신경망이 반복적으로 정확성을 향상하여 데이터로부터 학습할 수 있습니다.

손실 함수

손실 함수는 학습 과정을 안내하는 데 중요한 역할을 합니다. 비용 함수 또는 오류 함수라고도 합니다. 이는 네트워크의 예측 출력과 실제 목표 값 간의 차이를 정량화합니다. 이 지표는 네트워크가 얼마나 잘 수행되고 있는지에 대한 구체적인 척도를 제공합니다. 훈련의 목표는 이러한 손실을 최소화하여 모델의 매개변수를 최적화하는 것입니다.

ANN에서 일반적으로 사용되는 손실 함수는 특정 작업 유형에 따라 다릅니다.

  • 연속 값을 예측하는 것이 목표인 회귀 작업의 경우 평균 제곱 오류(MSE) 손실이 자주 사용됩니다. MSE는 예측값과 실제값 간의 차이의 제곱 평균을 계산하여 오류가 클수록 더 엄격한 처벌을 적용합니다.
  • 출력이 클래스 레이블인 분류 작업의 경우 교차 엔트로피 손실이 일반적으로 사용됩니다. 이 손실 함수는 실제 라벨 분포와 모델이 제공하는 예측 간의 차이를 측정합니다.

소실 기울기 문제와 ReLu

심층 신경망 구축 시 중요한 과제 중 하나는 기울기 소멸 문제입니다. 훈련 과정에 사용되는 기울기가 너무 작아지면 가중치가 값을 변경하지 못하게 되고, 이로 인해 네트워크가 매개변수를 충분히 업데이트하지 못하게 됩니다.

이 문제는 시그모이드 또는 tanh 활성화 함수에서 특히 두드러집니다. 이를 완화하기 위해 딥러닝에서는 Rectified Linear Unit(ReLu) 활성화 기능을 채택했습니다. ReLu는 ReLU(x)=max(0,x)로 정의됩니다. 여기서 x는 뉴런에 대한 입력을 나타냅니다. 이 기능은 훈련 중에 더 강한 기울기를 유지하는 데 도움이 되므로 기울기가 사라지지 않고 더 깊은 네트워크가 효과적으로 학습할 수 있습니다. 그래디언트의 규모에 영향을 주지 않고 비선형성을 촉진하는 이러한 단순성과 효율성 덕분에 ReLu는 딥 러닝 아키텍처에서 인기 있는 선택이 되었습니다.

전문적인 머신러닝 기술

이 과정은 각각 특정 애플리케이션과 도메인에 맞게 조정된 더욱 다양하고 전문적인 기계 학습 기술로 진행되었습니다.

자연어 처리

자연어 처리(NLP)는 자연어와 음성의 분석 및 합성에 컴퓨팅 기술을 적용하는 과정을 포함합니다. NLP에 머신러닝을 사용할 때의 주요 과제 중 하나는 텍스트 데이터가 본질적으로 구조화되지 않고 고차원적이라는 것입니다. 텍스트는 기계 학습 알고리즘이 처리할 수 있는 숫자 형식으로 변환되어야 하며, 이는 구문, 의미, 컨텍스트와 같은 언어의 뉘앙스로 인해 복잡한 작업입니다.

단어의 가방

BoW(Bag of Words) 모델은 단어의 순서와 컨텍스트를 무시하고 각 단어가 문서에 나타나는 빈도를 계산하여 텍스트를 고정 길이 벡터로 변환함으로써 이 문제를 해결합니다. 이 방법은 텍스트 데이터를 단순화하여 기본 기계 학습 모델에서 관리할 수 있게 만들고 스팸 감지 또는 감정 분석과 같은 텍스트 분류 작업을 위한 기본 기술로 사용됩니다. 그러나 BoW 모델의 단순성, 단어 순서 및 의미적 맥락의 무시로 인해 더 복잡한 언어 작업에 대한 효율성이 제한됩니다.

UCB 및 Thompson 샘플링을 사용한 강화 학습

강화 학습(RL)은 에이전트가 환경과 상호 작용하여 결정을 내리는 방법을 배우는 일종의 기계 학습입니다. 올바른 입력/출력 쌍이 제시되지 않으며 차선책 작업이 명시적으로 수정되지 않는다는 점에서 지도 학습과 다릅니다. 이 전략은 의사 결정 과정에서 탐색, 새로운 시도, 알려진 정보 활용의 균형을 유지함으로써 발전합니다.

에이전트는 정책에 따라 조치를 취하고, 보상이나 처벌을 통해 피드백을 받고, 장기적인 보상을 극대화하기 위해 정책을 업데이트합니다. 탐색-활용 딜레마를 관리하는 데 도움이 되는 RL의 두 가지 주목할만한 전략은 UCB(Upper Confidence Bound)Thompson Sampling

입니다.

UCB는 보상이 높거나 자주 시도되지 않은 행동을 선택하여 탐색을 우선시하는 알고리즘입니다. 아이디어는 알려진 보상과 덜 시도된 행동에서 더 높은 보상을 찾을 가능성의 균형을 맞추는 것입니다. UCB는 행동 보상 추정치에 대한 신뢰 한계를 구축하고 신뢰 상한이 가장 높은 행동을 선택함으로써 이를 수행합니다. 이 접근 방식은 체계적으로 불확실성을 줄이고 시간이 지남에 따라 의사 결정을 향상시킵니다.

Thompson Sampling은 탐색-이용 문제에 대해 베이지안 접근 방식을 취합니다. 여기에는 각 행동에 대한 보상의 사후 분포에서 샘플링하고 가장 높은 샘플을 가진 행동을 선택하는 작업이 포함됩니다. 이 방법을 사용하면 알려진 작업 성능을 기반으로 보다 확률적인 탐색이 가능하며, 보상 확률 분포를 기반으로 새로운 작업 탐색과 알려진 작업 활용 간의 동적인 균형을 유지할 수 있습니다.

UCBThompson Sampling은 모두 에이전트가 처음에 학습 환경을 알지 못하는 상황에서 강력한 기술로, 에이전트로부터 받은 피드백을 기반으로 체계적인 탐색과 최적화된 학습이 가능합니다. 환경. 이러한 방법은 A/B 테스트 또는 네트워크 라우팅과 같은 실시간 의사결정 시나리오에 특히 유용합니다.

차원 감소 기법

PCA는 분산을 최대한 유지하면서 차원 축소에 사용되는 통계 기법입니다. 이는 소위 주성분, 즉 데이터의 분산이 최대화되는 방향을 식별함으로써 작동합니다. 원래 변수를 새로운 직교 변수 세트로 변환하여 데이터의 차원을 줄입니다. 직교성을 통해 이 새로운 변수는 가능한 한 상관 관계가 없으며 데이터의 최대 분산을 설명할 수 있습니다. 이는 데이터의 분산에 가장 큰 영향을 미치는 관계를 유지하면서 데이터의 변수 수를 줄이는 데 특히 유용합니다. PCA는 데이터를 복잡성을 줄인 새로운 차원 세트로 변환함으로써 고차원 데이터 시각화, 학습 알고리즘 속도 향상, 노이즈 제거에 도움을 줍니다.

LDA도 차원 축소 기법이지만 알려진 범주 간의 분리성을 극대화하는 데 더 중점을 둡니다. 데이터 클래스 간의 차이를 모델링하려고 시도합니다. LDA는 클래스를 구분하는 특성의 선형 조합을 찾아 이를 달성합니다. 결과 조합은 선형 분류기로 사용되거나 나중에 분류하기 전에 차원 축소에 사용될 수 있습니다.

PCALDA는 모두 약간 다른 용도로 사용됩니다.

  • PCA는 비지도 방식으로 데이터의 분산에 중점을 둡니다.
  • LDA는 클래스 분리성을 극대화하는 데 중점을 두고 관리하고 있습니다.

최신 모델 선택 및 부스팅 기술

과정 후반부에서는 고급 모델 선택 전략을 살펴보고 부스팅을 소개합니다. 부스팅은 여러 개의 약한 학습자를 순차적으로 더 강력한 모델로 결합하는 방식으로 작동합니다. 시퀀스의 각 학습자는 이전 학습자의 오류에 초점을 맞춰 모델의 정확도를 점차 향상시킵니다. 학습자는 일반적으로 의사 결정 트리와 같은 단순한 모델이며 각 모델은 최종 결정에 점진적으로 기여하므로 개별 모델보다 앙상블이 더욱 강력해집니다.

극단적인 그래디언트 부스팅

이 기술의 가장 인기 있는 구현 중 하나는 XGBoost(Extreme Gradient Boosting)로, 이는 광범위한 예측 모델링 작업 전반에 걸쳐 효율성과 효율성이 뛰어납니다.

결론

'기계 학습 A-Z: AI, Python & R' 과정은 기계 학습에 관심이 있는 모든 사람에게 훌륭한 시작점입니다. 많은 중요한 주제를 다루고 광범위한 개요를 제공하지만 이는 시작에 불과합니다.

이 과정을 마친다고 해서 바로 전문적인 기계 학습 작업을 수행할 전문가가 되는 것은 아닙니다. 대신, 그것을 첫 번째 단계로 생각하십시오. 기본 사항을 이해하는 데 도움이 되며 머신러닝의 어떤 부분이 가장 흥미로울 수 있는지 보여줍니다.

위 내용은 다양한 기계 학습 및 그 이상: 기계 학습 A-Z의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:dev.to
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿