기계 학습 회귀 모델과 관련된 중요한 지식 요약
1. 선형 회귀의 가정은 무엇입니까?
선형 회귀에는 네 가지 가정이 있습니다.
- 선형성: 독립 변수(x)와 종속 변수(y) 사이에 선형 관계가 있어야 합니다. 즉, x 값이 변경되면 y 값도 변경되어야 합니다. 같은 방향.
- 독립성: 기능은 서로 독립적이어야 합니다. 즉, 다중 공선성이 최소화되어야 합니다.
- 정규성: 잔차는 정규 분포를 따라야 합니다.
- 동분산성: 회귀선 주변의 데이터 포인트 분산은 모든 값에 대해 동일해야 합니다.
2. 잔차란 무엇이며 회귀 모델을 평가하는 데 어떻게 사용되나요?
잔차오차는 예측값과 관측값 사이의 오차를 말합니다. 회귀선에서 데이터 포인트까지의 거리를 측정합니다. 관측값에서 예측값을 빼서 계산됩니다.
잔차 도표는 회귀 모델을 평가하는 좋은 방법입니다. 세로축에 잔차를 모두 표시하고, x축에 특징을 표시한 그래프입니다. 데이터 포인트가 패턴이 없는 선에 무작위로 흩어져 있으면 선형 회귀 모델이 데이터에 잘 맞는 것입니다. 그렇지 않으면 비선형 모델을 사용해야 합니다.
3. 선형 회귀 모델과 비선형 회귀 모델을 구별하는 방법은 무엇입니까?
둘 다 회귀 문제 유형입니다. 둘의 차이점은 훈련받은 데이터입니다.
선형 회귀 모델은 특성과 레이블 간의 선형 관계를 가정합니다. 즉, 모든 데이터 포인트를 가져와 선형(직선) 선으로 플롯하면 데이터에 맞아야 합니다.
비선형 회귀 모델은 변수 간에 선형 관계가 없다고 가정합니다. 비선형(곡선) 선은 데이터를 올바르게 분리하고 맞춰야 합니다.
데이터가 선형인지 비선형인지 확인하는 가장 좋은 세 가지 방법 -
- 잔차 플롯
- 산점도
- 데이터가 선형이라고 가정하고 선형 모델을 훈련하고 정확성을 기준으로 평가합니다.
4. 다중 공선성은 무엇이며 모델 성능에 어떤 영향을 미치나요?
다중공선성은 특정 특성이 서로 높은 상관관계를 가질 때 발생합니다. 상관관계는 한 변수가 다른 변수의 변화에 의해 어떻게 영향을 받는지 나타내는 측정값을 나타냅니다.
특성 a의 증가가 특성 b의 증가로 이어진다면 두 특성은 양의 상관관계가 있습니다. a의 증가로 인해 특성 b의 감소가 발생하면 두 특성은 음의 상관 관계가 있습니다. 학습 데이터에 상관 관계가 높은 두 변수가 있으면 해당 모델이 데이터에서 패턴을 찾을 수 없어 모델 성능이 저하되므로 다중 공선성이 발생합니다. 따라서 모델을 훈련하기 전에 먼저 다중 공선성을 제거해야 합니다.
5. 이상치가 선형 회귀 모델의 성능에 어떤 영향을 미치나요?
아웃라이어는 데이터 포인트의 평균 범위와 값이 다른 데이터 포인트입니다. 즉, 이러한 점은 데이터와 다르거나 3차 기준을 벗어나는 것입니다.
선형 회귀 모델은 잔차를 줄이는 최적의 선을 찾으려고 시도합니다. 데이터에 이상값이 포함된 경우 가장 적합한 선이 이상값 쪽으로 약간 이동하여 오류율이 증가하고 MSE가 매우 높은 모델이 생성됩니다.
6. MSE와 MAE의 차이점은 무엇인가요?
MSE는 평균 제곱 오차(Mean Squared Error)를 의미하며, 이는 실제 값과 예측 값의 제곱 차이입니다. 그리고 MAE는 목표값과 예측값의 절대차입니다.
MSE는 큰 실수에 대해 처벌을 가하지만 MAE는 그렇지 않습니다. MSE와 MAE의 값이 모두 감소할수록 모델이 더 잘 맞는 선이 되는 경향이 있습니다.
7. L1 및 L2 정규화는 무엇이며 언제 사용해야 합니까?
머신러닝의 주요 목표는 훈련 및 테스트 데이터에서 더 나은 성능을 발휘할 수 있는 일반 모델을 만드는 것입니다. 하지만 데이터가 매우 적을 경우 기본 선형 회귀 모델은 과적합되는 경향이 있으므로 l1 및 l2 정규화를 사용합니다. .
L1 정규화 또는 올가미 회귀는 기울기의 절대값을 비용 함수 내의 페널티 항으로 추가하여 작동합니다. 임계값보다 작은 기울기 값을 가진 모든 데이터 포인트를 제거하여 이상값을 제거하는 데 도움이 됩니다.
L2 정규화 또는 능선 회귀는 계수 크기의 제곱과 동일한 페널티 항을 추가합니다. 경사 값이 더 높은 피처에 페널티를 줍니다.
l1 및 l2는 훈련 데이터가 작고 분산이 높으며 예측 특징이 관측값보다 크고 데이터에 다중 공선성이 있을 때 유용합니다.
8. 이분산성은 무엇을 의미하나요?
가장 적합한 선 주변의 데이터 포인트의 분산이 범위 내에서 다른 상황을 말합니다. 이로 인해 잔여물이 고르지 않게 분산됩니다. 데이터에 존재하는 경우 모델은 잘못된 출력을 예측하는 경향이 있습니다. 이분산성을 테스트하는 가장 좋은 방법 중 하나는 잔차를 그리는 것입니다.
데이터 내 이분산성의 가장 큰 원인 중 하나는 범위 특성 간의 큰 차이입니다. 예를 들어 1에서 100000까지의 열이 있는 경우 값을 10% 늘려도 낮은 값은 변경되지 않지만 높은 값에서는 매우 큰 차이가 발생하므로 큰 분산 데이터 포인트가 생성됩니다. .
9. 분산 팽창 요인의 역할은 무엇인가요?
분산 팽창 계수(vif)는 다른 독립 변수를 사용하여 독립 변수를 얼마나 잘 예측할 수 있는지 확인하는 데 사용됩니다.
v1, v2, v3, v4, v5 및 v6 기능이 포함된 예제 데이터를 살펴보겠습니다. 이제 v1의 vif를 계산하려면 이를 예측 변수로 간주하고 다른 모든 예측 변수를 사용하여 예측해 보세요.
VIF 값이 작다면 데이터에서 변수를 제거하는 것이 좋습니다. 값이 작을수록 변수 간의 상관 관계가 높다는 것을 의미하기 때문입니다.
10. 단계적 회귀는 어떻게 작동하나요?
단계적 회귀는 가설 테스트를 통해 예측 변수를 제거하거나 추가하여 회귀 모델을 만드는 방법입니다. 각 독립 변수의 유의성을 반복적으로 테스트하고 각 반복 후에 일부 기능을 제거하거나 추가하여 종속 변수를 예측합니다. n번 실행하여 관측값과 예측값 사이의 오류가 가장 작은 종속변수를 예측하는 최상의 매개변수 조합을 찾으려고 시도합니다.
대량의 데이터를 매우 효율적으로 관리하고 고차원 문제를 해결할 수 있습니다.
11. MSE, MAE 외에 다른 중요한 회귀 지표가 있나요?
회귀 문제를 사용하여 이러한 지표를 소개합니다. 여기서 입력은 업무 경험이고 출력은 급여입니다. 아래 그래프는 급여를 예측하기 위해 그려진 선형 회귀선을 보여줍니다.
1. 평균 절대 오차(MAE):
평균 절대 오차(MAE)는 가장 간단한 회귀 측정입니다. 각 실제 값과 예측 값의 차이를 더한 후 관측치 수로 나눕니다. 회귀 모델이 좋은 모델로 간주되려면 MAE가 최대한 작아야 합니다.
MAE의 장점은 다음과 같습니다.
간단하고 이해하기 쉽습니다. 결과는 출력과 동일한 단위를 갖게 됩니다. 예: 출력 열의 단위가 LPA이고 MAE가 1.2인 경우 결과를 +1.2LPA 또는 -1.2LPA로 해석할 수 있습니다. MAE는 이상값에 대해 상대적으로 안정적입니다(다른 회귀 지표인 MAE와 비교). 이상값의 영향을 덜 받습니다).
MAE의 단점은 다음과 같습니다.
MAE는 모듈러 함수를 사용하지만 모듈러 함수는 모든 지점에서 미분 가능하지 않으므로 많은 경우 손실 함수로 사용할 수 없습니다.
2. 평균 제곱 오차(MSE):
MSE는 각 실제 값과 예측 값의 차이를 구한 다음 그 차이를 제곱하고 더한 다음 마지막으로 관측치 수로 나눕니다. 회귀 모델이 좋은 모델로 간주되려면 MSE가 최대한 작아야 합니다.
MSE의 장점: 제곱 함수는 모든 점에서 미분 가능하므로 손실 함수로 사용할 수 있습니다.
MSE의 단점: MSE는 제곱 함수를 사용하므로 결과의 단위는 출력의 제곱입니다. 따라서 결과를 해석하기가 어렵습니다. 제곱 함수를 사용하므로 데이터에 이상값이 있는 경우 차이도 제곱되므로 MSE는 이상값에 대해 안정적이지 않습니다.
3. 평균 제곱근 오차(RMSE):
평균 제곱근 오차(RMSE)는 각 실제 값과 예측 값의 차이를 구한 다음 그 차이를 제곱하여 더한 다음 마지막으로 관찰 수. 그런 다음 결과의 제곱근을 취합니다. 따라서 RMSE는 MSE의 제곱근입니다. 회귀 모델이 좋은 모델로 간주되려면 RMSE가 최대한 작아야 합니다.
RMSE는 MSE 문제를 해결합니다. 단위는 제곱근을 취하므로 출력의 단위와 동일하지만 여전히 이상값에 대해서는 덜 안정적입니다.
위 지표는 우리가 해결하고 있는 문제의 맥락에 따라 달라집니다. 실제 문제에 대한 이해 없이는 MAE, MSE, RMSE 값만 보고 모델의 품질을 판단할 수 없습니다.
4, R2 점수:
입력 데이터가 없지만 그가 이 회사에서 받는 급여가 얼마나 되는지 알고 싶다면, 우리가 할 수 있는 최선의 방법은 모든 직원의 평균을 제공하는 것입니다. ' 급여 가치.
R2 점수는 0에서 1 사이의 값을 제공하며 어떤 상황에서도 해석될 수 있습니다. 핏의 품질로 이해될 수 있습니다.
SSR은 회귀선 오류 제곱의 합이고, SSM은 이동 평균 오류 제곱의 합입니다. 회귀선을 평균선과 비교합니다.
- R2 점수가 0이면 우리 모델의 결과가 평균과 동일하다는 의미이므로 모델을 개선해야 합니다.
- R2 점수가 1이면 방정식의 우변은 0이 됩니다. 이는 모델이 모든 데이터 포인트에 적합하고 오류가 없는 경우에만 발생할 수 있습니다.
- R2 점수가 음수이면 방정식의 우변이 1보다 크다는 뜻이며, 이는 SSR > SSM일 때 발생할 수 있습니다. 이는 우리 모델이 평균보다 나쁘다는 것을 의미합니다. 이는 우리 모델이 평균을 사용하여 예측하는 것보다 나쁘다는 것을 의미합니다.
모델의 R2 점수가 0.8이면 모델이 설명할 수 있다고 말할 수 있습니다. 출력 변동의 80%. 즉, 임금변동의 80%는 투입(근로연수)에 의해 설명 가능하지만 나머지 20%는 알 수 없다.
모델에 근무 연수와 면접 점수라는 2가지 특성이 있는 경우 모델은 이 두 가지 입력 특성을 사용하여 급여 변화의 80%를 설명할 수 있습니다.
R2의 단점:
입력 특성 수가 증가함에 따라 R2는 그에 따라 증가하거나 동일하게 유지되는 경향이 있지만, 입력 특성이 모델에 중요하지 않더라도(예: 숫자를 추가하는 경우에도) 절대 줄어들지 않습니다. 인터뷰 당일 입력 기능) 예시에 공기 온도를 추가하면 온도가 출력에 중요하지 않더라도 R2는 떨어지지 않습니다.
5. 조정된 R2 점수:
위 수식에서 R2는 R2이고, n은 관측치(행) 수, p는 독립 특성 수입니다. 조정된 R2는 R2의 문제를 해결합니다.
급여를 예측하기 위해 온도를 추가하는 등 모델에 덜 중요한 기능을 추가하는 경우.....
면접 점수를 추가해 급여를 예측하는 등 모델에 중요한 특성을 추가할 때...
위는 회귀 문제의 중요한 지식 포인트와 이를 해결하는 데 사용되는 다양한 중요 지표 소개입니다. 회귀 문제의 장점과 단점이 도움이 되기를 바랍니다.
위 내용은 기계 학습 회귀 모델과 관련된 중요한 지식 요약의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











기계 학습 및 데이터 과학 분야에서 모델 해석 가능성은 항상 연구자와 실무자의 초점이었습니다. 딥러닝, 앙상블 방법 등 복잡한 모델이 널리 적용되면서 모델의 의사결정 과정을 이해하는 것이 특히 중요해졌습니다. explainable AI|XAI는 모델의 투명성을 높여 머신러닝 모델에 대한 신뢰와 확신을 구축하는 데 도움이 됩니다. 모델 투명성을 향상시키는 것은 여러 복잡한 모델의 광범위한 사용은 물론 모델을 설명하는 데 사용되는 의사 결정 프로세스와 같은 방법을 통해 달성할 수 있습니다. 이러한 방법에는 기능 중요도 분석, 모델 예측 간격 추정, 로컬 해석 가능성 알고리즘 등이 포함됩니다. 특성 중요도 분석은 모델이 입력 특성에 미치는 영향 정도를 평가하여 모델의 의사결정 과정을 설명할 수 있습니다. 모델 예측 구간 추정

이달 초 MIT와 기타 기관의 연구자들은 MLP에 대한 매우 유망한 대안인 KAN을 제안했습니다. KAN은 정확성과 해석성 측면에서 MLP보다 뛰어납니다. 그리고 매우 적은 수의 매개변수로 더 많은 수의 매개변수를 사용하여 실행되는 MLP보다 성능이 뛰어날 수 있습니다. 예를 들어 저자는 KAN을 사용하여 더 작은 네트워크와 더 높은 수준의 자동화로 DeepMind의 결과를 재현했다고 밝혔습니다. 구체적으로 DeepMind의 MLP에는 약 300,000개의 매개변수가 있는 반면 KAN에는 약 200개의 매개변수만 있습니다. KAN은 MLP와 같이 강력한 수학적 기반을 가지고 있으며, KAN은 Kolmogorov-Arnold 표현 정리를 기반으로 합니다. 아래 그림과 같이 KAN은

C++의 기계 학습 알고리즘이 직면하는 일반적인 과제에는 메모리 관리, 멀티스레딩, 성능 최적화 및 유지 관리 가능성이 포함됩니다. 솔루션에는 스마트 포인터, 최신 스레딩 라이브러리, SIMD 지침 및 타사 라이브러리 사용은 물론 코딩 스타일 지침 준수 및 자동화 도구 사용이 포함됩니다. 실제 사례에서는 Eigen 라이브러리를 사용하여 선형 회귀 알고리즘을 구현하고 메모리를 효과적으로 관리하며 고성능 행렬 연산을 사용하는 방법을 보여줍니다.

대규모 언어 모델(LLM)을 인간의 가치와 의도에 맞추려면 인간의 피드백을 학습하여 유용하고 정직하며 무해한지 확인하는 것이 중요합니다. LLM 정렬 측면에서 효과적인 방법은 인간 피드백 기반 강화 학습(RLHF)입니다. RLHF 방법의 결과는 훌륭하지만 몇 가지 최적화 문제가 있습니다. 여기에는 보상 모델을 훈련한 다음 해당 보상을 극대화하기 위해 정책 모델을 최적화하는 것이 포함됩니다. 최근 일부 연구자들은 더 간단한 오프라인 알고리즘을 탐구했는데, 그 중 하나가 직접 선호 최적화(DPO)입니다. DPO는 RLHF의 보상 기능을 매개변수화하여 선호도 데이터를 기반으로 직접 정책 모델을 학습하므로 명시적인 보상 모델이 필요하지 않습니다. 이 방법은 간단하고 안정적입니다.

머신 러닝은 명시적으로 프로그래밍하지 않고도 컴퓨터가 데이터로부터 학습하고 능력을 향상시킬 수 있는 능력을 제공하는 인공 지능의 중요한 분야입니다. 머신러닝은 이미지 인식, 자연어 처리, 추천 시스템, 사기 탐지 등 다양한 분야에서 폭넓게 활용되며 우리의 삶의 방식을 변화시키고 있습니다. 기계 학습 분야에는 다양한 방법과 이론이 있으며, 그 중 가장 영향력 있는 5가지 방법을 "기계 학습의 5개 학교"라고 합니다. 5개 주요 학파는 상징학파, 연결주의 학파, 진화학파, 베이지안 학파, 유추학파이다. 1. 상징주의라고도 알려진 상징주의는 논리적 추론과 지식 표현을 위해 상징을 사용하는 것을 강조합니다. 이 사고 학교는 학습이 기존을 통한 역연역 과정이라고 믿습니다.

번역기 | 검토자: Li Rui | Chonglou 인공 지능(AI) 및 기계 학습(ML) 모델은 오늘날 점점 더 복잡해지고 있으며 이러한 모델에서 생성되는 출력은 이해관계자에게 설명할 수 없는 블랙박스입니다. XAI(Explainable AI)는 이해관계자가 이러한 모델의 작동 방식을 이해할 수 있도록 하고, 이러한 모델이 실제로 의사 결정을 내리는 방식을 이해하도록 하며, AI 시스템의 투명성, 이 문제를 해결하기 위한 신뢰 및 책임을 보장함으로써 이 문제를 해결하는 것을 목표로 합니다. 이 기사에서는 기본 원리를 설명하기 위해 다양한 설명 가능한 인공 지능(XAI) 기술을 살펴봅니다. 설명 가능한 AI가 중요한 몇 가지 이유 신뢰와 투명성: AI 시스템이 널리 수용되고 신뢰되려면 사용자가 의사 결정 방법을 이해해야 합니다.

소프트웨어 기술의 선두에 있는 UIUC Zhang Lingming 그룹은 BigCode 조직의 연구원들과 함께 최근 StarCoder2-15B-Instruct 대규모 코드 모델을 발표했습니다. 이 혁신적인 성과는 코드 생성 작업에서 획기적인 발전을 이루었으며 CodeLlama-70B-Instruct를 성공적으로 능가하고 코드 생성 성능 목록의 최상위에 올랐습니다. StarCoder2-15B-Instruct의 독창성은 순수한 자체 정렬 전략에 있습니다. 전체 훈련 프로세스는 개방적이고 투명하며 완전히 자율적이고 제어 가능합니다. 이 모델은 값비싼 수동 주석에 의존하지 않고 StarCoder-15B 기본 모델을 미세 조정한 것에 대한 응답으로 StarCoder2-15B를 통해 수천 개의 명령을 생성합니다.

MetaFAIR는 대규모 기계 학습을 수행할 때 생성되는 데이터 편향을 최적화하기 위한 새로운 연구 프레임워크를 제공하기 위해 Harvard와 협력했습니다. 대규모 언어 모델을 훈련하는 데는 수개월이 걸리고 수백 또는 수천 개의 GPU를 사용하는 것으로 알려져 있습니다. LLaMA270B 모델을 예로 들면, 훈련에는 총 1,720,320 GPU 시간이 필요합니다. 대규모 모델을 교육하면 이러한 워크로드의 규모와 복잡성으로 인해 고유한 체계적 문제가 발생합니다. 최근 많은 기관에서 SOTA 생성 AI 모델을 훈련할 때 훈련 프로세스의 불안정성을 보고했습니다. 이는 일반적으로 손실 급증의 형태로 나타납니다. 예를 들어 Google의 PaLM 모델은 훈련 과정에서 최대 20번의 손실 급증을 경험했습니다. 수치 편향은 이러한 훈련 부정확성의 근본 원인입니다.
