R에서 간단한 선형 회귀 방법을 구현하고 그 개념을 설명합니다.
단순 선형 회귀는 두 연속 변수 간의 관계를 연구하는 데 사용되는 통계 방법입니다. 그 중 하나의 변수를 독립변수(x)라고 하고, 다른 변수를 종속변수(y)라고 합니다. 두 변수 사이에 선형관계가 있다고 가정하고, 독립변수의 특성을 바탕으로 종속변수의 반응값(y)을 정확하게 예측하는 선형함수를 찾아보고자 한다. 직선을 맞추면 예측 결과를 얻을 수 있습니다. 이 예측 모델을 사용하면 독립 변수가 변경됨에 따라 종속 변수가 어떻게 변경되는지 이해하고 예측할 수 있습니다.
이 개념을 이해하기 위해 각 독립변수(경력 연수)에 해당하는 종속변수(급여)의 값이 포함된 급여 데이터 세트를 사용할 수 있습니다.
급여 데이터세트
연봉 및 경력
1.1 39343.00
1.3 46205.00
1.5 37731.00
2.0 43525.00
2.2 398 91.0 0
2.9 56642.00
3.0 60150.00
3.2 54445.00
3.2 64445.00
3.7 57189.00
일반적인 목적으로 다음을 정의합니다.
x를 특징 벡터로, 즉 x=[x_1,x_2,...,x_n],
y를 응답 벡터로, 즉 y=[y_1,y_2, .. ..,y_n]
n개의 관측치에 대해(위 예에서는 n=10).
주어진 데이터 세트의 산점도

이제 우리는 임의의 y 값 또는 임의의 x 값에 대한 반응을 예측할 수 있는 위의 산점도에 맞는 선을 찾아야 합니다.
가장 적합한 선을 회귀선이라고 합니다.
다음 R 코드는 단순 선형 회귀를 구현하는 데 사용됩니다.
dataset=read.csv('salary.csv') install.packages('caTools') library(caTools) split=sample.split(dataset$Salary,SplitRatio=0.7) trainingset=subset(dataset,split==TRUE) testset=subset(dataset,split==FALSE) lm.r=lm(formula=Salary~YearsExperience, data=trainingset) coef(lm.r) ypred=predict(lm.r,newdata=testset) install.packages("ggplot2") library(ggplot2) ggplot()+geom_point(aes(x=trainingset$YearsExperience, y=trainingset$Salary),colour='red')+ geom_line(aes(x=trainingset$YearsExperience, y=predict(lm.r,newdata=trainingset)),colour='blue')+ ggtitle('Salary vs Experience(Training set)')+ xlab('Years of experience')+ ylab('Salary') ggplot()+ geom_point(aes(x=testset$YearsExperience,y=testset$Salary), colour='red')+ geom_line(aes(x=trainingset$YearsExperience, y=predict(lm.r,newdata=trainingset)), colour='blue')+ ggtitle('Salary vs Experience(Test set)')+ xlab('Years of experience')+ ylab('Salary')
훈련 세트 결과 시각화

위 내용은 R에서 간단한 선형 회귀 방법을 구현하고 그 개념을 설명합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











다중 선형 회귀는 선형 회귀의 가장 일반적인 형태이며 단일 반응 변수 Y가 다중 예측 변수와 선형 관계를 나타내는 방법을 설명하는 데 사용됩니다. 다중 회귀를 사용할 수 있는 애플리케이션의 예: 주택 판매 가격은 위치, 침실 및 욕실 수, 건축 연도, 부지 규모 등과 같은 요인의 영향을 받을 수 있습니다. 2. 아이의 키는 어머니의 키, 아버지의 키, 영양, 환경적 요인에 따라 달라집니다. 다중 선형 회귀 모델 매개변수 k개의 독립 예측 변수 x1, x2..., xk와 응답 변수 y가 있는 다중 선형 회귀 모델을 고려하십시오. k+1개 변수에 대한 n개의 관측치가 있고 n개의 변수가 k보다 커야 한다고 가정합니다. 최소 제곱 회귀의 기본 목표는 초평면을 (k+1) 차원 공간에 맞춰 잔차 제곱의 합을 최소화하는 것입니다. 모델에

능선 회귀 또는 L2 정규화라고도 알려진 Tikhonov 정규화는 선형 회귀에 사용되는 정규화 방법입니다. 모델의 목적 함수에 L2 규범 페널티 항을 추가하여 모델의 복잡성과 일반화 능력을 제어합니다. 이 패널티 항은 과도한 가중치를 피하기 위해 제곱합으로 모델의 가중치에 패널티를 부여하여 과적합 문제를 완화합니다. 이 방법은 손실 함수에 정규화 항을 도입하고 정규화 계수를 조정하여 모델의 피팅 능력과 일반화 능력의 균형을 맞춥니다. Tikhonov 정규화는 실제 적용 범위가 넓으며 모델의 성능과 안정성을 효과적으로 향상시킬 수 있습니다. 정규화 전 선형 회귀의 목적 함수는 다음과 같이 표현될 수 있습니다. J(w)=\frac{1}{2m}\sum_{i=1}^{m}(h_

Python의 선형 회귀 모델에 대한 자세한 설명 선형 회귀는 고전적인 통계 모델이자 기계 학습 알고리즘입니다. 주식시장 예측, 날씨 예측, 주택 가격 예측 등 예측 및 모델링 분야에서 널리 사용됩니다. 효율적인 프로그래밍 언어인 Python은 선형 회귀 모델을 포함한 풍부한 기계 학습 라이브러리를 제공합니다. 이 기사에서는 모델 원리, 애플리케이션 시나리오 및 코드 구현을 포함하여 Python의 선형 회귀 모델을 자세히 소개합니다. 선형 회귀의 원리 선형 회귀 모델은 변수 간의 선형 관계를 기반으로 합니다.

1. 선형 회귀 선형 회귀는 아마도 가장 널리 사용되는 기계 학습 알고리즘일 것입니다. 선형 회귀는 직선을 찾고 이 직선을 산점도의 데이터 점에 최대한 가깝게 맞추는 것입니다. 이 데이터에 직선 방정식을 맞춰 독립변수(x 값)와 수치 결과(y 값)를 표현하려고 합니다. 그러면 이 선을 사용하여 미래 가치를 예측할 수 있습니다! 이 알고리즘에 가장 일반적으로 사용되는 기술은 최소 제곱법입니다. 이 방법은 선의 각 데이터 점으로부터 수직 거리를 최소화하는 최적 맞춤 선을 계산합니다. 총 거리는 모든 데이터 포인트의 수직 거리(녹색 선)의 제곱의 합입니다. 아이디어는 이 제곱 오차 또는 거리를 최소화하여 모델을 맞추는 것입니다. 예를 들어

다항회귀는 비선형 데이터 관계에 적합한 회귀분석 방법입니다. 직선 관계만 맞출 수 있는 단순 선형 회귀 모델과 달리 다항 회귀 모델은 복잡한 곡선 관계를 더 정확하게 맞출 수 있습니다. 다항식 기능을 도입하고 모델에 고차 변수 항을 추가하여 데이터의 비선형 변화에 더 잘 적응합니다. 이 접근 방식은 모델 유연성과 적합성을 향상시켜 보다 정확한 데이터 예측과 해석을 가능하게 합니다. 다항식 회귀 모델의 기본 형태는 다음과 같습니다. y=β0+β1x+β2x^2+…+βn*x^n+ε 이 모델에서 y는 예측하려는 종속 변수이고 x는 독립 변수입니다. . β0~βn은 독립변수가 종속변수에 미치는 영향 정도를 결정하는 모형의 계수이다. ε은 모델의 오차항을 나타내며, 이는 다음을 수행할 수 없음으로 인해 결정됩니다.

일반화선형모형과 일반선형모형은 통계학에서 흔히 사용되는 회귀분석 방법이다. 두 용어는 유사하지만 어떤 면에서는 다릅니다. 일반화 선형 모델을 사용하면 연결 함수를 통해 예측 변수를 종속 변수에 연결하여 종속 변수가 비정규 분포를 따를 수 있습니다. 일반 선형 모델은 종속 변수가 정규 분포를 따른다고 가정하고 모델링에 선형 관계를 사용합니다. 따라서 일반화 선형 모델은 더 유연하고 적용 범위가 더 넓습니다. 1. 정의 및 범위 일반선형모형은 종속변수와 독립변수 사이에 선형관계가 존재하는 상황에 적합한 회귀분석 방법이다. 종속변수가 정규분포를 따른다고 가정합니다. 일반화선형모형은 반드시 정규분포를 따르지 않는 종속변수에 적합한 회귀분석 방법이다. 연결함수와 분포군을 도입하여 종속변수를 기술할 수 있습니다.

로지스틱 회귀는 분류 문제에 사용되는 선형 모델로, 주로 이진 분류 문제에서 확률 값을 예측하는 데 사용됩니다. 시그모이드 함수를 사용하여 선형 예측값을 확률값으로 변환하고 임계값을 기준으로 분류 결정을 내립니다. 로지스틱 회귀 분석에서 OR 값은 모델의 다양한 변수가 결과에 미치는 영향을 측정하는 데 사용되는 중요한 지표입니다. OR 값은 독립변수의 단위 변화에 대해 종속변수가 발생할 확률의 다중 변화를 나타냅니다. OR 값을 계산하면 모델에 대한 특정 변수의 기여도를 확인할 수 있습니다. OR값의 계산방법은 지수함수(exp)의 자연로그(ln)의 계수를 취하는 것, 즉 OR=exp(β)이며, 여기서 β는 로지스틱 회귀분석에서 독립변수의 계수이다. 모델. 도구

정규 방정식은 선형 회귀를 위한 간단하고 직관적인 방법입니다. 반복적인 알고리즘을 사용하지 않고 수학 공식을 통해 직접 가장 적합한 직선을 계산합니다. 이 방법은 특히 작은 데이터 세트에 적합합니다. 먼저 선형 회귀의 기본 원리를 검토해 보겠습니다. 선형 회귀는 종속 변수 Y와 하나 이상의 독립 변수 X 간의 관계를 예측하는 데 사용되는 방법입니다. 단순선형회귀는 독립변수 X가 하나뿐인 반면, 다중선형회귀는 독립변수가 2개 이상 포함된다. 선형 회귀에서는 데이터 포인트에서 직선까지의 거리의 합이 최소화되도록 최소 제곱법을 사용하여 직선을 맞춥니다. 직선의 방정식은 다음과 같습니다. Y=β0+β1X1+β2X2+…+βnXn 방정식의 목표는 데이터에 가장 잘 맞을 수 있도록 최상의 절편 및 회귀 계수를 찾는 것입니다.
