用R实现简单线性回归方法并解释其概念

WBOY
发布: 2024-01-22 23:09:11
转载
1144 人浏览过

简单线性回归是一种用于研究两个连续变量之间关系的统计方法。其中,一个变量被称为自变量(x),另一个变量被称为因变量(y)。我们假设这两个变量之间存在线性关系,并试图找到一个线性函数,以自变量的特征来准确预测因变量的响应值(y)。通过拟合一条直线,我们可以得到预测的结果。这个预测模型可以用来理解和预测因变量如何随着自变量的变化而变化。

为了理解这个概念,我们可以借助一个薪水数据集,其中包含了每个自变量(经验年限)对应的因变量(薪水)的值。

薪资数据集

年薪和经验

1.1 39343.00

1.3 46205.00

1.5 37731.00

2.0 43525.00

2.2 39891.00

2.9 56642.00

3.0 60150.00

3.2 54445.00

3.2 64445.00

3.7 57189.00

出于一般目的,我们定义:

x作为特征向量,即x=[x_1,x_2,....,x_n],

y作为响应向量,即y=[y_1,y_2,....,y_n]

对于n次观察(在上面的示例中,n=10)。

给定数据集的散点图

简单线性回归概念 R代码实现简单线性回归

现在,我们必须找到一条适合上述散点图的线,通过它我们可以预测任何y值或任何x值的响应。

最适合的线称为回归线。

以下R代码用于实现简单线性回归

dataset=read.csv('salary.csv')
install.packages('caTools')
library(caTools)
split=sample.split(dataset$Salary,SplitRatio=0.7)
trainingset=subset(dataset,split==TRUE)
testset=subset(dataset,split==FALSE)
lm.r=lm(formula=Salary~YearsExperience,
data=trainingset)
coef(lm.r)
ypred=predict(lm.r,newdata=testset)
install.packages("ggplot2")
library(ggplot2)
ggplot()+geom_point(aes(x=trainingset$YearsExperience,
y=trainingset$Salary),colour='red')+
geom_line(aes(x=trainingset$YearsExperience,
y=predict(lm.r,newdata=trainingset)),colour='blue')+
ggtitle('Salary vs Experience(Training set)')+
xlab('Years of experience')+
ylab('Salary')
ggplot()+
geom_point(aes(x=testset$YearsExperience,y=testset$Salary),
colour='red')+
geom_line(aes(x=trainingset$YearsExperience,
y=predict(lm.r,newdata=trainingset)),
colour='blue')+
ggtitle('Salary vs Experience(Test set)')+
xlab('Years of experience')+
ylab('Salary')
登录后复制

可视化训练集结果

简单线性回归概念 R代码实现简单线性回归

以上是用R实现简单线性回归方法并解释其概念的详细内容。更多信息请关注PHP中文网其他相关文章!

相关标签:
来源:163.com
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责声明 Sitemap
PHP中文网:公益在线PHP培训,帮助PHP学习者快速成长!