Part 7:Regularition 在机器学习中一个很重要的问题就是程序可能会产生overfitting的情况,什么是overfitting?just see below: overfitting就是程序针对所给出的训练集找到了一条曲线,能够把训练集几乎完美的分为2个部分,但是这条曲线过于复杂,并且失去
Part 7:Regularition
在机器学习中一个很重要的问题就是程序可能会产生overfitting的情况,什么是overfitting?just see below:
overfitting就是程序针对所给出的训练集找到了一条曲线,能够把训练集几乎完美的分为2个部分,但是这条曲线过于复杂,并且失去了对新的元组预测的准确度。这种情况是非常有可能出现的,因为在逻辑回归中,如果元组X的属性值很多,那么很有可能拟合出来的曲线就会非常的复杂。那么如何避免这样的情况的发生?视频中给出了2个方法,第一个就是降低数据的维度,选取少部分真正能代表数据特征的几个维度来进行逻辑回归的计算;第二个就是正规化(Regularition),保留所有的维度,但是降低参数θj的大小。这种方法具体的实现如下:
在原来的代价函数上增加了对于参数θj本身大小的影响,使得最后得出的参数θ的大小尽可能的小,这样就不会过分的放大每个属性对于最终的输出的影响而导致函数过于复杂化。然后我们将regularition应用到线性回归,代价函数上面已列出,下面列出使用梯度下降法时的更新公式(基本的公式不变,修改了一下求出偏导之后的公式):
使用最小二乘法时的公式:
至于将regularition应用到逻辑回归,基本和线性回归一致,不再重新给出具体的公式了。