当前位置:文档之家› 机器学习算法系列(2):线性回归

机器学习算法系列(2):线性回归

线性回归假设特征和结果满⾜足线性关系。

其实线性关系的表达能⼒力力⾮非常强⼤大,每个特征对结果的影响强弱可以由前⾯面的参数体现,⽽而且每个特征变量量可以⾸首先映射到⼀一个函数,然后再参与线性计算。

这样就可以表达特征与结果之间的⾮非线性关系。

我们可以有这样的模型表达:其中,表示⾃自变量量(特征分量量),表示因变量量,表示对应⾃自变量量(特征)的权重,是偏倚项(⼜又称为截距)。

对于参数,在物理理上可以解释为:在⾃自变量量(特征)之间相互独⽴立的前提下,反映⾃自变量量对因变量量的影响程度,越⼤大,说明对结果的影响越⼤大。

因此,我们可以通过每个⾃自变量量(特征)前⾯面的参数,可以很直观的看出那些特征分量量对结果的影响⽐比较⼤大。

如果令,可以将上述模型写成向量量形式,即:其中均为向量量,为的转置。

在上述公式中,假设特征空间与输⼊入空间相同。

准确地讲,模型表达式要建⽴立的是特征空间与结果之间的关系。

在⼀一些应⽤用场合中,需要将输⼊入空间映射到特征空间中,然后建模,定义映射函数为,因此我们可以把公式写成更更通⽤用的表达公式:特征映射相关技术,包括特征哈希、特征学习、等。

机器器学习算法系列列(2):线性回归⼀一、线性回归模型y =+++···+θ0θ1x 1θ2x 2θn x n,,···,x 1x 2x n y θi θ0θθi x i y θi x i y =1,y =(x )x 0h θ(x )==xh θ∑i =0n θi x i θT θ=(,,···,),x =(1,,,···,)θ0θ1θn x 1x 2x n θT θx Φ(x )(x )=Φ(x )h θθT Kernel ⼆二、⽬目标函数2.1 ⽬目标函数上⾯面的公式的参数向量量是维的,每个参数的取值是实数集合,也就是说参数向量量在维实数空间中取值结果有⽆无穷种可能。

那么,如何利利⽤用⼀一个规则或机制帮助我们评估求得的参数,并且使得线性模型效果最佳呢?直观地认为,如果求得参数线性求和后,得到的结果与真实值之差越⼩小越好。

这时我们需要映⼊入⼀一个函数来衡量量表示真实值好坏的程度,该函数称为损失函数(loss function ,也称为错误函数)。

数学表示如下:这个损失函数⽤用的是的预测值与真实值之差的平⽅方和。

如果不不考虑诸如过拟合等其他问题,这就是我们需要优化的⽬目标函数。

⼀一般地,机器器学习中不不同的模型会有相应的⽬目标函数。

⽽而回归模型(尤其是线性回归类)的⽬目标函数通常⽤用平⽅方损失函数来作为优化的⽬目标函数(即真实值与预测值之差的平⽅方和)。

为什什么要选⽤用误差平⽅方和作为⽬目标函数呢?答案可以从概率论中的中⼼心极限定理理、⾼高斯分布等知识中找到。

⽬目标函数的概率解释需要⽤用到中⼼心极限定理理。

中⼼心极限定理理本身就是研究独⽴立随机变量量和的极限分布为正态分布的问题。

中⼼心极限定理理的公式表示为:设个随机变量量相互独⽴立,均具有相同的数学期望与⽅方差,即,令为随机变量量之和,有称随机变量量为个随机变量量的规范和。

它的定义为:设从均值为、⽅方差为(有限)的任意⼀一个总体中抽取样本量量为的样本,当充分⼤大时,样本均值的抽样分布近似服从于均值为、⽅方差为的正态分布。

θn +1θn +1θθ(x )h θy (x )h θy J (θ)=12∑i =1n((()−))h θx (i )y (i )2J (θ)min θx (i )()h θx (i )y (i )2.2 ⽬目标函数的概率解释2.2.1 中⼼心极限定理理n ,,···,X 1X 2X n E ()=μ;D ()=X i X i σ2Y n =++···+Y n X 1X 2X n==→N (0,1)Z n −E ()Y n Y n D ()Y n ‾‾‾‾‾‾√−n μY n σn ‾√Z n n ,,···,X 1X 2X n μσ2n n Y nn μσ2假设给定⼀一个输⼊入样例例根据公式得到预测值与真实值之间存在误差,即为。

那么,它们之间的关系表示如下:⽽而这⾥里里假设误差服从标准⾼高斯分布是合理理的。

解释如下:回归模型的最终⽬目标是通过函数表达式建⽴立⾃自变量量与结果之间的关系,希望通过能较为准确地表示结果。

⽽而在实际的应⽤用场合中,很难甚⾄至不不可能把导致的所有变量量(特征)都找出来,并放到回归模型中。

那么模型中存在的通常认为是影响结果最主要的变量量集合(⼜又称为因⼦子,在ML 中称为特征集)。

根据中⼼心极限定理理,把那些对结果影响⽐比较⼩小的变量量(假设独⽴立同分布)之和认为服从正态分布是合理理的。

可以⽤用⼀一个示例例来说明误差服从⾼高斯分布是合理理的:的课程中第⼀一节线性回归的例例⼦子中,根据训练数据建⽴立房屋的⾯面积与房屋的售价之间的函数表达。

它的数据集把房屋⾯面积作为最为主要的变量量。

除此之外我们还知道房屋所在的地段(地铁、学区、城区、郊区),周边交通状况,当地房价、楼层、采光、绿化⾯面积等等诸多因素会影响房价。

实际上,因数据收集问题可能拿不不到所有影响房屋售价的变量量,可以假设多个因素变量量相互独⽴立,根据中⼼心极限定理理,认为变量量之和服从⾼高斯分布。

即:那么和的条件概率可表示为:根据上述公式估计得到⼀一条样本的结果概率,模型的最终⽬目标是希望在全部样本上预测最准,也就是概率积最⼤大,这个概率积就是似然函数。

优化的⽬目标函数即为似然函数,表示如下:2.2.2 ⾼高斯分布x (i )θT x (i )y (i )ε(i )=+y (i )θT x (i )ε(i )ε(i )x y x y y x y AndrewNg x y =−ϵ(i )y (i )θT x (i )x y p (|;θ)=exp (−)y (i )x (i )1σ2π‾‾‾√(−)y (i )θT x(i )22σ22.2.3 极⼤大似然估计与损失函数极⼩小化等价L (θ)=exp (−)max θ∏i =1m 1σ2π‾‾‾√(−)y (i )θT x (i )22σ2对取对数,可得对数似然函数:由于都为常数,因此上式等价于我们可以发现,经过最⼤大似然估计推导出来的待优化的⽬目标函数与平⽅方损失函数是等价的。

因此可以得出结论:线性回归误差平⽅方损失极⼩小化与极⼤大似然估计等价。

其实在概率模型中,⽬目标函数的原函数(或对偶函数)极⼩小化(或极⼤大化)与极⼤大似然估计等价,这是⼀一个带有普遍性的结论。

⽐比如在最⼤大熵模型中,有对偶函数极⼤大化与极⼤大似然估计等价的结论。

那上⾯面为什什么是条件概率呢?因为我们希望预测值与真实值更更接近,这就意味着希望求出来的参数,在给定输⼊入的情况下,得到的预测值等于真实值得可能性越⼤大越好。

⽽而,均为前提条件,因此⽤用条件概率表示。

即越⼤大,越能说明估计的越准确。

当然也不不能⼀一味地只有该条件函数,还要考虑拟合过度以及模型的泛化能⼒力力问题。

如何调整参数使得取得最⼩小值?⽅方法有很多,这⾥里里介绍⼏几种⽐比较经典的⽅方法,即最⼩小⼆二乘法、梯度下降法以及⽜牛顿法。

将个维样本组成矩阵:则⽬目标函数的矩阵形式为L (x )l (θ)=−m log σ−max θ2π‾‾‾√12σ2∑i =1m (−)y (i )θT x (i )2n ,σmin θ12∑i =1m (−)y (i )θT x (i )2p (y |x ;θ)θx θx p (y |x ;θ)p (y |x ;θ)三、参数估计θJ (θ)3.1 最⼩小⼆二乘法3.1.1 ⽬目标函数的矩阵形式m n X ⎛⎝⎜⎜⎜⎜⎜11···1x (1)1x (1)2···x (1)m x (2)1x (2)2···x (2)m ·········x (n )1x (n )2x (n )m⎞⎠⎟⎟⎟⎟⎟(θ)==(X θ−y )m​这是⼀一个表示参数与⽬目标函数的关系图,红⾊色的部分是表示有⽐比较⾼高的取值,我们需要的是,能够让的值尽量量的低。

也就是深蓝⾊色的部分。

和表示向量量的两个维度。

在上⾯面提到梯度下降法的第⼀一步是给⼀一个初值,假设随机给的初值是在图上的⼗十字点。

然后我们将按照梯度下降的⽅方向进⾏行行调整,就会使得往更更低的⽅方向进⾏行行变化,如图所示,算法的结束将是在下降到⽆无法继续下降为⽌止。

当然,可能梯度下降的最终点并⾮非是全局最⼩小点,可能是⼀一个局部最⼩小点,⽐比如下⾯面这张图中描述的就是⼀一个局部最⼩小点,这是我们重新选择了了⼀一个初始点得到的,看来我们这个算法会在很⼤大程度上被初始点的选择影响⽽而陷⼊入局部最⼩小点。

θJ (θ)J (θ)J (θ)θ0θ1θθθJ (θ)θ​下⾯面对于⽬目标函数求偏导数:下⾯面是更更新的过程,也就是会向着梯度最⼩小的⽅方向进⾏行行减少。

表示更更新之前的值,表示步⻓长,也就是每次按照梯度减少的⽅方向变化多少,由于求得是极⼩小值,因此梯度⽅方向是偏导数的反⽅方向,结果为⼀一个很重要的地⽅方值得注意的是,梯度是有⽅方向的,对于⼀一个向量量,每⼀一维分量量都可以求出⼀一个梯度的⽅方向,我们就可以找到⼀一个整体的⽅方向,在变化的时候,我们就朝着下降最多的⽅方向进⾏行行变化就可以达到⼀一个最⼩小点,不不管他是全局的还是局部的。

在对⽬目标函数求偏导时,可以⽤用更更简单的数学语⾔言(倒三⻆角表示梯度)进⾏行行描述:J (θ)J (θ)=∂∂θj ∂∂θj 12((x )−y )h θ2=2·((x )−y )((x )−y )12h θ∂∂θjh θ=((x )−y )h θx jθi θa θ:=+a ((x )−y )θj h θx jθθi J (θ)J =∇θ⎡⎣⎢⎢⎢⎢⎢J ∂∂θ0······J ∂∂θn ⎤⎦⎥⎥⎥⎥⎥将梯度下降法应⽤用到线性回归有三种⽅方式:批处理理梯度下降法、随机梯度下降法。

​可以看出,参数的值每更更新⼀一次都要遍历样本集中的所有的样本,得到新的,看是否满⾜足阈值要求,若满⾜足,则迭代结束,根据此值就可以得到;否则继续迭代。

注意到,虽然梯度下降法易易受到极⼩小值的影响,但是⼀一般的线性规划问题只有⼀一个极⼩小值,所以梯度下降法⼀一般可以收敛到全局的最⼩小值。

相关主题