范数及其应用
一般来说,监督学习可以看做最小化下面的目标函数:
L(yi,f(xi;w)) 衡量我们的模型(分类或者回归)对第i个样 本的预测值f(xi;w)和真实的标签yi之前的误差。
L0范数与L1范数
L0范数是指向量中非0的元素的个数。如果我 们用L0范数来规则化一个参数矩阵W的话,就是 希望W的大部分元素都是0,让参数W是稀疏的 。
c1 x
x
c2 x
并称 和 定理
为 Cn上的等价范数。
(向量序列收敛性定理) 设 xk Cn , 则
k xi xi 0, i 1, 2, , n lim xk x 0 lim k k
lim x k = x
k
其中 x k x1 , x2 , , xn
这说明,W的L1范数是绝对值,|w|在w=0处是不可微的。
L1范数和L0范数可以实现稀疏,L1因具有比L0更好的优 化求解特性而被广泛应用。
稀疏的原因
特征选择
稀疏规则化受欢迎的一个关键原因在于它能实现特征的 自动选择。
可解释性
通过稀疏可以使模型更容易解释。
L2范数
L2范数: ||W||2,在回归里面,有人把有它的 回归叫“岭回归”,有人也叫它“权值衰减”。 它的强大功效是改善机器学习里面一个非常重要 的问题:过拟合。
上面的图是线性回归,从左到右分别是欠拟合,合适的 拟合和过拟合三种情况。
Logistic回归
如果模型复杂(可以拟合任意的复杂函数),它可以让 我们的模型拟合所有的数据点,也就是基本上没有误差。 对于回归来说,就是我们的函数曲线通过了所有的数据 点。对分类来说,就是我们的函数曲线要把所有的数据 点都分类正确。这两种情况很明显过拟合了。
性质3(Cauchy收敛原理):实数域(或复数域) 上的有限维线性空间(按任何范数)必定完备。
性质4:有限维赋范线性空间中的序列按坐标收 敛的充要条件是它按任何范数都收敛。
常用范数
设任意n维向量 x ( x1, x2 ,, xn )T , ( x T 为向量x的转臵)。 常用的向量范数为: p-范数
(
x
0
为向量中非0的元素个数)
例:求向量 x 1, 2, 4 的0,1,2和∞-范数。
T
解:
x 0 3 x 1 1 2 4 7 ;
x 2 1 22 42 21
2
x max 1, 2, 4 4 。
向量范数的等价性
在 C n上可以定义各种向量范数,其数值大小一般不同。 但是在各种向量范数之间存在下述重要的关系
(1)非负性:当 0,
0 (2)齐次性:|| k ||| k ||| ||,k为实数(或复数) (3)三角不等式: ( , V )
例:线性空间任何内积定义的长度即为范数。
例1:对任给的
x ( x1, x2 , x3 )T C 3
,试问如下实值函数是否构成
k k
k
,
T
x x1 , x2 , , xn 。
T
向量收敛 分量收敛
范数收敛
向量范数的应用
向量范数的概念是复数模的概念的自然推广。
范数的主要的应用:
一、研究矩阵和向量的误差估计
二、研究矩阵和向量的序列以及级数的收敛准则
引入
监督机器学习问题无非就是也就是在规则化参数的同时 最小化误差。最小化误差是为了让我们的模型拟合我们 的训练数据,而规则化参数是防止我们的模型过分拟合 我们的训练数据。
ill-condition对应的是well-condition。那他们分别代表什么?
ill-conditioned系统的解对系数矩阵A或者b太敏 感了。又因为一般我们的系数矩阵A和b是从实 验数据里面估计得到的,所以它是存在误差的, 如果我们的系统对这个误差是可以容忍的就还好, 但系统对这个误差太敏感了,以至于我们的解的 误差更大,那这个解就太不靠谱了。
参数太多,会导致我们的模型复杂度上升,容易过拟合, 训练误差会很小。但训练误差小并不是我们的最终目标, 我们的目标是希望模型的测试误差小,也就是能准确的 预测新的样本。 所以,我们需要保证模型“简单”的基础上最小化训练 误差,这样得到的参数才具有好的泛化性能(也就是测 试误差也小),而模型“简单”就是通过规则函数来实 现的。
经过比较简单的证明,对于AX=b,我们可以得到以下 的结论 :
解x的相对变化和A或者b的相对变化是有像上面那样的关 系的,其中k(A)的值就相当于倍率,相当于x变化的界。
Condition number总结
Condition number是一个矩阵(或者它所描述的线性系统) 的稳定性或者敏感度的度量,如果一个矩阵的condition number在1附近,那么它就是well-conditioned的,如果远 大于1,那么它就是ill-conditioned的,如果一个系统是illconditioned的,它的输出结果就不要太相信了 。
在矩阵求逆很困难的问题上,目标函数如果是二次的, 对于线性回归来说,那实际上是有解析解的,求导并令 导数等于零即可得到最优解为:
加上L2规则项,就变成了下面这种情况,就可以直接求 逆了:
谢谢观赏!
condition number
condition number就是拿来衡量ill-condition系统的可信度 的。
condition number衡量的是输入发生微小变化的时候,输 出会发生多大的变化。也就是系统对微小变化的敏感度。
condition number值小的就是well-conditioned的,大的就是 ill-conditioned的。
L2范数是指向量各元素的平方和然后求平方根。我们让 L2范数的规则项||W||2最小,可以使得W的每个元素都 很小,都接近于0,但与L1范数不同,它不会让它等于0, 而是接近于0。
通过L2范数,我们可以实现了对模型空间的限制,从而 在一定程度上避免了过拟合。
L2范数的好处
从学习理论的角度来说,L2范数可以防止过拟合,提升 模型的泛化能力。
向量范数?
1. x1 2x2 x3 ,
2. x1 2x2 5 x3 ,
3. x1 x2 x3 ,
4 4 4
4. x1 3 x2 2 x3
基本性质
有限维空间上的范数具有良好的性质:
性质1:对于有限维赋范线性空间的任何一组基, 范数是元素(在这组基下)的坐标的连续函数。 性质2(Minkowski定理):有限维线性空间的所 有范数都等价。
从优化或者数值计算的角度来说,L2范数有助于处理 condition number不好的情况下矩阵求逆很困难的问题。
优化两大问题
局部最小值问题
要找的是全局最小值,如果局部最小值太多,那我们的 优化算法就很容易陷入局部最小而不能自拔 。
ill-condition病态问题
ill-condition病态问题
范数理论及其应用
学号:2015110189 姓名:马振磊 学科:泛函分析
范数定义
范数,是具有“长度”概念的函数。在泛
函分析中,范数是一种定义在赋范线性空 间中函数,满足相应条件后的函数都可以 被称为范数 。
向量的范数
定义: 设V是实数域R(或复数域C)上的n维线性 空间,对于V中的任意一个向量 按照某一确定法 则对应着一个实数,这个实数称为该向量 的范数 记为 ,并且要求范数满足下列条件:
1
x x1n x
x1 x
2
n 1 x2 x n
x
x
1
2
或者
x
x 2 x 1 n x 2 n x
定理1.1 (向量范数的等价性定理) 设 和 为 Cn
上的任意两种向量范数,则存在两个与向量无关的正常数
c1>0和c2>0,使得下面的不等式成立
L1范数是指向量中各个元素绝对值之和,也有 个美称叫“稀疏规则算子”。任何的规则化算 子,如果他在Wi=0的地方不可微,并且可以分 解为一个“求和”的形式,那么这个规则化算 子就可以实现稀疏。
L1是规则化的算子,我们将权值参数以L1的方式放到代 价函数里面去。然后模型就会尝试去最小化这些权值参 数。而这个最小化就像一个下坡的过程。
如果方阵A是非奇异的,那么A的conditionnumber定义为:
如果方阵A是奇异的,那么A的condition number就是正无 穷大了。实际上,每一个可逆方阵都存在一个condition number。但如果要计算它,需要先知道这个方阵的norm (范数)和Machine Epsilon(机器的精度)。
x
p p p xi , i 1 n 1
1 p
特别的,
x x
1 i 1
n
n
i
1 2
2 x 2 xi i 1
xH x
x , x
x
x
max x i
1i n
min xi1iΒιβλιοθήκη nxi 表示 xi 的模。