当前位置:文档之家› 维数约简经典方法综述

维数约简经典方法综述



基本原理
高维输入空间通过线性或非线性映射投影到一个低维 空间,从而找出隐藏在高维观测数据中有意义的低维结构

原始数据大量冗余
根据变量相关性
几何观点 研究重点

保留核心信息
方法:线性和非线性 线性:PCA LDA 基于核函数:KPCA 基于特征值的非线性方法:MDS ISOMAP LLE

基本思想是:根据数据点间的欧氏距离, 构造关系矩阵,为了尽可能地保持每对观 测数据点之间的欧氏距离,只需对此关系 矩阵进行特征分解,从而获得每个数据在 低维空间中的低维坐标。

基本思想
ISOMAP通过测地线距离来描述各点之间的相互关系, 在全局意义下,通过寻找各点在图意义下的最短路径来获得 点与点之间的距离,然后利用经典的MDS算法得到低维的嵌 入坐标。
2011年12月5日
研究背景 经典方法介绍


举例
处理200个256*256的图片时,通常我们将图片拉成一个 向量,这样,得到了65536*200的数据,直接处理数据?

维数灾难
巨大的计算量将使我们无法忍受

数据本质
过多的数据量,不能反映出数据的本质特征,如直接对 这样的数据进行处理,很难得到理想结果
M ( I W )T ( I W )
END
谢谢!

主要步骤
(w) xi j wij x j
2
寻找每个样本点的k个近邻点 每个样本点的近邻点计算该点的局部重建权值矩阵 由该点的局部重建权值矩阵和其邻点计算该点的输出值
i wij k G ijk 1 / lm Glm
1
G ijk ( xi j )( xi k )
n n

基本思想
当数据在n维空间中线性不可分时,通过一个映射Φ将 数据从n维空间映射到N(N>n)维空间中,使得数据在N 维空间中是线性可分的,这样,再使用PCA或者LDA在N 维空间中对数据进行降维时可以得到较好的结果。 在实践中人们发现,当对数据进行处理时,经常会 出现两个向量点积的形式,即出现Φ(Xi)TΦ(Xj),用一个函 数来代替这种点积计算,K(Xi,Xj)

对协方差矩阵进行特征值分解,选取最大 的p个特征值对应的特征向量组成投影矩阵 对原始样本进行投影,得到维数约减后的 新样本矩阵

注意:PCA属于非监督

基本思想:投影。 首先找出特征向量,把这些数据投影到一个 低维的方向,使得投影后不同的类之间尽可能的 分开,而同一类内的的样本比较靠近,然后在新步骤
构造一个连接邻域点的图 计算最短距离D( D描述样本点之间在流形上相对位置) 应用MDS

基本思想
对一组具有流形的数据集,在嵌套空间与内在低维空 间局部邻域问的关系应该不变,即在嵌套空间中每个采样 点可以用它的近邻点线性表示,在低维空间中保持每个邻 域中的权值不变,重构原数据点,使重构误差最小。

思想: 找出最能代表原始数据的投影方法 如果理解? 维数约简后的数据不能失真 除掉噪声、冗余数据
PCA实现的关键 降噪:使留下的维度间的相关性尽可能小 去冗余:使留下来的维度含有的“能量” 尽可能大 协方差矩阵 对角化

形成样本矩阵,将样本中心化 计算样本矩阵的协方差矩阵
相关主题