高光谱成像数据的低维表示摘要:随着大数据时代的到来,高维数据的分析越来越困难。
而基于高光谱成像技术的人类情感识别所要分析的数据量的维度也是越来越大,因此,也诞生了很多降维方法。
通过降维,可以非常容易地发现数据的极小维度表示,降低后期大数据分析的复杂度。
通过采用这些方法进行数据降维,可以找出数据内在的相互关系,非常有利于数据分布规律的分析。
关键词:降维;高光谱成像技术;主成分分析;线性判别法;局部线性嵌入;非负矩阵分解Lower Dimensionality of High-Dimension DataWith the large volume of data coming,high dimensional data is very difficult to be analyzed.Then the dimension of data on emotion recognition by hyperspectral imaging is larger and larger. So several ways are introduced to reduce the data dimensionality.They will show the low dimensional structure of high dimensional data, and can reduce the complexity of data analysis. After, the intrinsic connection between the data can be got easily,and is helpful to research the distributing rules.Keywords: Dimension Reduction; Hyperspectral Imaging; Principal Component Analysis; Linear Discriminant Analysis; Locally Linear Embedding; Non-negative Matrix Factorization一、研究背景从采用各种身体信号(面部表情、语音、身体姿势)到采用生理信号识别人类情感,从利用单一特征作为情感识别系统的输入,到融合多通道信号特征来识别人类情感,科研工作者一直在试图获取更丰富,更有效的人类情感特征用于情感的识别。
光谱成像技术可远程无接触地获取所需生理情感信号,是未来情感识别的发展方向之一[1][2]。
高光谱成像技术能够在可见光和红外光谱范围内的100-1000 个连续窄波段上成像,所成的图像具有3 个维度—2 个空间维度和1 个波长维度。
传统的成像技术只在3 个宽波段上成像(红、绿、蓝),每个波段的带宽在100nm 数量级上,而高光谱成像在上百至上千个波段上成像,每个波段的带宽可小于1nm,且成像波段不局限在可见光范围内。
其数据量也相应以指数的量级增加,如果直接对这些数据进行处理,会有以下问题:首先,会出现所谓的“位数灾难”问题,巨大的计算量将使我们无法忍受;其次,这些数据通常没有反映出数据的本质特征,如果直接对他们进行处理,不会得到理想的结果。
所以,通常我们需要首先对数据进行降维,然后对降维后的数据进行处理。
数据降维的基本原理是把数据样本从高维输入空间通过线性或非线性映射投影到一个低维空间,从而找出隐藏在高维观测数据中有意义的低维结构。
之所以能对高维数据进行降维,是因为数据的原始表示常常包含大量冗余:a)有些变量的变化比测量引入的噪声还要小,因此可以看作是无关的;b)有些变量和其他的变量有很强的相关性(例如是其他变量的线性组合或是其他函数依赖关系);c)可以找到一组新的不相关的变量;从几何的观点来看,降维可以看成是挖掘嵌入在高维数据中的低维线性或非线性流形。
这种嵌入保留了原始数据的几何特性,即在高维空间中靠近的点在嵌入空间中也相互靠近。
数据降维是以牺牲一部分信息为代价的,把高维数据通过投影映射到低维空间中,势必会造成一些原始信息的损失。
所以在对高维数据实施降维的过程中如何在最优的保持原始数据的本质的前提下,实现高维数据的低维表示,是研究的重点。
二、降维问题1.定义定义1.1降维问题的模型为(,)X F ,其中D 维数据空间集合{}1N l l X x ==(一般为D R 的一个子集),映射F:F X Y → (),x y F x →= Y 是d 空间集合(一般是d R ,d D <<)的一个子集,我们称F 是数据集X (到Y )的降维。
若F 为X 的线性函数,则称F 为线性降维;否则,称为非线性降维。
定义1.2 称映射1F -1:F Y X -→ 1()y xF y -→为嵌入映射。
2.分类针对降维问题的目的和待处理数据集合表象维数的多少,对其进行初步的、粗略的分类如下:1. 硬降维问题:数据维数从几千到几万甚至几十万的变化,此时需要对数据集进行“严厉”的降维,以至于达到便于处理的大小,如图像识别、分类问题以及语音识别问题等。
2. 软降维问题:此时数据集合的维数不是太高,降维的需求不是非常的迫切。
如社会科学、心理学以及多元统计分析领域皆属于此类。
3. 可视化问题:此时数据集合的绝对维数不是很高,但为了便于利用人们的直观洞察力,即为了可视化,我们将其降到2或3维。
虽然我们可以可视化更高维数的数据,但是它们通常难于理解,不能产生数据空间的合理形态。
若我们还考虑时间变量的话可以对降维问题进行更加进一步的分类,静态降维问题和动态降维问题。
后者对于时间序列来讲是有用的,如视频序列、连续语音信号等的处理。
3.降维方法实际处理中,由于线性方法具有简单性、易解释性、可延展性等优点,使得线性降维在高维数据处理中是一个主要研究方向。
已有的线性维数约简方法,主要包括主成分分析(Principal Component Analysis,PCA)、独立成分分析(Independent Component Analysis,ICA)、线性判别分析linear discriminant analysis(LDA)、Fisher 判别分析(Fisher Discriminant Analysis,FDA)、主曲线(Principal Curves)、投影寻踪(Projection Pursuit, PP)、多维尺度方法(Multidimensional Scaling,MDS)等。
这些方法实际是在不同优化准则之下,寻求最佳线性模型,这也是线性维数约简方法的共性。
通过消除数据建模过程中的全局线性假设,Sammon提出了一种非线性映射,即Sammon映射(SM),该算法能够保持输入样本之间的相关距离;Mika等采用相同的思想来非线性扩展LDA,从而提出了kernel LDA(KLDA);然而,基于核的方法其难点在于如何选择一个合适的核函数,一个好的核函数可以使数据在特征空间上线性可分或者近似线性可分,但并不是所选核函数对于每一种数据都适用。
核函数的选择反映了人们对问题的先验知识,在实际的应用中往往是经验地选择某种核函数,比如径向基函数(Radial Basis Function,RBF)。
同时,在使用核函数时不必知道具体的特征空间,使得核函数方法缺乏物理直观性,这也是核函数方法的一个缺点。
非线性降维方法与线性降维方法相比的一个显著特点是分析中的局部性(数据集合经常满足的一个简单假设)。
原因在于对数据集合的内蕴结构而言,有下列特性:1.由泰勒定理,任何可微函数在一点的充分小的邻域之内满足线性。
形象的来讲,相当于认为曲面流形可由大小不一的局部线性块拼接而成;2.数据流形经常是由许多可分割的子流形所组成;3.数据流形的本征维数沿着流形不断的发生变化,只有局部性才能抓住其根本特性。
三、用于研究高光谱数据的降维方法(一)线性方法1. 主成分分析(Principal Component Analysis ,PCA)在文献[3]中,PCA 将方差的大小作为衡量信息量多少的标准,认为方差越大提供的信息越多,反之提供的信息就越少。
它是在损失很少的信息的前提下把多个指标转化为几个综合指标的一种多元统计方法。
它具有概念简单,计算方便以及最优线性重构误差等优良的特性。
文献[4]对PCA 及SVD 的应用作了研究,它表明这种全局算法可以较好地揭示具有线性结构的高维数据集的全局分布。
PCA 假设数据之间的关系是线性的。
它在保存原始高维数据协方差结构的基础上计算低维表达,也就是最大化总体方差。
它的目标函数可以写为:2121=arg max arg max ()arg max ()..PCAPCA PCA N m PCA i U i N T m T T PCA i PCA T PCA PCA PCA d U U i U y y U x x tr U S U s t U U I ==-=-==∑∑ 其中,1m i y y N =∑,1m i x x N =∑,且T S 为总体离散矩阵:i=1=()()T N T i i S x x x x --∑。
对转换矩阵做尺度约束d =T PCA PCA U U I ,其中d I 为d d ⨯单位矩阵。
则目标函数可以写为:arg max ()PCAT PCA T PCA U tr U S U ,..T PCA PCA d s t U U I = 上式问题可以转化为T S 的标准的特征值问题:PCA 的最优转换矩阵为T S 的d 个最大的特征值所对应的d 个m 维特征向量。
2.线性判别法(Linear Discriminant Analysis, LDA)其基本思想是投影,首先找出特征向量,把这些数据投影到一个低维的方向,使得投影后不同的组之间尽可能的分开,而同一组内的样本比较靠拢,然后在新空间中对样本进行分类。
通过最小化类内离散矩阵W S 的秩而最大化类间离散矩阵B S 的秩,来寻找一个子空间来区分不同的类别。
W S 和B S 分别定义如下:()()()()i=11=()()iN C i i i i T W j j j S x m x m =--∑∑()()1()()C i i T B i i S N m m m m ==--∑其中,i N 是第i 个类中样本的个数;()i j x 是第i 个样本中第j 个样本。
()i m 为第i 个类的质心;m 用来表示所有样本的质心,C 为样本的类别数。
LDA 则有以下的优化准则:arg max ()()T LDA B LDA T LDA W LDA tr U S U tr U S U ..T LDA LDA d s tU U I = 上述的优化可以转化为求解一个广义的特征分解问题:B W S S αλα=且最优的解为d 个特征向量其对应于d 个最大的非零特征值。