1、PCA和LDA的区别?PCA是一种无监督的映射方法,LDA是一种有监督的映射方法。
PCA只是将整组数据映射到最方便表示这组数据的坐标轴上,映射时没有利用任何数据部的分类信息。
因此,虽然做了PCA后,整组数据在表示上更加方便(降低了维数并将信息损失降到了最低),但在分类上也许会变得更加困难;LDA在增加了分类信息之后,将输入映射到了另外一个坐标轴上,有了这样一个映射,数据之间就变得更易区分了(在低纬上就可以区分,减少了很大的运算量),它的目标是使得类别的点距离越近越好,类别间的点越远越好。
2、最大似然估计和贝叶斯方法的区别?p(x|X)是概率密度函数,X是给定的训练样本的集合,在哪种情况下,贝叶斯估计接近最大似然估计?最大似然估计把待估的参数看做是确定性的量,只是其取值未知。
利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值(模型已知,参数未知)。
贝叶斯估计则是把待估计的参数看成是符合某种先验概率分布的随机变量。
对样本进行观测的过程,把先验概率密度转化为后验概率密度,利用样本的信息修正了对参数的初始估计值。
当训练样本数量趋于无穷的时候,贝叶斯方法将接近最大似然估计。
如果有非常多的训练样本,使得p(x|X)形成一个非常显著的尖峰,而先验概率p(x)又是均匀分布,此时两者的本质是相同的。
3、为什么模拟退火能够逃脱局部极小值?在解空间随机搜索,遇到较优解就接受,遇到较差解就按一定的概率决定是否接受,这个概率随时间的变化而降低。
实际上模拟退火算法也是贪心算法,只不过它在这个基础上增加了随机因素。
这个随机因素就是:以一定的概率来接受一个比单前解要差的解。
通过这个随机因素使得算法有可能跳出这个局部最优解。
4、最小错误率和最小贝叶斯风险之间的关系?基于最小风险的贝叶斯决策就是基于最小错误率的贝叶斯决策,换言之,可以把基于最小错误率决策看做是基于最小风险决策的一个特例,基于最小风险决策本质上就是对基于最小错误率公式的加权处理。
5、SOM的主要功能是什么?怎么实现的?是winner-all-take-all 策略吗?SOM是一种可以用于聚类的神经网络模型。
自组织映射(SOM)或自组织特征映射(SOFM)是一种使用非监督式学习来产生训练样本的输入空间的一个低维(通常是二维)离散化的表示的人工神经网络(ANN)。
自组织映射与其他人工神经网络的不同之处在于它使用一个邻近函数来保持输入控件的拓扑性质。
SOM网络中, 某个输出结点能对某一类模式作出特别的反应以代表该模式类, 输出层上相邻的结点能对实际模式分布中相近的模式类作出特别的反映,当某类数据模式输入时, 对某一输出结点产生最大刺激( 获胜结点) , 同时对获胜结点周围的一些结点产生较大刺激。
在训练的过程中, 不断对获胜结点的连接权值作调整, 同时对获胜结点的邻域结点的连接权值作调整; 随着训练的进行, 这个邻域围不断缩小, 直到最后, 只对获胜结点进行细微的连接权值调整。
不是winner-all-take-all 策略。
获胜结点产生刺激,其周围的结点也会产生一定程度的兴奋。
6、期望算法需要哪两步?请列出可能的公式并做必要的解释。
E-Step和M-Step。
E-Step叫做期望化步骤,M-Step为最大化步骤。
整体算法的步骤如下所示:1、初始化分布参数。
2、(E-Step)计算期望E,利用对隐藏变量的现有估计值,计算其最大似然估计值,以此实现期望化的过程。
3、(M-Step)最大化在E-步骤上的最大似然估计值来计算参数的值4、重复2,3步骤直到收敛。
F-step,根据之前的θ值求数据的期望M-step:求θ使期望最大化,作为下一次E-step的θ值。
7、在核密度估计(kernel density estimation)中,核独立就代表特征独立吗?朴素贝叶斯分类器的基本假设是什么?不能。
(?????)The Naïve Bayes classifier makes the assumption that the features are class-conditionally independent。
8、假设数据维度(dimensionality)比给定的训练样本的个数多很多,请用PCA使计算复杂度依赖于数据的数量,而不是依赖于数据的维度。
1)计算协方差矩阵,得到协方差矩阵2)求协方差矩阵的特征值和特征向量3)选择主成分,将特征值按照从大到小的顺序排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。
4)将样本点投影到选取的特征向量上。
9、假设一个数据集(covariance matrix)的协方差矩阵是请回答下列问题:1)这个协方差矩阵的每个元素有什么意义?协方差矩阵的每个元素是各个向量元素之间的协方差,数据集是二维的,四个元素从左到右从上到下分别是向量的第一个和第一个元素之间的协方差,12,21,222)计算这数据集两个主成分(principal components)矩阵:AH=λA,H是特征向量矩阵的特征方程的表达式为|λE-A|=0(λ-1)(λ-1)-1/4=0 λ=3/2或者1/23)为什么PCA能够移除特征之间的相关性?PCA在降维的时候要尽量保存数据集中的有效信息,映射的方法是基变换,数据集在某个基上的投影值(也是在这个基上的坐标值)越分散, 方差越大, 这个基保留的信息也就越多。
信息量保存能力最大的基向量一定是就是数据集的协方差矩阵的特征向量, 并且这个特征向量保存的信息量就是它对应的特征值。
10、一个K-class分类模型的先验概率是p(ωk)=πk,并且类概率密度是p(x|ωk)。
给定一个训练集{x n,t n} n=1,2,3……N,t n is a binary target vector of length k that uses the 1-of-k coding scheme,so that is x n is from class ωk,t nk=1,and t nj=0,for all other j,j≠k。
假设数据点的描绘是独立于这个模型的,用最大似然估计在先验概率是πk=N k/N的情况下求解,N k是数据点的数量由ωk确定。
解:11、对于下列模式:{(0,0)T,(1,1)T,(-1,-1)T,(2,2)T,(-2,-2)T,(1,-1)T,(-1,1)T},使用K-L转换(或者说就是PCA)降低特征维数至一维,并给出详细的计算步骤。
Step1:求x和y的平均值。
然后对于所有的样例,都减去对应的均值。
X的均值是0,y的均值是0X:0 1 -1 2 -2 1 -1Y:0 1 -1 2 -2 -1 1Step2:求协方差矩阵(应该除以n-1,不是n,所以错的)Step3:求协方差矩阵的特征值和特征向量特征值:20/7 4/7特征向量:(λE-A)X=0,λ=20/7时,特征向量是[1,1]T,λ=4/7时,特征向量是[1,-1]T Step4:将特征值按照从大到小的顺序排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。
所以选λ=20/7,特征向量矩阵是[1,1]T。
Step5:将样本点投影到选取的特征向量上。
DataAdjust就是减去均值后的样本矩阵,EigenVector就是特征向量矩阵最后的结果就是0 2 -2 4 -4 0 012、使用基本分支定界法去执行特征选择的先决条件(prerequisite)是什么?为什么它适用于降低计算代价?先决条件是假设单调性,增加特征只会增加目标函数的值。
在这样的假设条件下,增加特征的顺序对结果不会造成影响,就避免去搜索仅仅特征顺序不同的解,减少了计算代价。
13、在特征选择方面,SFS(sequential forward selection)和SBS(sequential backward selection)有什么区别?当最佳的特征子集从大量的特征中选出以后,两种方法哪一个是令人满意的?特征子集X从空集开始,每次选择一个特征x加入特征子集X,使得特征函数J( X)最优。
简单说就是,每次都选择一个使得评价函数的取值达到更优的特征加入,是一种简单的贪心算法。
从特征全集O开始,每次从特征集O中剔除一个特征x,使得剔除特征x后评价函数值达到最优。
SFS适用于最佳特征子集包含的特征个数较少的情况。
SBS适用于最佳特征子集包含特征个数较多的情况。
SFS:缺点是只能加入特征而不能去除特征。
SBS:序列后向选择与序列前向选择正好相反,它的缺点是特征只能去除不能加入。
另外,SFS与SBS都属于贪心算法,容易陷入局部最优值。
双向搜索( BDS , Bidirectional Search ):算法描述:使用序列前向选择(SFS)从空集开始,同时使用序列后向选择(SBS)从全集开始搜索,当两者搜索到一个相同的特征子集C时停止搜索。
增L去R选择算法( LRS):该算法有两种形式:<1>算法从空集开始,每轮先加入L个特征,然后从中去除R个特征,使得评价函数值最优。
( L> R )<2> 算法从全集开始,每轮先去除R个特征,然后加入L个特征,使得评价函数值最优。
( L< R )序列浮动选择( Sequential Floating Selection ):序列浮动选择由增L去R选择算法发展而来,该算法与增L去R选择算法的不同之处在于:序列浮动选择的L与R不是固定的,而是“浮动”的,也就是会变化的。
14、线性SVM的目标函数是什么?支持非线性SVM的基本解决思路是什么?非支持向量是可移除的吗?为什么?既然计算代价会随着样本的数量缩放,哪种方法被用来减轻(alleviate)这个负担?目标函数:min 1/2 ||ω|| subject to y i(ωx i+b)≥1,i=1,2,…,N 最大化Margin非线性SVM的基本思想是低维线性不可分,把它投影到高维空间中使线性可分。
是的,可移除,因为它对构成超平面不做贡献。
先聚类,找出中心点,对中心点用SVM进行分类,以减轻负载。
15、非线性SVM是否和径向基函数(radial basis function)具有一些相似性,如果有的话是什么?SVM和RBF超平面表达方式一样,都是将低维线性不可分的数据映射到高维。
只是优化时目标函数不同,SVM是最大化Margin,RBF是最小化错误率。
16、如果需要设计一个脸部识别系统并且在这个系统中输入的图片样本的维度和训练样本的数量相比通常非常高,都有哪些处理步骤?对于每一步,你能列出一个或者多个解决方法吗?怎么评价你设计的这个系统的错误率?图像输入:使用摄像头或者从图库中获取。