7.朴素贝叶斯方法的条件独立假设是(P(x| 3 i) =P(x1, x2,…,xn | co i)第一章绪论1 •什么是模式?具体事物所具有的信息。
模式所指的不是事物本身,而是我们从事物中获得的2•模式识别的定义? 让计算机来判断事物。
3•模式识别系统主要由哪些部分组成?数据获取一预处理一特征提取与选择一分类器设计/分类决策。
第二章贝叶斯决策理论P ( W 2 ) / P ( W 1 ) _,贝V X1. 最小错误率贝叶斯决策过程?答:已知先验概率,类条件概率。
利用贝叶斯公式 得到后验概率。
根据后验概率大小进行决策分析。
2. 最小错误率贝叶斯分类器设计过程?答:根据训练数据求出先验概率P ( W i ),>类条件概率分布P ( X | W i ), i 1 , 2 利用贝叶斯公式得到后验概率 P (W i 1 x)1如果输入待测样本 X ,计算X 的后验概率根据后验概率大小进行分类决策分析。
3. 最小错误率贝叶斯决策规则有哪几种常用的表示形式?决策规则的4- I-J 形工战< dx +) — max 爪'(vr I A *), MJ A * 匚 w.如SI 卫(A *叫)厂)= 如果lg=上心lw) py %)心li M/ JC ) = —1IL | /( A *)J = — hi JC | 讥.j + 111 | i r 2 )>尸(“空)I MJ4 .贝叶斯决策为什么称为最小错误率贝叶斯决策?答:最小错误率Bayes 决策使得每个观测值下的条件错误率最小因而保证了 (平均)错误率最小。
Bayes 决策是最优决策:即,能使决策错误率最小。
5. 贝叶斯决策是 由先验概率和(类条件概率)概率,推导(后验概率)概率,然后利用这 个概率进行决策。
6. 利用乘法法则和全概率公式证明贝叶斯公式p(AB) p(A|B)p(B) p(B|A)p(A)P (A」B )答:m所以推出贝叶斯公式p(B) p(B|Aj)p(Aj)j 1P(W i |x)P (x | W i ) P(W i )2P(x | W j ) P (w j )j 11 , 2.信息__。
如果 I (x)P (X | W i ) P (W i )P(X | W j )P(W j )max />(A' |t),则时 P(B |A i )P(AJ P ( B ) P ( B | A i ) P ( A i ) 7MP ( B | A j ) P ( A j )2=P (x1| 3 i ) P (x2| 3 i )…P (xn| 3 i )) 8•怎样利用朴素贝叶斯方法获得各个属性的类条件概率分布?答:假设各属性独立,P (x| 3 i ) =P (x1, x2,…,xn | 3 i ) = P (x1| 3 i ) P (x2| 3 i )…P (xn| 3i )后验概率: P(3 i|x) = P( 3 i) P(x1| 3 i) P(x2| 3 i)…P(xn| 3 i)类别清晰的直接分类算,如果是数据连续的,假设属性服从正态分布,算出每个类的均值方 差,最后得到类条件概率分布。
9•计算属性Marital Status 的类条件概率分布给表格计算,婚姻状况几个类别和分类几个就求出多少个类条件概率。
10,朴素贝叶斯分类器的优缺点?答:分类器容易实现。
面对孤立的噪声点,朴素贝叶斯分类器是健壮的。
因为在从数据中估计条件概率时。
这些 点被平均。
面对无关属性,该分类器是健壮的。
相关属性可能降低分类器的性能。
因为对这些属性,条件独立的假设已不成立。
11.我们将划分决策域的边界称为(决策面),在数学上用可以表示成 (决策面方程)12•用于表达决策规则的函数称为(判别函数)13•判别函数与决策面方程是密切相关的,且它们都由相应的决策规则所确定 14.写出多元正态概率下的最小错误率贝叶斯决策的判别函数,即2(x山)i (X 山)d In 2 215•多元正态概率下的最小错误率贝叶斯决策的决策面方程为 16•多元正态概率下的最小错误率贝叶斯决策,当类条件概率分布的协方差矩阵为2 时,每类的协方差矩阵相等,且类内各特征间(相互独立),并具有相等的方差。
17•多元正态概率下的最小错误率贝叶斯决策,如果先验概率相等,并 i2且i=1,2,…c ,那么分类问题转化为只要计算待测样本 x 到各类均值的(欧式距离),然后把x 归于具有(最小距离平方)的类。
这种分类器称为(最小距离分类器)。
18.I 己知样車类条件概率密度.ZX 划径)心儿二、 j =-l Q 其中砂=© J 〉*# 宀=#貝吗)=0.7” 刊马)= > V 如果用最小锚i 吴率贝叶斯决策2丿来行分类器设计,决策而将 ________________ 不通过 ______ C 通过*不通过》刈 和从连线的中点。
决策向宀向虽 19吗-小______________ 正仝 ____ (.1疋交*不止交)O I W .多元正态概率下的最小错误率贝叶斯决策,类条件概率密度各类的协方差矩阵不相等时,决策面是(超二次曲面)均值:mean (x )XI方差:var (x ) m 1n (xIx)A 2g i (x) ln( p(x | |)P( |))g i (x) g j (x) 0In P( I ),判别函数是(二次型)证明:多元正态概率下的最小错误率贝叶斯决策,对于&二土人r = L2 …”*c的特殊情况.最终的决策而方理为超平而.证明:多元正态槪率下的最小错误率贝叶斯决策,对于r 二Y j 二1 2 c 的特殊情况,最终的决策而方程为:艸辽"仙十)多尤止态槪率卜'的虽小错溟率贝叶斯抉策号对丁二=trV, z = L 2 ________ cI的特殊情况*证明先验概率相等时*形成的分类器是最小即离分类器。
多元正态槪率卜的毘小错误率贝叶斯决策,对于Y 二二7 —…疋的特殊惰况*证明判别雷融是线杵的“2.6砸筑题甩朋朋险轴瞅策删可舫为呼岡)J兀-仏)卩的r r J W'7?(叭=叫 | x)—人| x) + A2P((t?2| x)2—少z | x) = A21P (叫| x) + A22P(ti)2| x)i用Bayes公式展开,最小凤险贝叶斯决策决策得到:如果P(丫叫)、血][FWj)贝1] , X € f旳0(耳1叫)(4 -亀)P(©)'如果"(工的)丿(兀-亦戸㈣)则丁x € ro. P(卞1叫)〔広2】-占]円®)第三章概率密度函数的估计i•类条件概率密度估计的两种主要方法(参数估计)和(非参数估计)2•类条件概率密度估计的非参数估计有两种主要的方法 们的基本原理都是基于样本对分布的(未知)原则。
4. 假设正常细胞和癌细胞的样本的类条件概率服从多元正态分布,使用最大似然估计方法,对概率密度的参数估计的结果为。
证明:使用最大似然估计方法,对一元正态概率密度的参数估计的结果如下:X kk 15•已知5个样本和2个属性构成的数据集中, w1类有3个样本,w2类有两个样本。
如果使 用贝叶斯方法设计分类器,需要获得各类样本的条件概率分布, 现假设样本服从多元正态分 布p (x| i ) N (山,J i 1,2 则只需获得分布的参数均值向量和协方差矩阵即可,那么采用最大似然估计获得的 w1类的第四章 线性判别函数1•已知两类问题的样本集中,有两个样本。
X 1 (1, 3,2)T 属于类,X 2(1,2, 3/ 属于类,对它们进行增广后,这两个样本的增广样本分别为[y1 =(1,1,-3,2)T,y2 =(-1,-1,-2,3)T ]2广义线性判别函数主要是利用(映射)原理解决(普通函数不能解决的高次判别函数)问题,利用广义线性判别函数设计分类器可能导致(维数灾难)。
3•线性分类器设计步骤?主要步骤:1•收集训练数据集 D={x1,x2,…,xN}2•按需要确定一个准则函数 J (D,w,wO )或J (D,a ),其值反映分类器的性能,其极值解对应于“最好”决策。
3.用最优化技术求准则函数 J 的极值解w* , w*或a*。
T T 4•最终,得到线性判别函数,完成分类器设计g (x ) (w*) x W o ,g (x ) (a*) y5. 线性判别函数g (x )的几何表示是:点 x 到决策面H 的(距离的一种代数度量)。
6. 增广样本向量使特征空间增加了(一)维,但样本在新的空间中保持了样本间的(欧氏距离)不变,对于分类效果也与原决策面相同。
在新的空间中决策面 H 通过坐标(原点)10.利用Lagrange 乘子法使Fisher 线性判别的准则函数极大化,最终可以得到的判别函数(Parzen 窗法)和(KN 近邻法)。
它3•如果有N 个样本,可以计算样本邻域的体积V ,然后获得V 中的样本数(X kk 1?)2类条件概率密度均值向量为(2,3转置)2 0 2 ,以及协方差矩阵为(0 2 2 )。
2247・Fisher 准则的基本原理为: 找到一个最合适的投影轴, 使_(类间)在该轴上投影之间的距离尽可能远,而(类内)的投影尽可能紧凑,从而使分类效果为最佳。
8.Fisher 准则函数的定义为J F (w)9Fisher 方法中,样本类内离散度矩阵S i(x mj (x mJ T , ix D i烬w T S b w S比w S w wSi 与总类内离散度矩阵 Sw 分别为1,2 S w S 1 S 2* A权向量w S w (m 1 m 2)11•叙述Fisher算法的基本原理。
Fisher准则的基本原理:找到一个最合适的投影轴,使两类样本在该轴上投影之间的距离尽可能远,而每一类样本的投影尽可能紧凑,从而使分类效果为最佳。
12Fisher公式的推导疋函数:L(w, 4) = —- c)Ak 一广一=Ew - = 0zw = S; S,w = S; <m1 - m Km -m2) wW* = —S v l[m l-m2')^S v~}(in}_ni;)」”丄T13. 已知两类问题的样本集中,有两个样本°X[属于W1类,x2(1,2, 3)T属于w2类,对它们进行增广规范化后,这两个样本的规范化增广样本分别为y1=(1,1,-3,2)转置和y2=(1,-1,-2,3)转置。
14. 叙述感知准则的梯度下降算法的基本过程。
答:1.初值:任意给定一向量初始值a(1)2. 迭代:第k+1次迭代时的权向量a(k+1)等于第k次的权向量a(k)加上被错分类的所有样本之和与pk的乘积3. 终止:对所有样本正确分类(y Y k16线性判别函数g(x)的几何表示是:点 x 到决策面H 的(距离的代数度量)17•感知机方法主要有两种,批量样本修正法与单样本修正法。