当前位置:文档之家› 《多元统计分析》第三章 判别分析

《多元统计分析》第三章 判别分析

8
v (3) 交叉验证法(或称刀切法)
Ø 从组π1中取出x1j,用该组的其余n1−1个观测值和组π2的n2个观测值构造 判别函数,然后对x1j进行判别,j=1,2,⋯ ,n1。同样,从组π2中取出x2j, 用这一组的其余n2−1个观测值和组π1的n1个观测值构造判别函数,再对 x2j作出判别,j=1,2,⋯ ,n2。
v (1) 回代法
Ø 令n(2|1)——样本中来自π1而误判为π2的个数,n(1|2)——样本中来自π2
而误判为π1的个数,则P(2|1) 和P(1|2) 可估计为

2
| 1

n
2
| 1
,
Pˆ 1 | 2 n 1 | 2
n1
n2
Ø 该方法简单、直观,且易于计算。但它给出的估计值通常偏低,当样
xΣ 1x 2 Iix ci
其中 Ii

Σ 1 μi , ci


1 2
μiΣ 1 μi ,i
1, 2,, k,判别规则简化为
x l,
若Ilx

cl

max
1 i k
Iix

ci

这里Ii′x+ci为线性判别函数。
x l,
若d
2
x,
l


v 当Σ1=Σ2=⋯ =Σk=Σ时,采用线性判 别函数。
v 当Σ1,Σ2,⋯ ,Σk不全相等时,采用二 次判别函数
v 实践中,Σ1,Σ2,⋯ ,Σk几乎不可能完 全相等。
x l ,
若Iˆlx

cˆl

max
1 i k
Iˆix cˆi
Iˆi

S
1 p
xi
,
cˆi


1 2
xiS
无偏估计分别为
x1

1 n1
n1
x1 j
j 1

x2

1 n2
n2
x2 j
j 1
Σ的一个联合无偏估计为
Sp

n1
1 S1 n2 1 S2
n1 n2 2
其中
Si

1 ni 1
ni j 1
xij xi
xij xi
,
i 1,2
W x a x μ
μ

1 2

μ1

μ2
,a

Σ
1

μ1

μ2

4
v 实际使用的判别函数为
W x a x μ
Wˆ x aˆ x x μ1 2 Nhomakorabea
μ1

μ2
,a

Σ
1

μ1

μ2

这里 x

1 2
x1

x2
,


S
1 p
x1

x2
。其相应的判别规则为

Ø 令n*(2|1)——样本中来自π1而误判为π2的个数,n*(1|2)——样本中来自
π2而误判为π1的个数,则两个误判概率P(2|1)和P(1|2)的估计量为
Pˆ 2 |1 n* 2 |1 , Pˆ 1 | 2 n* 1 | 2
n1
n2
v 以上所述误判概率的这三种非参数估计方法同样适用于其它的判别方
Iix

ci

其中
Iˆi

S
1 p
xi
,
cˆi


1 2
xiS
1 p
xi
,
i 1, 2,, k
Ii

Σ 1 μi , ci


1 2
μiΣ 1 μi
5
Σ1,Σ2,⋯ ,Σk不全相等的情形
v Σi可估计为Si(i=1,2,⋯ ,k)。 v 实际应用中使用的判别规则是
其中
x l ,
我们对新样品x进行的判别分类将在很大程度上依赖于各组的总体分布 或其分布特征。
例如,
π1 :小学生组,π2 :大学生组 依据身高x作判别归类。
4
(一般)判别规则
v 设组π1和π2的均值分别为μ1和μ2,协差阵 分别为Σ1和Σ2(Σ1,Σ2>0) ,x是一个新样品 (p维),现欲判断它来自哪一组。
2a x μ
其中 μ

1 2

μ1

μ2
,a

Σ 1 μ1

μ2


v 令W x a x μ,则上述判别规则可简化为

x x

1 2
, ,
若W x 0 若W x 0
称W(x)为两组距离判别的(线性)判别函数,称a为判别系数向量。 2
v (基于马氏距离的)判别规则:

x x

1 2
, ,
若d 2 x,1 d 2 x, 2 若d 2 x,1 d 2 x, 2
1

x x

1 2
, ,
若d 2 x,1 d 2 x, 2 若d 2 x,1 d 2 x, 2
要做破坏性的试验(如欲获知某电子仪器的寿命) 成本高昂(如许多疾病只有通过代价高昂的手术才能确诊)。 本章讨论的是,依据不完备信息来进行判别分类,这难免会发生误判
,好的判别分类方法应使发生误判的概率尽可能地小。
2
判别分类的例子
有偿付力与无偿付力的财产责任保险公司。 判别变量:总资产,股票与债券价值,股票与债券的市值, 损失支出,盈余,签定的保费金额。
v μi可估计为
xi

1 ni
ni
xij
j 1
(i=1,2,⋯ ,k)。
v Σ1,Σ2,⋯ ,Σk的估计分如下两种情形: Ø Σ1=Σ2=⋯ =Σk=Σ Ø Σ1,Σ2,⋯ ,Σk不全相等
4
Σ1=Σ2=⋯ =Σk=Σ的情形
v Σ的联合无偏估计为
S p

1 nk
k
ni
i 1
1 Si
其中n=n1+n2+⋯
+nk,n−k≥p,Si
1 ni 1
ni
(xij xi )(xij xi )为第i组的样本协差阵。
j 1
v 实际应用中使用的判别规则是
x l ,
若Iˆlx
cˆl

max
1ik
Iˆix cˆi
x l,
若Ilx

cl

max
1 i k
Σ1=Σ2=Σ时的判别
v省略的 步骤见 书中第 115页。
d 2 x,1 d 2 x,2 x μ1 Σ 1 x μ1 x μ2 Σ 1 x μ2
xΣ 1x 2xΣ 1 μ1 μ1Σ 1 μ1 xΣ 1x 2xΣ 1 μ2 μ2 Σ 1 μ2
《多元统计分析》
3.1 引言
判别分析的目标
目标1(预测方面):分类(或分配)。 在已知历史上用某些方法已把研究对象分成若干 组(亦称类或总体)的情况下,来判定新的观测 样品应归属的组别。
目标2(描述方面):分离。 就是用图形(通常二维,有时三维或一维,一般 通过降维实现)方法或代数方法描述来自各组的 样品之间的差异性,最大限度地分离各组。

x2

S
1 p
x1

x2


μ1 μ2 Σ 1 μ1 μ2
Ø 该误判概率的估计是有偏的,但大样本时偏差的影响是可以忽略的。
5
误判概率的非参数估计
v 若两组不能假定为正态组,则P(2|1) 和 P(1|2) 可以用样本中样品的误 判比例来估计,通常有如下三种非参数估计方法:
新产品的速购者与迟购者。 判别变量:教育,收入,家庭大小,过去更换品牌的次数。
良好信用与不良信用风险。 判别变量:收入,年龄,信用卡数目,家庭规模。
3
本章讨论的判别分类
下一章将会 具体说明。
本章的讨论都是基于判别变量为定量变量(间隔变量)的判别分析。
每组中所有样品的p维向量值x x1, x2, , xp 构成了该组的(p元总 体)分布。
法或判别情形,并且可类似地推广到多组的情形。
9
Σ1≠Σ2时的判别
v 判别规则:

x x

1 2
, ,
若d 2 x,1 d 2 x, 2 若d 2 x,1 d 2 x, 2
v 实际应用中,μ1,μ2和Σ1,Σ2一般都是未知的,可分别由 x1,x2和S1,S2 代 替。
v 判别规则为
x l,
若d
2

x,
l


min
1 i k
d
2
x,i

该判别规则不受变量单位的影响。
1
Σ1=Σ2=⋯ =Σk=Σ时判别规则的简化
v 此时,上述判别规则可简化。
d 2 x, i x μi Σ 1 x μi xΣ 1 x 2 μiΣ1 x μiΣ1 μi
min
1 i k
d
2
x,i

2
v 当k=2时,可将上式写成

x x

1 2
, ,
若I1x

c1

I

2
x

c2
若I1x c1 I2x c2
相关主题