当前位置:文档之家› 判别分析和SPSS的使用

判别分析和SPSS的使用


x#
j, 若 D 2 ( y,
jy )
=
m inD 2 ( y,
1∃ i∃ k
iy )
( 3)
若前 r 个判别函数 ( r < s ) 已足够反映 m 个原
始变量的变化 ( 例如贡献率在 85% 以上 ),于样品 x , 这时判
别规则是:
r
r
x#
% % j, 若 t= 1
) 若还有条件 P 1 = P 2 = ! = P s , 在 SPSS中 选择 F isher判别法, 在先验概率中选所有组都相等
后得到的线性函数可以直接用于距离判别法、B ayes
判别法和 F isher判别法。若想保持与教科书上给出
判别公式的计算结果一致, 则在用于距离判别法和
F isher判别法时, 只 要对每个线性表达式都减去相
% % 设
=
1k k i= 1
i, B =
k
( i-
i= 1
)( i-
) ∀。
% 定理 1 设 !1 & !2 & ! & !s > 0是
-
1
B

s个非零特征根, s ∃ m in( k - 1, m ), t1, t2, !, ts 是 相应的标准正交的特征向量, 则线性组合 y1 (x ) = t∀1x 称为第一判别函数, y2 ( x ) = t∀2 x 称为第二判别 函数, ! , ys ( x ) = t∀sx 称 为第 s 个 判别 函数, 且 Var ( t∀ix ) = 1, i = 1, 2, !, s。
的具体过程。
关键词 SPSS F isher线性判别函数 非标准化判别函数 判别分析
中图法分类号 C81;
文献标志码 A
在生产、科研和日常生活中经常会遇到根据观 测到的数据资料, 对所研 究对象进行分 类的问题。 例如在经济研究中要根据人均国民收入、人均工农 业产值、人均消费水平等多项指标判别一个国家经 济发展所属类别 ( 发达国家、中等发达、发展中国家 等 ) ; 在地质勘探中, 根据岩石标本的多种特征来判 别地层的地质年代, 由采样分析出的多种成分来判 别此地是有矿还 是无矿, 是 铜矿还是铁矿; 在医疗 实践中, 要根据就诊者的多种体检指标 (如体温、血 压、脉搏、白血球等 ) 来判别此人有病还是无病, 是 这种病还是那种病。因此, 判别分析是一种常用的 多元统计分析方法。现行教科书中和 文献资料中 介绍最常 见的判别分析 方法是距离判 别法, B ayes 判别法和 F isher判别法。这 3种方法产生的背景是 不同的, 使用的条件也是不同的。它们的共同特点 是计算量很大, 若样品的个 数或变量, 的个数较多 时, 要想用手算或计算器均难以进行。因此必须使 用统计软件才能有效地进行判别分析。 SPSS是一 种最常用的统计分析软件, 但在 SPSS中, 判别分析 方法的选项中只给出 F isher线性判别函数和非标准
关系。
结论 2: 在 SPSS中选择 F isher判别法后所得的
线性函数是:
di ( x ) = l∀ix + ci + lnpi, i = 1, 2, !, s。
其中 li =
- 1 i, ci = -
1 2
∀i - 1 i 。这 里 p i 是由
SPSS中先验概率的选择确定的: 要么是相等, 要么
t∀tx ) ] 2
( 5)
式 ( 5) 给出对应于 SPSS 中 F isher线性判 别的
一种方法: 非标准化法。
结论 1: 在 SPSS中选 ∋ 非标准化函数 (后所得表 格是判别式 ( 5) 中: y*i = t∀ix - t∀i x 的系数列向量 ti 和常数 - t∀i x, i = 1, 2, !, r。由于这时变量 x 是非 标准化的, 故 得其名。 SPSS 中给 出各组 的中心 是
与组容量成比例。若取先验概率 p1 = p 2 = ! = ps,
则多总体的 F isher判别准则是: x # j, 若 dj (x ) =
m axd
1∃ i∃ s
i
(
x
)

由此不难理解为何在 SPSS 中把它命名为 F ish
er判别法的理由。这个结论的实证留 在第三部分 进行。
结论 3: 在条件 1 = ! = k = 下使用 F isher 线性函数进行 3种判别的方法:
( yt -
yjt ) 2
=
m in
1∃ i∃ s t= 1
( yt -
yit ) 2
( 4)
或 x # j, 若
r
% [ ( t∀tx - t∀t x ) - ( t∀txj - t∀tx ) ] 2 =
t= 1
r
% m in
1∃ i∃ s t=
1
[
(
t∀tx
-
t∀tx ) -
( t∀tx i -
i 。在先验概率 p 1 = p2 = ! = ps 下, F ish
er线性判别准则是:
x#
j, 若 dj ( x )
=
m
1∃
ax
i∃ s
di
(x
)
( 6)
这个定理给出 F isher判别的另一种方法, 此方
法对应于 SPSS中选取 F isher判别函数后得到线性
判别函数, 它与距离判别法和 Bayes判别法有密切
时, 设为 P ∀1, P ∀2, !, P ∀k , 则在第 i个线性表达式加
上 ( lnp ∀i - lnp i ), i = 1, 2, !, k 后可进行 Bayes判
别法; 在使用 F isher判别法和距离判别法时, 均须把 每个线性表达式都减去不同的 lnp i 再判别。
2 实证检验和使用说明
2008 年 3月 12 日收到 浙江省精品课程 统计学概论 基金资助 第一作者: 陈希镇, 男, 教授, 硕士生 导师。研究 方向: 数理统 计、教 育测量、金融统计。 E m ai:l x izhenc@ 163. com。
化函数这两种方法, 使用者会问: 这两种方法 分别 对应教科书中的哪两种或哪几种方法。对此, 笔者 查阅不少教科书和介绍 SPSS使用的文献资料, 很难 得到明确的答案, 却发现因为对这两种方法对应的 判别表达式不清楚而导致使用不当, 因此有必要对 此进行研究和梳理, 以便人们能正确使用。本文通 过分析比较, 首先给出距离判别法, Bayes判别法和 F isher判别法三者之间的内在联系; 其次给出 SPSS 中的 F isher判别和非标准化判别对应的线性函数, 它们与 3种判别法的关系; 最后用例子验证所给出 的结论, 通过例子说明利用 SPSS中的判别分析方法 进行距离判别分析、Bayes判别分析和 F isher判别分 析的具体过程。
例 1( 选自文献 [ 1] P149之例 5. 2. 3) 对破产的 企业收集它们在破产前两年的年度财务数据, 同时 对财务良好的企 业也收集同一时 期的数据。数据 涉及 4个变量: x1 = 现金流量 /总債务, x2 = 净收 入 /总资产, x3 = 流动资产 /流动債务, x4 = 流动资 产 /净销售额。数据文献 [ 1] 中表 5. 2. 1( 略 ) 。文 献 [ 1] 中用 SAS给出距离判别函数是:
同的 lnp i 即可。 ∗ 在先验概率不相等时, 若每个总体的先验概
率与组数大小成比例, 则在先验概率中选由组容量
计算先验概率, 由 F isher判别法所得的线性函数可
直接用于 Bayes判别法; 在使用 F isher判别法和距 离判别法时, 均须把每个线性表达式都减去不同的
lnpi 再判别。 + 在先验概率不 相等且与组数大 小不成比例
陈希镇 曹慧珍
( 温州大学数学科学学院, 温州 325000 )
摘 要 给出距离判别法, B ayes判别法和 F ishe r判别法三者之间的 内在联系, 给出 SPSS中 F isher判别法、非标准化判别法所
对应的函数表达式, 它们与 3种判别法的关系。用例子验证所得的结论, 说明利用 SPSS中的判别分析方法进行 3种判别分析
建立判别函数 yi = t∀i x, i = 1, 2, !, s后, 它们 组成判别向量 y = ( y1, y2, !, ys ) ∀, 对总体 i 来说,
其中心 (条件均值 )是: iy = E ( y x # i ) = ( i1, i2, !, is ) =
( t∀1 i, t∀2 i, !, t∀s i ), i = 1, 2, !, k 。
这时
P ( i x) =
exp -
1 2
d
2
(
x,
k
i ) + lnp i
=
% exp -
i= 1
1 2
d2
(x,
i ) + lnp i
% exp ∀i
k
-1
x-
1 2
i
+
lnpi
,
% % exp ∀i
i= 1
-1
x-
1 2
i+
lnpi
i = 1, 2, !, k。
于是 Bayes判别准则是:
% x #
1 3种判别法的内在联系
设有 k 个 m 维总体 1, 2, !, k , 它们的均值 分别为 1, 2, !, k , 协方差矩阵分别是 1 = 2 = ! = k = > 0。现有 m 维样品 x , 该样品 x 应归 于哪个类别? 3种判别方法的判别法则分别是:
( 1)多总体的距离判别法 先计算 x 与各总体的马氏距离:
下面用例子验证 SPSS中选择 F isher判别法所 得的线性函数是:
相关主题