多元正态分布及检验
协方差分析
以前介绍的方差分析可用于两组或多组均数间 的比较,其处理因素一般是可以控制的。方差 分析要求各比较组除了所施加的处理因素不同 外,其他对观察指标有影响得因素齐同或均衡, 即要求控制对观察指标有影响的其它因素。在 实际工作中,有时有些因素无法加以控制,或 由于实验设计的疏忽、实验条件的限制等原因, 造成对观察指标有影响的个别因素未加控制或 难以控制。此时用方差分析不合适,应考虑用 协方差分析。
0.252 5.550
2.773 61.049
Sc- 1 = 轾 犏 犏 臌- 09..432761
- 0.426 0.200
( ) ( ) T 2 = n1n2
n1 + n2
X1 -
X2
Sc- 1
X1 -
X2
= 42? (0.50
13
3.10)轾 犏 犏 臌- 09..432761
-
0.426 0.200
0.245 4.267
, S2
=
轾 犏 犏 臌00..029588
0.258 6.619
Sc =
1 n1 + n2 -
2 轾 臌(n1 -
1)S1 + (n2 -
1)S2
= 1 创[5
6+ 7- 2
S1 + 6? S2 ]
1? 11
轾 犏 犏 臌12..370703
= 轾 犏 犏 臌00..215128
(n - 1)m (5- 1)? 3
df1 = 3, df2 = 2
两组比较
对于单变量且服从正态分布资料的两样
本的比较 变形
t = (X1 - X2)
n1 + n2 n1n2
Sc2
( ) ( ) t2 = n1n2
n1 + n2
X1 -
X2
Sc- 2
X1 -
X2
当为多元资料时,此公式推广为HotelingT 2
轾 犏 犏 臌30..1500
= 9.50
F = n1 + n2 - m - 1T 2 = 10 ? 9.50
(n1 + n2 - 2)m
22
4.32, df1 = 2, df2 = 10
SAS计算程序:
proc glm; class gr; model y1 y2=gr; contrast 'gr1 vs gr2' gr 1 -1 0; contrast 'gr1 vs gr3' gr 1 0 -1; contrast 'gr2 vs gr3' gr 0 1 -1; anova h=gr; run;
其中 X 为样本均数向量,S 为样本协方差阵,m0 总体均
数向量。
当
H0
成立时
n-
F=
(n -
m
1)m
T
2,
df1
=
m, df2 =
n-
m
例1:
如随机抽取某单位5名有冠心病的成年男 性,测量其甘油三脂(mmol/L),总 胆固醇(mmol/L),和高密度脂蛋白 胆固醇(mmol/L)含量,已知某单位 正常成年男性的甘油三脂、总胆固醇、 和高密度脂蛋白胆固醇的均数是1.02 mmol/L、2.73 mmol/L和 2.04mmol/L。问该单位冠心病成年男 性的血脂与正常成年男性有无差别?
样 甘油 本 三脂 号
X1 - 1.02
1 1.78 2 0.67 3 0.56 4 0.66 5 0.21
总胆 固醇
X 2 - 2.73
0.83 0.96 0.83 1.12 0.16
高密度脂蛋白 胆固醇
X3 - 2.04
-1.01 -0.84 -0.39 -1.03 -0.40
计算:
X - m0 = 骣 ççççççç桫- 000...775787604÷÷÷÷÷÷÷÷
1
11
2
x2
22
2
2
212
x1
1
11
x2
2
22
图1: 两个二元正态分布
11 22 且 12 0
11 22 且 12 0.75
多元正态分布的性质
= 5? (0.776, 0.780,
0.574)鬃轾 犏 犏 犏 犏 犏 臌134787...535109
47.59 182.86 134.32
38.30 134.32 103.60
骣 ççççççç桫- 000...775877064÷÷÷÷÷÷÷÷
= 295.743
F = n - m T 2 = 5- 3 ? 295.743
A2 x2 y2
17 97 16 90 18 100 18 95 21 103 22 106 19 99 18 94
A3 x3 y3
22 89 24 91 20 83 23 95 25 100 27 102 30 105 32 110
协方差分析中称需比较的因素为因子称 影响观察指标,需排除其影响的数量因 素为协变量。
x2 2i
2
x2i n
n 1
12 21 Corr X1, X 2 S21
x1i x2i
x1i n
n 1
x2i
12 21 /
11 22 r12
x1ix2i
x1i
x2i
n
x2
多元正态均值检验
H0 : 1 2 L k
H1 : 至少存在,使 i j i j
统计量的构造
组间协方差阵:B
k
n
X X
'
X X
1
组内协方差阵:E k
n
X
j
X
'
K
X
j
X
A
1 j1
1i
x1i
2
n
x2 2i
x2i
2
n
协方差阵与逆阵
11 21
12
22
1
1
11
22
2 12
22 Fra bibliotek12 21
11
1122
2 12
11 22
1 2 12
样本协方差阵与逆阵
实例
为研究三种饲料(A1,A2,A3)对猪催肥效果, 用每种饲料喂养8头猪,实验用猪的初始 体重未控制。喂养一段时间后观察小猪 的增重,所得资料如下表,试分析三种 饲料对猪催肥效果是否相同。
三组小猪的初始体重与增重 (kg)
A1 x1 y1
15 85 13 83 11 65 12 76 12 80 16 91 14 84 17 90
反之,如果出现下列情况之一,就难以得出
结论: 1.两组指标虽有显著差别,但趋势不一。或无 显著差别,但P接近0.05。 2 .两组间有些指标有显著差别,有些却无显著 差别。
多元正态分布 定义
P维正态分布定义:对随机变量 X=(X1,X2,…,XP) 的密度函数是
f (X )
2
1 X 1 X / 2 e p / 2 1/ 2
三种检验
(1)检验饲料A与初始体重x间是否存在交 互作用。、因为若两者有交互作用,则 意味着在x的不同取值下A对观察值的作 用不同,即可能对x的某些取值,A1的效 果最好,而对x的另一些取值,A2的效果 最好,因而撇开x谈A的主效应无多大意 义。相应的检验假设是A与x的交互效应 为0。
三种检验
(2)若A与x间无交互作用,则进一步检验 初始体重x与增重y间是否存在线性关系。 若不存在线性关系,则不能用协方差分 析比较三组均数间的差别。因为协方差 分析是利用协变量x与观察指标y间的线 性回归扣除x对y的影响。相应的检验假 设为x与y间的回归系数为0。
53
9
3.00
45
4
3.64
50
10
3.35
47
5
3.60
52
11
2.60
50
6
4.00
55
12
3.15
50
13
3.55
52
计算:
X1 = 轾 犏 犏 臌531..6657 , X2 = 轾 犏 犏 臌438..1557 , X1 - X2 = 轾 犏 犏 臌30..1500
S1 = 轾 犏 犏 臌00..124425
1.有限个多元正态的线性组合为多元正 态分布。 2.一个多元正态分布的所有子集分布有 一个多元正态分布。 3.零协方差意味着相应的随机变量是独 立的。 4 .分量的条件分布是正态分布。
多元正态性的判定
通常对多元正态分布的判断采用对边缘 分布的判断,即:若对多元变量X而言它 所有的一元分布都是正态分布的话,就 认为X是多元正态分布,此时很少出现非 正态的多元数据集。
S = 轾 犏 犏 犏 犏 犏 臌- 000...302584
0.08 0.13 - 0.20
- 0.24 - 0.21
0.36
轾犏17.51 S- 1 = 犏犏47.59
犏犏臌38.30
47.59 182.86 134.32
38.30 134.32 103.60