置信区间与统计估计
(169.56,174.44)
• 在95%的置信系数下,北京男性市 民的平均身高是在169.56与174.44 米之间,其最大抽样误差为 2.44 米
17
• 例:假定在随机抽样100位某 市人大代表后,样本平均年 龄为45岁,样本标准差(s) 为9岁,某市人大代表平均年 龄的95% 与99%置信区间分 别为何?
50
• 教育水平是不是会影响个人 的工资?
y 200 100x – y是个人月工资(“元”) – x是教育水平( “年”) – 200是截距 – 100是回归系数
51
工资(y)
y=200+100x
200
教育水平(x)
52
• 回归系数的解释: –当自变量增加一个单位时, 依变量会增加 b个单位 –每多受一年的教育,个人 的工资就会增加100元 –回归系数 b 代表自变量对 依变量的影响力
18
• 置信区间的意义是:如果连 续抽样100次,每次都建立一 个置信区间,所谓95%置信 区间是指这100个置信区间中, 会有95个区间会正确地包含 着母体平均数,约有五个不 包含着母体平均数
19
重复抽样置信区间与母体平均数的 关系示意图
区间不包 含μ
μ
20
–95% 和 99%就是 “置信系 数” – z 2 (s n ) 就是最大抽样误 差 –置信系数愈高,置信区间 也就愈宽 ,但太宽的置信 区间会使之失去实际的效 用
x 1s.d . 68.3% x 2 s.d . 95.4% x 3s.d . 99.7%
这68%,95%,以及99%就是所谓 的置信系数或置信度
15
• 95%置信区间 s s , x z 2 x z 2
n n
30 30 172 1.96 , 172 1.96 1000 1000 ( 172 1.86, 172 1.86 )
9
• 置信系数为 1 的置信区 间:
x z 2
n
或 x z 2 , x z 2 n n
10
–x z 2Fra bibliotek区间的下界 n
n
–
x z 2
区间的上界
– z 2 n
为最大抽样误差
11
• 例:随机抽样1000位北京男 性市民后,样本平均身高为 172公分,样本标准差为30公 分,在95%与99%的置信系数 下,北京男性市民的平均身 高为何?
(α ): –在检定虚无假设时: 拒绝虚无假设:即认为母体平 均值( )与假设值(0 )间, 存在着统计上显著的差别 (statistically significant difference) 不拒绝虚无假设:即认为母体 平均值( )与假设值( 0) 间,没有统计上显著的差别 (statistically insignificant)
的平均智商为122分 – H1 : 122 :该校学生的 平均智商不是122分 2)决定显著水平( 0.05)
38
• 临界值检定法:将样本值转 化为 z分数并取其绝对值 ( z ),然后与临界值 ( z 2 )相比较 x 0 z s n
39
• 双尾假设检定的“拒绝区”与“接受 区”: 临界值检定法
(170.14,173.86)
• 在95%的置信系数下,北京男性市 民的平均身高是在170.14与173.86 米之间,其最大抽样误差为 1.86 米
16
• 99%置信区间 s s , x z 2 x z 2
n n
30 30 172 2.575 , 172 2.575 1000 1000 ( 172 2.44, 172 2.44 )
25
• 假设检定的程序: –1)设立假设 –2)决定显著水平(α ) –3)设立决定规则 –4)计算检定数据 –5)结论
26
双尾检定:置信区间检定法
1)设立假设: – 虚无假设 H 0 (null hypothesis):表 示母体平均值(μ)与假设值( ) 0 间没有差别,也就是
H 0 : 0
类别资料分析 Categorical Data Analysis
王德育 (T.Y. Wang) 伊利诺州立大学 (Illinois State University)
tywang@
1
统计估计与 假设检定
2
• 描述性统计与推论性统计 –描述统计:组织,描绘 与总结手边资料的统计方 法 –推论性统计:以手边资 料为样本以推论母体特质 的统计方法
29
–通常 0.05 或 0.01 – 就是前述的显著水平 (significance level) ,而 1 就是置信系数 –所以当 为0.05时,置信系数为 95%; –当 为0.01时,置信系数为 99%
30
3)设立决定规则:
如果假设值( 0 )在置信区间 内,表示母体平均数( )与 假设值( 0)间没有统计上显 著的差别,无法拒绝虚无假设 如果假设值( 0)在置信区间 外,表示母体平均数( )与 假设值(0 )间确实有统计上 显著的差别,拒绝虚无假设
Z 2 1.96
99%置信区间的临界值:
Z 2 2.575
23
• 例:某校领导宣称该校学生 的平均智商为122分。随机抽 样256位学生,样本平均数为 120分,样本标准差为10分。 这个差别是因为抽样误差所 造成的吗?或者两者间真有 差别?
24
二、假设检定 • 假设检定的三种方法: –置信区间检定法 –临界值检定法 –p 值检定法
7
一、置信区间与统计估计
• 统计估计可分为 –点估计(point estimate) –区间估计(interval estimate )
8
母体平均数的区间估计 –区间估计的逻辑是以概率 抽样方法自母体抽取一个 样本,计算其平均数 x , 依照所要的置信系数(或 显著水平) ,加减 K 个 s N 而得到上下区间
z 2
拒绝区 接受区
z 2
z
拒绝区
45
设立决定规则(p 值检定法 ): –如果 p ,无法拒绝虚无 假设 p –如果 ,拒绝虚无假设
46
– 因为 p 0.0014小於 0.05 , 当显著水平为0.05时,该校学 生的平均智商在统计上与122分 有显著地不同,拒绝虚无假设 – 结论是校领导的宣称是错的, 该校学生的平均智商不是122分 – 这个结论和置信区间检定法或 临界值检定法所得的结论相同
/2
/2
z 2
拒绝区 接受区
z 2
拒绝区
40
3)设立决定规则: –如果 z z 2 ,我们就无法 拒绝虚无假设 –如果 z z 2 ,我们就拒绝 虚无假设
41
4)计算检定数据
x 0 120 122 z 3.2 s n 10 256
42
5)结论 –因为 z 大於 z 2 ,表示在显 著水平为0.05之下,该校学生 的平均智商在统计上与122分 有显著地不同。拒绝虚无假设 –结论是校领导的宣称是错的, 该校学生的平均智商不是122 分。这个结论和置信区间检定 法所得的结论相同
4
中央极限定理(central limit theorem)
– 自某一母体中抽样,假定所有样本为 n 的样本都被抽出来(也就是有 K 套样本 )并计算其平均数( x ),在样本数够 大的情况下,这 K 个样本平均数会形成 正态分布,而且这些样本平均数的平均 x)会等於母体平均数( ),这些 数( 样本平均数的标准差(标准误 sx)会等 於 N
21
• 值:代表“不包含”母体 特性的概率,也就是结论是错 误的概率。又称为显著水平 (significance level) –在95%的置信系数下, = 1 – 0.95 = 0.05 –在99%的置信系数下, = 1 – 0.99 = 0.01
22
• “临界值”(critical value): 与 值相对应的 z 值 95%置信区间的临界值:
3
中央极限定理 (central limit theorem)
• 样本平均数的抽样分布(sampling distribution of sample means) • 样本平均数的平均数(The Mean of the Sampling Distribution of Means, x ) • 标准误( sx , standard error):样 本平均数抽样分布的标准差
43
• 双尾检定: p 值检定法 –以学生平均智商为例,我 们已知 z 3.2 – 此处的 p 值指的是 z 3.2 的 概率,也就是 z 3.2与 z 3.2 的概率合 – p 值为是0.0014( 0.0007 2)
44
• 双尾假设检定的“拒绝区”与“接 受区”: p 值检定法
12
• 因不知母体标准差()。如果样本 数够大,我们可以样本标准差(s) 来作为母体标准差( )的估计值 ,
x z 2 s n
所以置信系数为 1 的置信区间
或是
s s , x z 2 x z 2 n n
13
正态曲线面积分布
14
正态曲线下的概率分布
33
• 置信区间检定法的逻辑是:如果母 体的平均数等於 0 ,则所观测到
的样本平均数 x 应非常接近。 • 因此,我们可以 x 来建构置信区 间,在一定的置信系数下(如 95%),如果假设值在置信区 间内,表示母体平均数( )
与假设值( 0 )间没有统计上 显著的差别
34
• 例:某厂商要测试所生产的盒 装果汁容量是否是16 oz 。随 机抽样1024盒,样本平均数为 16.1 oz ,样本标准差为1.6 oz, 厂商的结论为何?