当前位置：文档之家› 置信区间与统计估计

置信区间与统计估计

(169.56,174.44)
• 在95%的置信系数下，北京男性市民的平均身高是在169.56与174.44 米之间，其最大抽样误差为 2.44 米
17
• 例：假定在随机抽样100位某市人大代表后，样本平均年龄为45岁，样本标准差（s）为9岁，某市人大代表平均年龄的95% 与99%置信区间分别为何？
50
• 教育水平是不是会影响个人的工资？
y 200 100x – y是个人月工资（“元”） – x是教育水平（ “年”） – 200是截距 – 100是回归系数
51
工资（y）
y=200+100x
200
教育水平（x）
52
• 回归系数的解释： –当自变量增加一个单位时，依变量会增加 b个单位 –每多受一年的教育，个人的工资就会增加100元 –回归系数 b 代表自变量对依变量的影响力
18
• 置信区间的意义是：如果连续抽样100次，每次都建立一个置信区间，所谓95%置信区间是指这100个置信区间中，会有95个区间会正确地包含着母体平均数，约有五个不包含着母体平均数
19
重复抽样置信区间与母体平均数的关系示意图
区间不包含μ
μ
20
–95% 和 99%就是 “置信系数” – z 2 (s n ) 就是最大抽样误差 –置信系数愈高，置信区间也就愈宽，但太宽的置信区间会使之失去实际的效用
x 1s.d . 68.3% x 2 s.d . 95.4% x 3s.d . 99.7%
这68%，95%，以及99%就是所谓的置信系数或置信度
15
• 95%置信区间 s s , x z 2 x z 2
n n
30 30 172 1.96 , 172 1.96 1000 1000 ( 172 1.86, 172 1.86 )
9
• 置信系数为 1 的置信区间：
x z 2

n
或 x z 2 , x z 2 n n
10
–x z 2Fra bibliotek区间的下界 n
n
–
x z 2

区间的上界
– z 2 n

为最大抽样误差
11
• 例：随机抽样1000位北京男性市民后，样本平均身高为 172公分，样本标准差为30公分，在95%与99%的置信系数下，北京男性市民的平均身高为何？
（α ）： –在检定虚无假设时：拒绝虚无假设：即认为母体平均值（）与假设值（0 ）间，存在着统计上显著的差别（statistically significant difference）不拒绝虚无假设：即认为母体平均值（）与假设值（ 0）间，没有统计上显著的差别（statistically insignificant）
的平均智商为122分 – H1 : 122 ：该校学生的平均智商不是122分２）决定显著水平（ 0.05）
38
• 临界值检定法：将样本值转化为 z分数并取其绝对值（ z ），然后与临界值（ z 2 ）相比较 x 0 z s n
39
• 双尾假设检定的“拒绝区”与“接受区”: 临界值检定法
(170.14,173.86)
• 在95%的置信系数下，北京男性市民的平均身高是在170.14与173.86 米之间，其最大抽样误差为 1.86 米
16
• 99%置信区间 s s , x z 2 x z 2
n n
30 30 172 2.575 , 172 2.575 1000 1000 ( 172 2.44, 172 2.44 )
25
• 假设检定的程序： –１）设立假设 –２）决定显著水平（α ） –３）设立决定规则 –４）计算检定数据 –５）结论
26
双尾检定：置信区间检定法
１）设立假设： – 虚无假设 H 0 （null hypothesis）：表示母体平均值（μ）与假设值（） 0 间没有差别，也就是
H 0 : 0
类别资料分析 Categorical Data Analysis
王德育 (T.Y. Wang) 伊利诺州立大学 (Illinois State University)
tywang@
1
统计估计与假设检定
2
• 描述性统计与推论性统计 –描述统计：组织，描绘与总结手边资料的统计方法 –推论性统计：以手边资料为样本以推论母体特质的统计方法
29
–通常 0.05 或 0.01 – 就是前述的显著水平（significance level），而 1 就是置信系数 –所以当为0.05时，置信系数为 95%； –当为0.01时，置信系数为 99%
30
３）设立决定规则：
如果假设值（ 0 ）在置信区间内，表示母体平均数（）与假设值（ 0）间没有统计上显著的差别，无法拒绝虚无假设如果假设值（ 0）在置信区间外，表示母体平均数（）与假设值（0 ）间确实有统计上显著的差别，拒绝虚无假设
Z 2 1.96
99%置信区间的临界值：
Z 2 2.575
23
• 例：某校领导宣称该校学生的平均智商为122分。随机抽样256位学生，样本平均数为 120分，样本标准差为10分。这个差别是因为抽样误差所造成的吗？或者两者间真有差别？
24
二、假设检定 • 假设检定的三种方法： –置信区间检定法 –临界值检定法 –p 值检定法
7
一、置信区间与统计估计
• 统计估计可分为 –点估计（point estimate） –区间估计（interval estimate ）
8
母体平均数的区间估计 –区间估计的逻辑是以概率抽样方法自母体抽取一个样本，计算其平均数 x ，依照所要的置信系数（或显著水平），加减 K 个 s N 而得到上下区间
z 2
拒绝区接受区
z 2
z
拒绝区
45
设立决定规则（p 值检定法）： –如果 p ，无法拒绝虚无假设 p –如果，拒绝虚无假设
46
– 因为 p 0.0014小於 0.05 ，当显著水平为0.05时，该校学生的平均智商在统计上与122分有显著地不同，拒绝虚无假设 – 结论是校领导的宣称是错的，该校学生的平均智商不是122分 – 这个结论和置信区间检定法或临界值检定法所得的结论相同
/2
/2
z 2
拒绝区接受区
z 2
拒绝区
40
３）设立决定规则： –如果 z z 2 ，我们就无法拒绝虚无假设 –如果 z z 2 ，我们就拒绝虚无假设
41
４）计算检定数据
x 0 120 122 z 3.2 s n 10 256
42
５）结论 –因为 z 大於 z 2 ，表示在显著水平为0.05之下，该校学生的平均智商在统计上与122分有显著地不同。拒绝虚无假设 –结论是校领导的宣称是错的，该校学生的平均智商不是122 分。这个结论和置信区间检定法所得的结论相同
4
中央极限定理（central limit theorem）
– 自某一母体中抽样，假定所有样本为 n 的样本都被抽出来（也就是有 K 套样本）并计算其平均数（ x ），在样本数够大的情况下，这 K 个样本平均数会形成正态分布，而且这些样本平均数的平均 x）会等於母体平均数（），这些数（样本平均数的标准差（标准误 sx）会等於 N
21
• 值：代表“不包含”母体特性的概率，也就是结论是错误的概率。又称为显著水平（significance level） –在95%的置信系数下， = 1 – 0.95 = 0.05 –在99%的置信系数下， = 1 – 0.99 = 0.01

22
• “临界值”（critical value）: 与值相对应的 z 值 95%置信区间的临界值：
3
中央极限定理（central limit theorem）
• 样本平均数的抽样分布（sampling distribution of sample means） • 样本平均数的平均数(The Mean of the Sampling Distribution of Means, x ) • 标准误（ sx , standard error)：样本平均数抽样分布的标准差
43
• 双尾检定： p 值检定法 –以学生平均智商为例，我们已知 z 3.2 – 此处的 p 值指的是 z 3.2 的概率，也就是 z 3.2与 z 3.2 的概率合 – p 值为是0.0014（ 0.0007 2）
44
• 双尾假设检定的“拒绝区”与“接受区”: p 值检定法
12
• 因不知母体标准差（）。如果样本数够大，我们可以样本标准差（s）来作为母体标准差（）的估计值 ,
x z 2 s n
所以置信系数为 1 的置信区间
或是
s s , x z 2 x z 2 n n
13
正态曲线面积分布
14
正态曲线下的概率分布
33
• 置信区间检定法的逻辑是：如果母体的平均数等於 0 ，则所观测到
的样本平均数 x 应非常接近。 • 因此，我们可以 x 来建构置信区间，在一定的置信系数下（如 95%），如果假设值在置信区间内，表示母体平均数（）
与假设值（ 0 ）间没有统计上显著的差别
34
• 例：某厂商要测试所生产的盒装果汁容量是否是16 oz 。随机抽样1024盒，样本平均数为 16.1 oz ，样本标准差为1.6 oz, 厂商的结论为何？

e商务文档

置信区间与统计估计

相关文档推荐：