当前位置：文档之家› 统计推断

统计推断

点估计和区间估计
• 点估计(point estimation)就是用估计量的实现值来近似相应的总体参数。 • 区间估计(interval estimation) 是包括估计量在内（有时是以估计量为中心）的一个区间；被认为很可能包含总体参数。 • 点估计给出一个数字，用起来很方便；而区间估计给出一个区间，说起来留有余地；不象点估计那么绝对。 • 无偏估计(大样本性质)
总体比例（Bernoulli试验成功概率）之差 p1 -p2的区间估计（大样本、大总体）
ˆ ˆ ( p1 p2 ) z / 2 ˆ ˆ ˆ ˆ p1 (1 p1 ) p2 (1 p2 ) n1 n2
例5.4 在两个地区对于某商品认可与否的调查结果显示，第一个地区被调查的950人中有423人认可，而在第二个地区的被调查的1102 人中只有215人认可。求这两个总体比例之差p1 -p2的95%置信区间。得到（0.211，0.289）
区间估计
• 注意置信区间的论述是由区间和置信度两部分组成。 • 置信区间是对参数给出的一个范围 • 置信度为其可信程度(大样本意义) • 有些新闻媒体报道一些调查结果只给出百分比和误差（即置信区间），比如 “收视率为53%±3%”; 不给出置信度，也不给出被调查的人数 • 这是不负责的表现。
总体标准差已知
, x z / 2 x z / 2 n n
总体标准差未知
s s , x t / 2 x t / 2 n n
区间估计的例子（1）
例5.1 （数据：noodle.txt, noodle.sav, noodle.sas7bdat）某厂家生产的挂面包装上写明“净含量450克”。在用天平称量了商场中的48包挂面之后，得到样本量为48的关于挂面重量（单位：克）的一个样本(我们假定，挂面重量所代表的总体分布服从正态分布。 )：
结从论数的据过得程到对现实世界的
统计推断
估计
• 总体代表我们所关心的那部分世界。 • 而在利用样本中的信息来对总体进行推断之前人们往往对代表总体的变量假定了分布族。(描述数据时不用假定) • 比如假定人们的身高属于正态分布族；在抽样调查时假定了二项分布族等等(这些假定可能有风险!)。 • 这些模型基本上是根据“经验”来假定的，仅仅是对现实世界的一个近似。
假设检验的过程和逻辑
• 根据零假设（不是备选假设！），我们可以得到该检验统计量的分布； • 然后再看这个统计量的数据实现值（realization）属不属于小概率事件。也就是说把数据代入检验统计量，看其值是否落入零假设下的小概率范畴 • 如果的确是小概率事件，那么我们就有可能拒绝零假设，否则我们说没有足够证据拒绝零假设。
Independent Samples Test Levene's Test for Equality of Variances t-test for Eq uality of Means 95% Confidence Interval of the Difference Lower Upper 2.07327 2.07304 7.84673 7.84696
SPSS
Descriptives（述计）描统量结变果量 weight 统量计 Mean（本数样均） 95% Confidence Interval for Mean （体数 95%可区）总均的信间 Median（位）中数 Variance（差方） Std. Deviation（准）标差 Minimum（小）最值 Maximum（大）最值 Range（差极） Interquartile Range（分数差四位极） Lower Bound（限下） Upper Bound（限上）统量计值 449.0104 447.4124 450.6084 448.9500 30.287 5.50339 439.60 461.10 21.50 8.18 标误准差 .79435
总体比例（Bernoulli试验成功概率）p的区间估计（大总体、大样本）
ˆ p z / 2
ˆ ˆ p (1 p) , n
ˆ p z / 2
ˆ ˆ p (1 p) n
例5.3 在一个大都市中对1341人的随机调查结果显示，有934个人支持限制小轿车的政策。假定该样本为简单随机样本，希望找出总体中支持限制小轿车的人的比例的点估计及其置信度为95%的置信区间。 n=1341;x=934 CI1=function(n,x,alpha){p=x/n;za=qnorm(alpha/2,low=F) a=sqrt(p*(1-p)/n);b=za*a;L1=p-b;L2=p+b;list(1-alpha,L1,L2)} CI1(n,x,.05) 得到(0.672, 0.721)
假设检验
• 在假设检验中，一般要设立一个原假设； • 而设立该假设的动机主要是企图利用人们掌握的反映现实世界的数据来找出假设和现实的矛盾，从而否定这个假设。
假设检验
• 在多数统计教科书中（除了理论探讨之外）,假设检验都是以否定原假设为目标。 • 如否定不了，那就说明证据不足，无法否定原假设。但这不能说明原假设正确。 • 很多教科书在这个问题上不适当地用“接受原假设”的说法，犯了明显的低级逻辑错误。
假设检验的过程和逻辑
• 首先要提出一个原假设，比如某正态总体的均值等于5（m=5）。这种原假设也称为零假设（null hypothesis），记为H0 • 与此同时必须提出对立假设，比如总体均值大于5（m>5）。对立假设又称为备选假设或备择假设（alternative hypothesis）记为记为H1或Ha
区间估计的意义
区间估计的意义
• 这里的区间（72%，78%）是固定的，而总体比例p也是固定的值。 • 因此只有两种可能：或者该区间包含总体比例，或者不包含；这当中没有任何概率可言。 • 至于区间（72%，78%）是否覆盖真实比例，除非一个不漏地调查所有的人，否则永远也无法知道。
均值m的区间估计（正态分布）
Std. Error Difference 6 1.45466
输出表的头两列是检验（见下面一章的检验）是否方差相等，如果 Sig下面的数目（下一章的p值概念）较大（比如大于0.05）则没有证据认为这两个数据总体的方差不等，则看表的第一行结果，否则认为方差不等，则看表的第二行结果。这里Sig（p值）等于0.556，因此看第一行结果。于是，我们得到两个样本均值的差(4.9600)，另外还给出了两总体均值差的95%置信区间(2.073，7.847)。
F heig ht Equal variances assumed Equal variances not assumed .332
Sig . .566
t 3.410 3.410
df 98 97.386
Sig . (2-tailed) .001 .001
Mean Difference 4.96000 4.96000
估计
• 在假定了总体分布族之后，进一步对总体的认识就是要在这个分布族中选择一个适合于我们问题的成员 • 由于分布族成员是由参数确定的，如果参数能够估计，对总体的具体分布就知道得差不多了。
估计量是用来估计的统计量
• 我们知道，统计量是样本的不包含未知参数的函数。样本均值、样本标准差都是统计量。 • 由于样本是随机的，统计量也是随机变量。 • 用于估计总体参数的统计量称为估计量；样本均值和标准差都是总体均值和标准差的常用估计量。
s s x t / 2 , x t / 2 n n
w=scan("D:/booktj1/data/noodle.txt");hist(w,10)
Histogram of w
14 Frequency 0
435
2
4
6
8
10
12
440
445
450 w
455
460
465
summary(w) Min. 1st Qu. Median Mean 3rd Qu. Max. 439.6 444.6 448.9 449.0 452.6 461.1
区间估计的例子（2）
• （a）我们想要分别得到这两个总体均值和标准差的点估计（即样本均值和样本标准差）和各自总体均值的95%置信区间。利用height2.sav， SPSS得到：作为两个总体均值估计量的样本均值分别为170.56和165.60，而样本标准差分别为 6.97857和7.55659；还得到均值的置信区间分别是(168.5767, 172.5433)及(163.4524, 167.7476)。（计算机输出很容易明白，这里不显示。） • (b)求两个均值差m1-m2的点估计和95%置信区间。根据数据height2.sav，利用软件很容易得到下面结果
区间估计
• 降低置信度可以使置信区间变窄（显得“精确”），有误导读者之嫌。 • 如果给出被调查的人数，则内行可以由此推算出置信度，反之亦然。
• 一个有10000个人回答的调查显示，同意某种观点的人的比例为 70% （有 7000人同意），可以算出总体中同意该观点的比例的 95% 置信区间为（0.691，0.709）； • 另一个调查声称有70%的比例反对该种观点，还说总体中反对该观点的置信区间也是(0.691，0.709)。
一个描述性例子
一个描述性例子 • 实际上，第二个调查隐瞒了置信度（等价于隐瞒了样本量）。 • 如果第二个调查仅仅调查了50个人，有35个人反对该观点。根据后面的公式可以算出，第二个调查的置信区间的置信度仅有11%。

e商务文档

统计推断

相关文档推荐：