当前位置:文档之家› 应用统计分析复习笔记

应用统计分析复习笔记

应用统计分析复习笔记 BY 东海 2009年12月1日星期二第一章 导论1、统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。

内容:收集数据(取得数据);处理数据(整理与图表展示);分析数据(利用统计方法分析数据);数据解释(结果的说明);得到结论(从数据分析中得出客观结论)。

2、统计研究的循环过程:实际问题—收集数据—处理数据—分析数据—数据解释—实际问题。

4、描述统计:研究数据收集、整理和描述的统计学分支。

内容:收集数据;整理数据;展示数据;描述性分析。

目的:描述数据特征;找出数据的基本规律。

5、推断统计:研究如何利用样本数据来推断总体特征的统计学分支。

内容:参数估计;假设检验。

目的:对总体特征做出推断。

6、描述统计与推断统计的关系:7、统计数据的类型(1)按计量层次:分类数据、顺序数据、数值型数据(2)按收集方法:观测数据和实验数据(3)按时间状况:截面数据和时间序列数据8、总体:所研究的全部个体(数据) 的集合,其中的每一个个体也称为元素。

分为有限总体和无限总体。

样本:从总体中抽取的一部分元素的集合。

构成样本的元素的数目称为样本容量或样本量。

9、参数:描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值。

所关心的参数主要有总体均值(μ )、标准差(σ)、总体比例(π)等。

总体参数通常用希腊字母表示。

10、统计量:用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数。

所关心的样本统计量有样本均值(x )、样本标准差(s)、样本比例(p)等。

样本统计量通常用小写英文字母来表示。

变量:说明现象某种特征的概念,如商品销售额、受教育程度、产品的质量等级等。

变量的具体表现称为变量值,即数据变量可以分为:(1)分类变量(说明事物类别的名称)、顺序变量(说明事物有序类别的名称)和数值型变量(说明事物数字特征的名称)。

其中数值型变量又分离散变量(取有限个值)和连续变量(可以取无穷多个值)。

(2)经验变量(所描述的是我们周围可以观察到的事物)和理论变量(由统计学家用数学方法所构造出来的一些变量,比如,z 统计量、t 统计量、χ2统计量、F 统计量等)。

(3)随机变量和非随机变量。

11、随机现象的一个特点是:不确定性。

随机现象也存在其固有的量的规律性,人们把这一规律性称为随机现象的统计规律性。

对随机现象的观察称为随机试验,并简称试验,用以研究随机现象的统计规律性。

随机试验的特点:可重复性、可观察性和随机性。

统计中的抽样过程其实就是一次随机试验。

因而可以利用概率论的技巧来分析推断统计方法。

而样本其实就是随机变量。

12、常见分布:二项分布、几何分布、指数分布、正态分布。

13、统计学中泛称统计量(或枢轴量)的分布为抽样分布。

讨论抽样分布的途经有两种:1)精确地求出抽样分布,并称相应地统计推断为小样本统计推断;2) 让样本容量趋于无穷,并求出抽样分布的极限分布。

以极限分布作为抽样分统计方法描述统计推断统计参数估计假设检验点估计区间估计布的近似分布,来对未知参数进行统计推断,称相应的推断为大样本统计推断。

14、典型的统计软件:SPSS 、MINITAB 、STA TISTICA 、Excel 和SAS 。

第二章 参数估计1、估计量:用于估计总体参数的随机变量。

如样本均值,样本比例、样本方差等。

例如:样本均值就是总体均值的一个估计量。

参数用θ 表示,估计量用θˆ表示。

估计值:估计参数时计算出来的统计量的具体值。

如果样本均值x =80,则80就是μ的估计值。

2、估计方法:点估计和区间估计。

其中点估计的方法包括矩估计法、顺序统计量法、最大似然法、最小二乘法。

3、点估计:用样本的估计量的某个取值直接作为总体参数的估计值,例如:用样本均值直接作为总体均值的估计。

一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量。

4、评价估计量的标准:无偏性(估计量抽样分布的数学期望等于被估计的总体参数)、有效性(对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效)和一致性(随着样本容量的增大,估计量的值越来越接近被估计的总体参数)。

5、区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到。

根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。

7、置信水平:将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平。

表示为)1(α-,α为是总体参数未在区间内的比例,常用的置信水平值有99%, 95%, 90%,相应的α为0.01,0.05,0.10。

8、置信区间:由样本统计量所构造的总体参数的估计区间称为置信区间。

用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个。

9、影响区间宽度的因素:(1)总体数据的离散程度,用σ 来测度。

(2)样本容量n ,nxσσ=。

(3)置信水平)1(α-,影响 z 的大小。

10.总体均值的区间估计(大样本)1. 假定条件• 总体服从正态分布, 且方差(σ2) 已知• 如果不是正态分布,可由正态分布来近似 (n ≥ 30) 2.使用正态分布统计量 znxσσ=3. 总体均值 μ 在1-α 置信水平下的置信区间为)(22未知或σσααnsz x nz x ±±总体均值的区间估计(正态总体、σ2未知、小样本)1. 假定条件• 总体服从正态分布,但方差(σ2) 未知 • 小样本 (n < 30)2. 使用 t 分布统计量nx σσ=3.总体均值μ在1-α置信水平下的置信区间为 nst x 2α±11、t 分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。

一个特定的分布依赖于称之为自由度的参数。

随着自由度的增大,分布也逐渐趋于正态分布。

估计总体均值时样本容量的确定1. 估计总体均值时样本容量n 为2222)(Ez n σα=其中:nz E σα2=2. 样本容量n 与总体方差σ 2、边际误差E 、可靠性系数Z 或t 之间的关系为▪ 与总体方差成正比 ▪ 与边际误差的平方成反比 ▪与可靠性系数成正比3. 样本容量的圆整法则:当计算出的样本容量不是整数时,将小数点后面的数值一律进位成整数,如24.68取25,24.32也取25等等第三章 假设检验1、假设:对总体的统计特征所作的陈述。

总体统计特征跟参数有关,称为参数假设检验,如:总体均值、比例、方差等;总体统计特征跟参数无关,称为非参数假设检验。

假设检验:先对总体的统计特征提出某种假设,然后利用样本信息判断假设是否成立的过程。

有参数检验和非参数检验。

逻辑上运用反证法,统计上依据小概率原理。

2、原假设:研究者想收集证据予以反对的假设,又称“0假设”,表示为H 0。

H 0 :μ =某一数值,指定为符号=,≤ 或 ≥ 。

3、为什么叫 0 假设?之所以用零来修饰原假设,其原因是原假设的内容总是表示没有差异或没有改变,或变量间没有关系等等。

零假设总是一个与总体参数有关的问题,所以总是用希腊字母表示。

4、备择假设:研究者想收集证据予以支持的假设,也称“研究假设”。

表示为 H 1,总是有符号 ≠,< 或 >。

5、提出假设:一般的,原假设和备择假设是一个完备事件组,而且相互对立;先确定备择假设,再确定原假设;等号“=”总是放在原假设上;因研究目的不同,对同一问题可能提出不同的假设(也可能得出不同的结论)。

6、备择假设没有特定的方向性,并含有符号“≠”的假设检验,称为双侧检验或双尾检验(two-tailed test) 。

备择假设具有特定的方向性,并含有符号“>”或“<”的假设检验,称为单侧检验或单尾检验(one-tailed test)。

备择假设的方向为“<”,称为左侧检验;备择假设的方向为“>”,称为右侧检验。

7、假设检验中的两类错误:第Ⅰ类错误(弃真错误),原假设为正确时拒绝原假设,第Ⅰ类错误的概率记为α;第Ⅱ类错误(取伪错误),原假设为错误时未拒绝原假设,第Ⅱ类错误的概率记为β 。

α和β的关系就像翘翘板,α小β就大,α大β就小,要同时减少两类错误的惟一办法是增加样本容量。

由于犯第Ι类错误的概率是可以由研究者控制的,因此在假设检验中,人们往往先控制第Ι类错误的发生概率。

8、影响β错误的因素:总体参数的真值;显著性水平α;总体标准差σ;样本容量n。

9、检验能力:正确拒绝一个错误的原假设的能力。

β是指没有拒绝一个错误的原假设的概率。

这也就是说,1-β则是指拒绝一个错误的原假设的概率,这个概率被称为检验能力,也被称为检验的势或检验的功效。

10、显著性水平:表示总体中某一类数据出现的经常程度。

是一个概率值,原假设为真时,拒绝原假设的概率,即抽样分布的拒绝域。

表示为α ,常用的α 值有0.01, 0.05, 0.10,由研究者事先确定。

11、拒绝原假设,表示这样的样本结果并不是偶然得到的;不拒绝原假设(拒绝原假设的证据不充分) ,则表示这样的样本结果只是偶然得到的。

12、检验统计量:根据样本观测结果计算得到的,并据以对原假设和备择假设做出决策的某个样本统计量。

13、P 值被称为观察到的(或实测的)显著性水平。

决策规则:若p值<α, 拒绝H0。

14、P 值决策与统计量的比较:用P值进行检验比根据统计量检验提供更多的信息;统计量检验是我们事先给出的一个显著性水平,以此为标准进行决策,无法知道实际的显著性水平究竟是多少。

15、假设检验步骤:(1)陈述原假设和备择假设(2)从所研究的总体中抽出一个随机样本(3)确定一个适当的检验统计量,并利用样本数据算出其具体数值(4)确定一个适当的显著性水平,并计算出其临界值,指定拒绝域(5)将统计量的值与临界值进行比较,做出决策第四章非参数检验1、无需假定总体分布的具体形式,仅仅依赖于数据观测值的相对大小(秩)或零假设下等可能的概率等和数据本身的具体总体分布无关的性质进行的检验都称为非参数检验。

参数检验与非参数检验的比较:▪在总体分布形式已知时,非参数检验不如传统方法效率高。

这是因为非参数方法利用的信息要少些。

往往在传统方法可以拒绝零假设的情况,非参数检验无法拒绝。

▪但非参数统计在总体未知时效率要比传统方法要高,有时要高很多。

是否用非参数统计方法,要根据对总体分布的了解程度来确定。

2. 单样本非参数检验的方法(1)卡方检验卡方拟合优度检验的原理与计算步骤原理:判断样本观察频数(Observed frequency)与理论(期望)频数(Expected frequency)之差是否由抽样误差所引起。

相关主题