当前位置：文档之家› 正态分布与统计推断

正态分布与统计推断

阿尔法数值分析
标准正态分布
STATISTICS
正态分布的特征和曲线下面积分布规律
正态分布有五个方面的特征： ①正态曲线(normal curve)在横轴上方，且均数所在处曲线最高； ②正态分布以均数为中心，左右对称； ③正态分布有两个参数，即均数与标准差(与)，均数为位置参数，决定正态分布曲线所在的位置，标准差为形状参数，决定正态分布曲线的“胖” 和“瘦”，大，曲线为“矮胖型”，反之，为 “高瘦型”，标准正态分布的均数和标准差分别为 0和1； ④正态曲线在1，标准正态分布在1处各有一个拐点； ⑤正态分布的面积分布有一定的规律性。
阿尔法数值分析
STATISTICS
假设检验的基本步骤
一．建立检验假设和确定检验水准
二．选择检验方法和计算统计量
三．确定概率P值和作出统计推断
阿尔法数值分析
STATISTICS
一．建立检验假设和确定检验水准
建立假设时，包括有检验假设与备选假设两种。检验假设又称零假设(null hypothesis)，用H0表示，是依据反证法的原理，对所要证明的问题提出的一个假设。 H0：新药与旧药的疗效相同。备选假设(alternative hypothesis)是与零假设对应的反面假设，常常记为H1。如果能够否定H0(常常称为拒绝零假设)，则接受备选假设。 H1：新疗法与旧疗法效果不同。显著水平(significant level)是指在建立了检验假设之后人为确定的，当拒绝H0时允许犯错误的机会。显著水平常用α表示。一般取α＝0.05或α＝0.01，如果α＝0.05，则允许在拒绝H0时有5%的可能性会犯错误。如果取0.01时，则只允许1%的可能性犯错误。因此，α水平定得越小，允许犯错误的机会也就越小。
阿尔法数值分析
STATISTICS
两类错误
尽管假设检验帮助我们回答了与0是否相等的问题，但它是建立在小概率原理上的判断，无论接受无效假设H0、拒绝备择假设H1，还是接受备择假设H1、拒绝无效假设H0 都有可能犯错误。统计学中将拒绝了正确的无效假设H0称为Ⅰ类错误(type I error)，犯Ⅰ类错误的概率用表示，通常称之为检验水准(level of significance)，常取=0.05；将接受了错误的无效假设H0称为Ⅱ类错误(type Ⅱ error)。犯 Ⅱ类错误的概率用表示。在统计学中将1-称为检验效能 (power of test)，其意义是当两个总体存在差异时(即备择假设H1：0成立时)，所使用的统计检验能够发现这种差异(拒绝无效假设H0：=0)的能力，通常检验效能应该达到0.8左右。
( X u / 2 S X , X u / 2 S X )
总体均数的95%可信区间：
总体均数的99%可信区间：
阿尔法数值分析
STATISTICS
三、已知，可按正态分布原理，用以下公式估计可信区间。
( X u / 2 X , X u / 2 X )
总体均数的95%可信区间：
阿尔法数值分析
STATISTICS
阿尔法数值分析
图2-2 频数分布逐渐接近正态分布示意图
STATISTICS
为了应用方便，对于任何一个均数和标准差分别为与的正态分布，都可以通过变量的标准正态变换：
u
X

使之成为标准正态分布(standardized normal distribution), 用N(0,1)表示，即均数为0，标准差为1。
X
阿尔法数值分析
我们已经知道如果是采用随机抽样的方法得到的样本，那么抽样误差的分布是存在一定规律的。假设检验的基本思想是：先提出假设，然后看在假设成立的前提下实际抽到的样本是否属小概率事件，若属小概率事件，则拒绝该假设；若不属小概率事件，则不拒绝该假设。
STATISTICS
单、双侧检验
•
t
界值表
STATISTICS
样本均数的抽样误差
用样本的信息去推断总体特征，这种研究方法称为统计推断(statistical inference)。样本均数不太可能与总体均数正好相等，这种由个体变异产生的、随机抽样引起的统计量与总体参数间的差异称为抽样误差(sampling error)。在抽样研究中，抽样误差是不可避免的。
阿尔法数值分析
STATISTICS
如从均数的正态总体中以固定样本含量n反复多次抽样，所得的 X 各不相同，若将这些 X 编成频数分布表，即可看出样本均数 X 以为中心呈正态分布。即使是从偏态分布总体抽样，只要n足够大， X 的分布也近似正态分布。各 X 围绕的离散程度，可以用标准误 X (standard error)来描述。其计算公式为：
STATISTICS
总体参数的统计推断
• 样本均数的抽样误差 — t 分布 • 总体均数的区间估计 • 总体率的区间估计 • 统计推断的假设检验
阿尔法数值分析
STATISTICS
样本均数的抽样误差与t分布
• 样本均数的抽样误差 • •
阿尔法数值分析
t t
分布分布的特征
2
2 x
X
2 x
阿尔法数值分析
X t SX
n 1
STATISTICS
图4-2 不同自由度下t分布
阿尔法数值分析
统计量t的分布称为t分布。t分布与自由度有关，每个自由度都对应一条分布曲线
STATISTICS
t分布的特征为：
①以0为中心，左右对称的单峰分布； ②t分布曲线是一簇曲线，其形态变化与自由度的大小有关。自由度越小，则t值越分散，曲线越低平；自由度逐渐增大时，t分布逐渐逼近u分布(标准正态分布)；当趋于∞时，t分布即为u分布。
阿尔法数值分析
( p u / 2 s p , p u / 2 s p )
STATISTICS
统计推断的假设检验
• 小概率事件与假设检验
• 单、双侧检验
• 两类错误
• 假设检验的基本步骤
阿尔法数值分析
STATISTICS
小概率事件与假设检验
与0之间的差异(不相等)应有两种可能: 1. 与 0 本身就不相等，所以导致了X 与0之间的差异； 2. 与 0 相等仅因为用 X 去估计时存在抽样误差，所以导致了 X 与 0 之间的差异。
阿尔法数值分析
STATISTICS
一、未知且n较小：按t分布的原理用下式计算可信区间。
X t / 2( ) S X
或者
阿尔法数值分析
( X t / 2( ) S X , X t / 2( ) S X )
STATISTICS
二、未知但n足够大：这时t分布近似服从标准正态分布，可按下式计算可信区间。
阿尔法数值分析
STATISTICS
正态分布的面积规律
阿尔法数值分析
标准正态分布的面积规律
图2-4 正态分布和标准正态分布的面积规律
STATISTICS
医学参考值的估计
医学参考值是指正常人的各种生理、生化数据，组织或排泄物中各种成分的含量。同是一批正常人，由于个体差异的客观存在，某一生理或生化指标的测定结果有大有小，即使是同一个体，其生理、生化测定数据也会随着机体内外环境的变化而相应地波动。因此，需要估计正常人测定值的波动范围，该范围称为参考值范围(reference ranges)，参考值范围在诊断方面可用于划分正常与异常。随着新设备、仪器、试剂、测试方法的不断推出及对不同时代正常人某些变量测定值的比较，都需要进行医学参考值的研究。
p (1 ) / n
阿尔法数值分析
总体率在实际工作中一般不知道，故以样本率P来估计：
S p p(1 p) / n
STATISTICS
总体率的可信区间估计方法
1.查表法查表法适合于样本量较小，如n50，且P接近0或1的资料。该附表是根据二项分布原理制成。 2.正态分布法当n足够大，且nP 和n(1-P) 均大于 5 时， P的抽样误差分布逼近正态分布。此时，可根据正态分布的特性用式：
阿尔法数值分析
STATISTICS
STATISTICS
正态分布和统计推断
• 正态分布和标准正态分布的概念 • 正态分布的特征和曲线下面积分布规律 • 医学参考值的估计
• 样本均数的抽样误差
阿尔法数值分析
• 统计推断的假设检验
STATISTICS
正态分布和标准正态分布的概念
阿尔法数值分析
STATISTICS
均数抽样误差的分布－t分布
对正态变量X进行u变换后，可使一般的正态分布N( , ) 变换为标准正态分布N(0,1)。样本均数 X 的分布服从正态分布N( X , )。同理，对正态变量 X 进行u变换( u X ) 后，也可使正态分布N( X , )变换为标准正态分布N(0,1)。由于实际工作中，往往是未知的，常用S作为的估计值，这时对正态变量采用的不是u变换而是t变换，即：
正态分布(normal distribution)是一种重要的连续型分布。
前面见到的频数分布是以均数为中心，左右两侧基本对称，靠近均数两侧频数较多，离均数愈远，频数愈少，形成一个中间多、两侧逐渐减少、基本对称的分布。当将样本含量扩大，将组段分细，图中直条将变窄，就会表现出中间高、两侧逐渐降低，并完全对称的特点(如图 2-2(a)、(b)所示)，将频数分布图各直条顶端的中点连线，就接近于一条光滑的曲线(如图2-2(c)所示)，这条曲线被称作正态分布曲线，用N(,)表示，其位置与均数有关，形状与标准差有关。标准差大，离散程度大，正态分布曲线则“胖”，反之，则“瘦”。

e商务文档

正态分布与统计推断

相关文档推荐：