正态分布与统计推断
阿 尔 法 数 值 分 析
标准正态分布
STATISTICS
正态分布的特征和曲线下面积分布规律
正态分布有五个方面的特征: ①正态曲线(normal curve)在横轴上方,且均数所在 处曲线最高; ②正态分布以均数为中心,左右对称; ③正态分布有两个参数,即均数与标准差(与),均 数为位置参数,决定正态分布曲线所在的位置, 标准差为形状参数,决定正态分布曲线的“胖” 和“瘦”,大,曲线为“矮胖型”,反之,为 “高瘦型”,标准正态分布的均数和标准差分别为 0和1; ④正态曲线在1,标准正态分布在1处各有一个拐 点; ⑤正态分布的面积分布有一定的规律性。
阿 尔 法 数 值 分 析
STATISTICS
假设检验的基本步骤
一.建立检验假设和确定检验水准
二.选择检验方法和计算统计量
三.确定概率P值和作出统计推断
阿 尔 法 数 值 分 析
STATISTICS
一.建立检验假设和确定检验水准
建立假设时,包括有检验假设与备选假设两种。 检验假设又称零假设(null hypothesis),用H0表 示,是依据反证法的原理,对所要证明的问题 提出的一个假设。 H0:新药与旧药的疗效相同。 备选假设(alternative hypothesis)是与零假设对应 的反面假设,常常记为H1。如果能够否定H0(常 常称为拒绝零假设),则接受备选假设。 H1:新疗法与旧疗法效果不同。 显著水平(significant level)是指在建立了检验假设 之后人为确定的,当拒绝H0时允许犯错误的机会。 显著水平常用α表示。一般取α=0.05或α=0.01, 如果α=0.05,则允许在拒绝H0时有5%的可能性 会犯错误。如果取0.01时,则只允许1%的可能性犯 错误。因此,α水平定得越小,允许犯错误的机会 也就越小。
阿 尔 法 数 值 分 析
STATISTICS
两类错误
尽管假设检验帮助我们回答了与0是否相等的问题,但 它是建立在小概率原理上的判断,无论接受无效假设H0、 拒绝备择假设H1,还是接受备择假设H1、拒绝无效假设H0 都有可能犯错误。统计学中将拒绝了正确的无效假设H0称 为Ⅰ类错误(type I error),犯Ⅰ类错误的概率用表示,通 常称之为检验水准(level of significance),常取=0.05;将 接受了错误的无效假设H0称为Ⅱ类错误(type Ⅱ error)。犯 Ⅱ类错误的概率用表示。在统计学中将1-称为检验效能 (power of test),其意义是当两个总体存在差异时(即备择假 设H1:0成立时),所使用的统计检验能够发现这种差 异(拒绝无效假设H0:=0)的能力,通常检验效能应该达 到0.8左右。
( X u / 2 S X , X u / 2 S X )
总体均数的95%可信区间:
总体均数的99%可信区间:
阿 尔 法 数 值 分 析
STATISTICS
三、已知 ,可按正态分布原理,用以下公式 估计可信区间。
( X u / 2 X , X u / 2 X )
总体均数的95%可信区间:
阿 尔 法 数 值 分 析
STATISTICS
阿 尔 法 数 值 分 析
图2-2 频数分布逐渐接近正态分布示意图
STATISTICS
为了应用方便,对于任何一个均数和标准差分别为与 的正态分布,都可以通过变量的标准正态变换:
u
X
使之成为标准正态分布(standardized normal distribution), 用N(0,1)表示,即均数为0,标准差为1。
X
阿 尔 法 数 值 分 析
我们已经知道如果是采用随机抽样的方法得到的样 本,那么抽样误差的分布是存在一定规律的。假设检验 的基本思想是:先提出假设,然后看在假设成立的前提 下实际抽到的样本是否属小概率事件,若属小概率事件, 则拒绝该假设;若不属小概率事件,则不拒绝该假设。
STATISTICS
单、双侧检验
•
t
界值表
STATISTICS
样本均数的抽样误差
用样本的信息去推断总体特征,这种研究方法称为 统计推断(statistical inference)。 样本均数不太可能与总体均数正好相等,这种由个 体变异产生的、随机抽样引起的统计量与总体参数 间的差异称为抽样误差(sampling error)。在抽样研 究中,抽样误差是不可避免的。
阿 尔 法 数 值 分 析
STATISTICS
如从均数 的正态总体中以固定样本含量n反复多次抽样, 所得的 X 各不相同,若将这些 X 编成频数分布表,即可 看出样本均数 X 以 为中心呈正态分布。 即使是从偏 态分布总体抽样,只要n足够大, X 的分布也近似正态 分布。各 X 围绕 的离散程度,可以用标准误 X (standard error)来描述。 其计算公式为:
STATISTICS
总体参数的统计推断
• 样本均数的抽样误差 — t 分布 • 总体均数的区间估计 • 总体率的区间估计 • 统计推断的假设检验
阿 尔 法 数 值 分 析
STATISTICS
样本均数的抽样误差与t分布
• 样本均数的抽样误 差 • •
阿 尔 法 数 值 分 析
t t
分布 分布的特征
2
2 x
X
2 x
阿 尔 法 数 值 分 析
X t SX
n 1
STATISTICS
图4-2 不同自由度下t分布
阿 尔 法 数 值 分 析
统计量t的分布称为t分布。t分布与自由度有关, 每个自由度都对应一条分布曲线
STATISTICS
t分布的特征为:
①以0为中心,左右对称的单峰分布; ②t分布曲线是一簇曲线,其形态变化与自由度的大 小有关。自由度越小,则t值越分散,曲线越低平; 自由度逐渐增大时,t分布逐渐逼近u分布(标准正态 分布);当趋于∞时,t分布即为u分布。
阿 尔 法 数 值 分 析
( p u / 2 s p , p u / 2 s p )
STATISTICS
统计推断的假设检验
• 小概率事件与假设检验
• 单、双侧检验
• 两类错误
• 假设检验的基本步骤
阿 尔 法 数 值 分 析
STATISTICS
小概率事件与假设检验
与0之间的差异(不相等)应有两种可能: 1. 与 0 本身就不相等,所以导致了X 与0之间 的差异; 2. 与 0 相等仅因为用 X 去估计时存在抽样 误差,所以导致了 X 与 0 之间的差异。
阿 尔 法 数 值 分 析
STATISTICS
一、 未知且n较小:按t分布的原理用下 式计算可信区间。
X t / 2( ) S X
或者
阿 尔 法 数 值 分 析
( X t / 2( ) S X , X t / 2( ) S X )
STATISTICS
二、 未知但n足够大: 这时t分布近似服从 标准正态分布,可按下式计算可信区间。
阿 尔 法 数 值 分 析
STATISTICS
正态分布的面积规律
阿 尔 法 数 值 分 析
标准正态分布的面积规律
图2-4 正态分布和标准正态分布的面积规律
STATISTICS
医学参考值的估计
医学参考值是指正常人的各种生理、生化数据,组织或 排泄物中各种成分的含量。同是一批正常人,由于个体 差异的客观存在,某一生理或生化指标的测定结果有大 有小,即使是同一个体,其生理、生化测定数据也会随 着机体内外环境的变化而相应地波动。 因此,需要估计正常人测定值的波动范围,该范围称为 参考值范围(reference ranges),参考值范围在诊断方面可 用于划分正常与异常。随着新设备、仪器、试剂、测试 方法的不断推出及对不同时代正常人某些变量测定值的 比较,都需要进行医学参考值的研究。
p (1 ) / n
阿 尔 法 数 值 分 析
总体率 在实际工作中一般不知道,故以样本率P来估 计:
S p p(1 p) / n
STATISTICS
总体率的可信区间估计方法
1.查表法 查表法适合于样本量较小,如n50,且P接近0或1的 资料。该附表是根据二项分布原理制成。 2.正态分布法 当n足够大,且nP 和n(1-P) 均大于 5 时, P的抽样误差 分布逼近正态分布。此时,可根据正态分布的特性 用式:
阿 尔 法 数 值 分 析
STATISTICS
STATISTICS
正态分布和统计推断
• 正态分布和标准正态分布的概念 • 正态分布的特征和曲线下面积分布规律 • 医学参考值的估计
• 样本均数的抽样误差
阿 尔 法 数 值 分 析
• 统计推断的假设检验
STATISTICS
正态分布和标准正态分布的概念
阿 尔 法 数 值 分 析
STATISTICS
均数抽样误差的分布-t分布
对正态变量X进行u变换后,可使一般的正态分布N( , ) 变换为标准正态分布N(0,1)。样本均数 X 的分布服从正态 分布N( X , )。同理,对正态变量 X 进行u变换( u X ) 后,也可使正态分布N( X , )变换为标准正态分布N(0,1)。 由于实际工作中,往往 是未知的,常用S作为 的估 计值,这时对正态变量采用的不是u变换而是t变换,即 :
正态分布(normal distribution)是一种重要的连续型分布。
前面见到的频数分布是以均数为中心,左右两侧基本对 称,靠近均数两侧频数较多,离均数愈远,频数愈少, 形成一个中间多、两侧逐渐减少、基本对称的分布。当 将样本含量扩大,将组段分细,图中直条将变窄,就会 表现出中间高、两侧逐渐降低,并完全对称的特点(如图 2-2(a)、(b)所示),将频数分布图各直条顶端的中点连线, 就接近于一条光滑的曲线(如图2-2(c)所示),这条曲线被 称作正态分布曲线,用N(,)表示,其位置与均数有关, 形状与标准差有关。标准差大,离散程度大,正态分布 曲线则“胖”,反之,则“瘦”。