卫生统计学的基本概念
g1
6n(n 1) (n 2)(n 1)(n 3)
g2
24n(n 1)2 (n 3)(n 2)(n 3)(n 5)
g1和g2的抽样分布近似正态分布,故在算得
及 g1
g2
后,可按下式计算检验统计量u值
,用u检验推断资料的正态性。
偏度: ug1 g1 g1
1)正态概率纸法
这是一种粗略而简便的方法,它既适用 于样本含量较小时,也可适用于样本含 量较大或分组资料的正态性检验。
2)偏度与峰度检验
正态分态分布
总体的样本资料峰度不应过高或过低,
偏度(Skewness)也不应太大。通常以
g1表示偏度,g2表示峰度,我们可以计
计上称这种检验为双侧检验( Two-tailed test) (或双尾检验)。
如果我们已知新药效力不可能低于旧药效力, 这时无效假设H0: 1=2,备择假设为H1: 1>2。因而,t0.05的界值只需考虑一侧的界限 即可,统计上称为单侧检验(或单尾检验)( One tailed test)。
4 fx x3 6( 2)(n 3){[ fx2
fx)2 fx2 ( fx)2
/ n 3( fx)4 / n]/(n 1)}2
/
n2
]
3(n 1)2 (n 2)(n
3)
式中X为变量值,f为相同X的个数,n为样
本例数。上式无论n的大小均适用。
理论上,总体偏度系数1=0为对称, 1>0 为正偏态,1<0为负偏态;总体峰度系数2=0 为正态峰, 2>0 为尖峰态,2<0为平阔峰。g1 及g2为统计量,有抽样误差,其标准误的计算 法如下:
M
L
i (n fm 2
fL)
五、离散程度指标 离散程度指标又称变异程度指标。它
反映观察值之间参差不齐的程度。常用 的离散程度指标有极差、标准差和变异 系数等。现将离散程度指标、计算公式 及主要优缺点归纳在下表中。
指标 计算公式
主要优缺点
极差 R=Xmax-Xmin
计算简单,易理解:反映了观察值的变异,
2 频数分布类型
数值资料常见的频数分布类型有 三种,如何区分关键是看分布高峰 的位置。
1)正态分布型 频数分布的高峰位于中央 ,图形左右对称。正态分布属于此类型 。
2)正偏态分布型 频数分布的高峰偏左, 图形左右不对称,即观察值较小的一端 集中了较多的频数。
3)负偏态分布型 频数分布的高峰偏右, 图形左右不对称,即观察值较大的一端 集中了较多的频数。
常用的可信区间公式: 95 %的可信区问:x t s 0.05,v x 99 %的可信区间:x t s 0.01,v x 计算时特别注意公式中的标准误而不是 标准差。
2.大样本均数可信区间的估计 95 %的可信区间:x 1.96sx 99%的可信区间:x 2.58sx
十一、两种检验与两类错误
变异系数
两组和多组资料比较变异程度,如均数相差
cv s 100% 过大或观察单位不同时用变异系数比较 x
六、正态分布曲线的特征及规律 正态分布曲线是一条高峰位于中央即均 数所在处)两侧逐渐下降并完全对称, 两端永远不与横轴相交的钟型曲线。
正态曲线的特征是整个曲线都在横轴 的上方,均数处最高;以均数为中心, 左右对称。正态分布曲线有两个重要参 数,即和,决定曲线的位置,决定 曲线的形状。
(2) 健康统计、医学人口统计、疾病统 计和生长发育统计。
(3)卫生服务统计。
3.学习卫生统计学应注意的问题
要以掌握卫生统计学的基本知识、 基本概念、基本原理和使用各种基 本方法的注意事项和适用条件为主 。要理解计算公式的统计思想。
在学习各种统计方法时,不必深究 公式的推导,应该把精力放在联系 实际,应用卫生统计学的知识、方 法和解决本专业的实际问题上。
卫生统计学的基本概念和基本统计检验
中国预防医学科学院
马林茂 中国疾病预防控制中心 公共卫生监测与信息服务中心
卫生统计研究室
一、卫生统计学的意义
1. 卫生统计学的定义
卫生统计是用统计学的原理和方 法研究医药卫生领域中数据的搜集 、整理与分析的一门应用性学科。
2. 卫生统计学的主要内容
(1) 卫生统计学的基本原理和方法,包 括研究设计和数据处理的理论和方 法。
七、正态分布曲线下面积分布规律:
1.一般正态分布
。范围内的面积占总面积的 68.27% 1.96范围内的面积占总面积的95.00 % 2.58范围内的面积占总面积的 99.00%
2.标准正态分布(标准正态分布中 =0,=1)
-1~1(0土 1)之间的面积占总面积的 68.27% -1. 96~1.96( 0土 1.96)之间的面积占总面积的
峰度: ug1
g2
g2
u值服从正态分布,因而按u=1.96与2.58进行
判断,ug1 2.58 ,p<0.01, ug2 1.96, p 0.05
3) W检验(3n50)
如果不需知道偏离正态分布的类型,且
样本含量在50以下时,可用W检验。
n
查统计量w的p分位数表。 {2
2) 系统误差:是指由确定的原因引起的 观察值与真值之间或样本指标与总体指 标之间的偏差。
8.参数和统计量总体的指标称为参数, 样本的指标称为统计量。
9.统计推断根据样本资料所提供的信息 ,对总体的特征作出推断,称为统计推 断。统计推断包括两个方面:
(1)参数估计 参数估计是根据样本资料 所提供的信息,对总体指标的大小或所 在范围作出估计。这种估计又分为点估 计和区问估计两种。①点估计:是对总 体指标作出一个定值的估计,虽然能给 人一个明确的数量概念,但这只是一个 近似值,常常不能满足实际工作的需要 。②区间估计:是估计总体参数所在的 范围以及在这个范围内包含总体参数的 可能性的大小。
3 集中趋势指标
集中趋势指标又称平均数,它反 映了观察值的集中位置或平均水平 ,是观察值的典型水平或代表值。 常用的集中趋势指标有算术均数( 均数)、几何均数和中位数等。现 把各种平均指标的应用条件归纳如 下表各平均指标的应用条件
指标
适用条件
计算公式
算术平均数 常用于描述对称型分布,尤 其是正态分布资料的集中趋 势
还可以用于计算变异系数,变异系数又称离散 系数,它是标准差对均数的相对百分数,故又 有相对标准差之称。 十、总体均数的可信区间的估计 1.小样本均数可信区间的估计 通式:
总体均数的可信区间为:x t ,v sx ,=1-
P。 P 为可信度又称置信概率,如总体均数95 %的可信区间 P=0.95,则=1- P=0.05,为 自由度,t是自由度等于时的t的界值。
1)单侧检验与双侧检验
在进行t检验时,如果其目的在于检验两 个总体均数是相等(即1=2)还是不相 等(即12),例如检验某种新降压药 与常用的降压药效力是否相同?就是说 :新药效力比旧药好,或新药效力比旧 药差以及新药和旧药效力相同,都有可 能。在这种情况下,只要t 的绝对值大于 t0.05(),即可认为均数差别有统计意义,统
1)数值变量(又称定量变量):是以 计量方式所得到的观察结果,一般都 带有度量衡单位。
2)分类变量(又称定性变量或字符变 量):分类变量的变量值是代表互不 相容类别或属性的字符。
5.总体与样本 1)总体:是根据研究目的确定的性质相 同的所有观察单位某种变量值的集合体
2)样本:是总体内随机抽取的一部分。 在理解这一概念时要注意样本是为研究 总体时而抽取的。因此为了使样本具有 一定的代表性,抽取样本时必须遵循随 机化原则从总体中抽取总体单位,构成 样本,这样样本才具有代表性。
离均差平 方和
ss (x x)2
反映变量值间的变异,难理解,受观察值个 数影响不利比较
方差 标准差
s2 (x x)2 n
x2 ( x)2
s
n
n 1
反映变量值间的变异,不受观察值个数影响 单位是原单位的平方,不易理解
反映变量值间的变异,不受观察值个数影响 ,单位与原单位相同,是常用的离散程度指 标之一,在多组资料比较时,受到单位不同 和均数相差较大时的影响
二、统计工作的步骤
• 卫生统计工作的步骤包括: 统计研究设计、搜集资料。 整理资料和分析资料。
• 统计研究设计的内容包括:
• 资料搜集、整理和分析的全过程。资 料来源包括:
1.卫生统计报表
2.经常性工作记录
3.专题调查或实验研究
整理资料是净化原始数据,使其系 统化、条理化。分析资料即通过计算 统计指标,反映数据的综合特征。统 计分析可分为统计描述和统计推断两 个部分。
W i1
[ x i
( n1i )
xi ]}2
n
i 1
(
xi
x)2
4)D检验
如果不需知道偏离正态分布的类型,且
样本含量在50以上时,可用D检验。
D检验的计算公式如下:
D (
(i
n
2
1)
xi
n )2 ( xi x )2
九、标准差的应用
标准差用来描述观察值间的变异程度(离散 程度),用于正态或近似正态分布资料,标准 差结合均数描述分布特征。标准差主要用来衡 量观察值间的离散(或变异)程度。标准差还
(2)假设检验 首先对总体指标作出一个 假设,然后根据样本资料所提供的信息 及有关统计量分布理论,对这个假设作 出拒绝或不拒绝的判断。
假设检验有许多种,根据其所计算的 统计量不同而命名,如t检验、U检验。 F检验、2检验等。
四、数值资料的统计描述
1 频数分布表
首先应编制频数分布表以了解其 分布状况,频数就是观察值的个数 。频数分布就是观察值在其所取值 的范围内分布的情况。