当前位置:
文档之家› 2017.3.16统计学计量资料的统计描述方法
2017.3.16统计学计量资料的统计描述方法
应用条件: 用于任何分布类型,包括偏态资料、两端数据无界限的资料。
计算:
2
n 为奇数时--
M X ( n 1) 2
n 为偶数时--
M
1 2
X
(n) 2
X
( n 1) 2
9 人数据:12,13,14, 14, 15, 15, 15, 17, 19 天
M X 91 X 5 15(分 )
2 如果只调查了前八位中学生,则:
方差: 方差=S2
全距 R : R= 最大值–最小值。简单,但仅利用了两端点值,稳定性差。
变异系数(coefficient of variation,CV): 计算:CV=(S/ X )100%, 无单位 应用:1.单位不同的多组数据比较; 2.均数相差悬殊的多组资料
什么是正态分布?
(二)正态分布(Normal distribution)
例 11.3: 已知 111 人的血铅 X =0.010 µg/100ml, S=0.012 µg/100ml 因为血铅可以低而不可以高,故用单侧 95%参考值范围
X +1.64S=0.010+1.64×0.012=0.030(µg/100ml);
血铅 95%参考值范围≤0.030 µg/100ml
注意:如果资料非正态分布而使用正态分布法,会得出错误结论!!
(2)百分位数法
适用于偏态分布资料 计算公式:
双侧界值:P2.5 ~ P97.5 单侧用上界: P95 单侧用下界: P5
X 1=90 X 2=90
s1=10.8 s2=32.4
S X X 2 分分分分分 n1
X 2 ( X )2
S
n
n 1
,分子越大。 或者
标准差的 5 应用: 描述变异程度、计算标准误、计算变异系数、 描述正态分布、估计正常值范围
S 用于正态分布资料
6
怎样使用均数和标准差? 论文中常用 X ±S 描述对称、正态或近似正态分布数据的特征。 描述偏态资料的分散程度需用四分位数间距 P25~P75(代替标准差 S)。
1
计量资料的统计描述方法
怎样表达一组数据?
描述计量资料的常用指标—
A、描述平均水平(中心位置): 均数 X 、中位数和百分位数、几何均数 G、众数(mode)
B、描述数据的分散程度:
标准差、四分位数间距、 变异系数、方差、全距
(一)均数 mean 和标准差 standard deviation
1. (算术)均数 X
9
正态分布的应用:
1.估计正态分布 X 值在特定值范围内的分布比例(概率)。 2.制定某临床指标的参考值范围 3.利用估计变量值的范围或对极端值做取舍。 4.许多统计方法的统计推断建立在正态分布基础上。
怎样确定资料是否属正态分布? 1.做正态性检验; 2.粗略估计: 正态一般 S 1 X ; S X 者必为偏态!
组段 56~ 59~ 62~ L25 65~ 68~ 71~ L75 74~ 77~ 80~ 83~85
合计
频数 f 2 5 12 15 25 26 19 15 10 1 130
累积频数∑f 2 7 19 ∑f25 34 P25 在此 59 85 ∑f75 104 P75 在此 119 129 130
3
正态分布可用于求参考值范围!
(三)医学参考值范围的制定
概念 医学参考值是指包括绝大多数“正常人”的各种生理及生化指 标常数,也称正常值(背景值)。 正常值是指在一定范围内波动的值,医学上常用 95%的范围作为 判定正常或异常的参考标准。
制定参考值的基本原则 1. 选定正常人:
即排除了影响研究指标的有关因素的同质人群。 有足够的样本例数(一般不低于 100 例) 2. 确定参考值范围的百分界限(常用 95%) 3. 考虑制定单侧或双侧诊断界值:
P75=74+3x[(130x75%-85)/19]=74.66 四分位数间距=65.90~74.66 (次/分)
4
3.几何均数 G(geometric mean)
应用:
适用于成等比数列的资料,特别是服从对数正态分布资料。
原始数据分布不对称,经对数转换后呈对称分布的资料。
可用于反映一组经对数转换后呈对称分布或正态分布的变量值
5
组段的组中值。适用于大样本但较粗糙。 例:有 16 例病人的发病年龄为 42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试 求众数。
正态分布时: 均数=中位数=众数
正(右)偏态分布时:均数 > 中位数 >众数 负(左)偏态分布时:均数 < 中位数 <众数
新药肯定比旧药好(旧药肯定比新药差)——单侧 新药可能好,也可能差------------------------------双侧 双侧标准较高,结论较可靠(常用)
10
4. 依分布(正态或偏态) 确定计算方法: (1)正态分布法
X ±µ ·S,其中 双侧 95%参考值范围公式: X ±1.96S 单侧 95%参考值范围公式: X +1.64S
① 确定 Px 所在组段: P25 所在的组段:n X %=130×25%=32.5, 65~组最终的累积频数=34,32.5 落在 65~组段内; P75 所在的组段:n X %=130×75%=97.5, 此值落在 74~组段
② 确定 Px 所在组段的 LX 、 iX 、f x、Σ f L ③ P25=65+3x[(130x25%-19)/15]=65.90
G 分 8 5 分10 分 20 分 40 分80 分160 分320 分640 分 56.57
Glg1[(lg5lg10lg20lg640)/8]56.57
平均抗体效价为: 1:57
加权法:
G
l g 1 (
f
lg f
X
)
众数
是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个
若固定标准差 ,改变均数 值,曲线沿着 X 轴平行移动,其形 状不变。
若固定 , 越小,曲线形状越陡峭;反之, 越大,曲线越平 坦。
正态分布均数(位置参数)、标准差(变异度)变化示X 轴与正态曲线所夹面积恒等于 1 或 100%; ② 区间 的面积为 68.27%; ③ 区间 1.96 的面积为 95.00%; ④ 区间 2.58 的面积为 99.00%。
正态分布 u 值表(标准正态分布概率单位值)
变量值 分布范围(%)
80 90 95 99
尾部面积 α
0.20 0.10 0.05 0.01
单侧 u 值
0.84 1.28 1.64 2.33
双侧 u 值
1.28 1.64 1.96 2.58
尾部面积为α的 u 值,记为 uα,称为 u 界值: 尾部面积各为 2.5%时(黑色处),其对应的 u 值为 u=±1.96; u=(-2.58,2.58)区间的面积为 0.99(空白处)
含了全部观察值的一半。
3
百分位数计算(频数表法):
PX
LX
iX (n X % fX
fL )
LX :第 X 百分位数所在组段下限 Σ f L :小于 LX 各组段的累计频数
iX :第 X 百分位数所在组段组距 n :总例数 f x:所在组段频数
注:有的教材 X= r ; fL =C
例:求频数表的第 25、第 75 百分位数(四分位数间距)
在数量上的平均水平。例如 抗体滴度。
计算:N 个数值的乘积开 N 次方, 即为这 N 个数的几何均数。
G n X1X2 Xn
lg G
1 n
(lg
X1
lg
X2
lg
Xn)
lg X n
G lg1 lg X
n
lg 表示以 10为底的对数;
lg 1表示以 10为底的反对数
X 0,为正值
有 8 份血清的抗体效价分别为 1:5, 1:10, 1:20, 1:40, 1:80, 1:160,1:320,1:640,求平均 抗体效价。使用分母计算!
均数是描述一组计量资料平均水平或集中趋势的指标。
*直接计算公式:
X X1 X 2 X n X
n
n
应用条件:适用于对称分布,特别是正态分布资料。
2. 中位数(median)M 和百分位数(percentile)
A.中位数 M
是将一组观察值从小到大排序后,居于中间位置的那个值或两个 中间值的平均值。
正态分布是描述连续型变量值分布的曲线. 当例数比较多时,医 学上许多资料近似服从正态分布。正态分布在统计推断上有重要的作 用。
7
正态分布曲线理论上的特征
(1)以 X= μ均数为中心, X 值呈钟型分布,中央高、两端对称性减 少、与 X 轴永不相交。 (2 )在 X= μ处,f(x)取最大值(例数最多)。 (3 )正态分布由均数μ 、标准差σ决定曲线的左右位置和高低形 状: 正态分布有两个参数,即位置参数--均数 和形态参数--标准差 。
3. 标准差 S
S 描述数据的分散程度.描述一组数据在其平均数周围的分布情 况,若每个数据集中在其平均数周围,此平均数对这组数据的代表照 就大;反之,代表性较差。
标准差 S
甲 组 75 80 85 90 95 100 105 n1=7 乙 组 45 60 75 90 105 120 135 n2=7
M
X
8+X
2
8+1 2
2 (X 4+X5)2 (14+15)2 14.5(天)
B.百分位数
是将 N 个观察值从小到大依次排列,再分成 100 等份,对应于 X% 位的数值即为第 X 百分位数。中位数是第百分 50 位数。
四分位数间距(quartile range)