当前位置:文档之家› 数值变量资料的统计分析.

数值变量资料的统计分析.

可信度即指估计的准确度,是我们预先给定的概率, 符号为 ,常取95%或99%。
1、大样本(如n>100)数据总体均数的可信区间
移项后: 总体均数的95%可信区间:
缩写为: 或:
例9.14(P167):
该地健康成年女性血红蛋白值总体均数有95%的 可能落在117.48—120.12g/L之间。
2、小样本数据总体均数的可信区间
(一)极差(range)
极差又称全距,即一组观察值中最大值与最小值 之差,用R表示。
适用范围:可用于所有资料的离散趋势描述,但 较粗略。
(二)四分位数间距(quartile interval)
四分位数间距是上四分位数 (即 )与下四分 位数 (即 )之差,其间包括了全部观察值中间 的一半,用 表示。
适用范围:可用于所有资料的离散趋势描述,但主 要用于偏态分布资料。
例9.6(P160) 此150名某型食物中毒患者的四分位数间距是19.47天。
(三)方差和标准差
方差(variance)是每一观察值的离均差平方和 的平均值。总体方差用 表示,样本方差用 表 示。
标准差(standard deviation)即方差的平方 根。总体标准差用 表示,样本标准差用 表 示。
第三节 参数估计和假设检验
一.均数的抽样误差与标准误
抽样研究的目的总是通过对样本的观察,用样本的 水平推断其总体的水平。
由抽样而造成的样本指标与总体指标的差异,或各 样 本 指 标 之 间 的 差 异 , 就 称 为 抽 样 误 差 ( sampling error)。
抽样研究时,抽样误差是不可避免的,只能估计其 大小。
(2)均数对应的位置曲线最高,且以均数为中心左右对
称;
(3)正态分布曲线的位置和形状取决于两个参数
(parameter),即均数 和标准差 ,常用
表示
正态分布。例某地8岁男孩的身高分布为
(4)正态曲线下的面积分布有一定的规律
正态曲线下面积的分布规律:
曲线下横轴上的总面积为100%或1
区间(
, )的面积占总面积的68.27%
(二)几何均数(geometric mean)
几何均数即将各观察单位取对数后再求均数, 用G表示。
适用范围:常用于原始资料呈倍数关系或近 似倍数关系的偏态分布资料。
以上公式适用于观察值个数较少的资料。 例9.4(P158) 5人的血清滴度为1﹕4,1﹕8, 1﹕16,1﹕32,1﹕64,求其平均滴度。
(一)频数表的编制 1、求最大值、最小值、全距
全距又称极差range,常用R表示。 R=最大值-最小值=134.5-112.3=22.2(cm下限,最大值称上限。第一组的 下限应小于最小值,最后一组的上限应大于最大值。
相邻两组段的下限之差称组距(class interval),常用 i 表示 。
当实际工作中用 估计时 t分布了。
,其
的分布就变为
t分布的特征:
(1)以0为中心的对称分布
(2)t分布是一簇曲线,其形态变化与自由度( )大小
有关。当
时,t分布与标准正态分布重合。
t分布的自由度 越分散,曲线越低平。
。 越小, 越大,t值
t分布曲线下的面积是不断变化的,故t值需确定自由 度( )和所求的曲线下面积(P)后,才能得到相应的t 值。将不同和P值对应的t值算出,列成表格即得到t界值 表(附表2,P227)。
区间(

)的面积占总面积的95%
区间(

)的面积占总面积的99%
采用
的变量变换,可将原来的正态分
布变换为均数为0,标准差为1的标准正态分布
(standard normal distribution),亦称 分
布,可用
表示。
标准正态分布曲线下对应的面积可查附表1(P226)。 例:
例9.11(P164):
该5人的平均滴度为1:16。
当观察值较多或频数表资料时,需用以下公式计算。
为组段数
为各组段的频数
为各组段的对应值或组中值
例9.5(P159) 某地15人接种某疫苗后抗体滴度见 表9-3,求其平均滴度。
此15人接种某疫苗后抗体平均滴度为1:61。
(三)中位数和百分位数 中位数(median)是一组由小到大排列的观察值中
例9.12(P165):据调查某地100名健康女性血红蛋白值 近似正态分布,均数为117.4(g/L),标准差为10.2(g/L), 试估计该地健康女性血红蛋白的95%参考值范围。 该指标需用正态分布法计算95%双侧界值:
某地健康女性血红蛋白的95%医学参考值范围为 97.41~137.39g/L。
3、列表划记,列出频数表
(二)频数分布图 数值资料的频数分布图即直方图(histogram)。
(三)频数表和频数分布图的用途
1、描述频数分布的类型
频数分布有对称分布(也即正态分布)和偏 态分布之分,偏态分布又分正偏态分布和负偏态 分布。对称分布的资料若是单峰位于中间,左右 两侧逐渐降低,可称为近似正态分布。
(天)
此8例某病病人的平均住院天数是10天。
n较大时: 百分位数(percentile)即把观察值从小到大排
列,与第X百分位次对应的观察值。用 表示。
常用于描述一组偏态分布资料在某百分位置上 的水平及确定偏态分布资料L的医学正常值范围。
为 所在组段的下限

为 所在组段的频数
为小于 的各组段的累计频数
所在组段的组距
为中位数(累计频数为50%)所在组段的下限 为中位数所在组段的组距 为中位数所在组段的频数 为小于 的各组段的累计频数
例9.6(P160) 研究人员观察150例某型食物中毒,潜 伏期(天)资料如表9-4所示,试求中位数及第25、95百 分位数。
(天)
此150名某型食物中毒患者的平均潜伏期是23.14天。
适用范围:对称分布的资料,特别是正态或 近似正态分布的资料。
1、直接法
适用于小样本资料。(

都表示观察值 表示观察值的个数,即样本含量 表示求和
例9.2(P157) 7名正常成年女子血清总胆固 醇(mmol/L)分别为:4.21,3.32,5.35,4.17, 4.14,3.58,4.34。试计算其均数。
此7名正常成年女子血清总胆固醇的平均值为 4.16mmol/L。
2、频数表法 适用于大样本资料。
特点是将各组频数乘以相应组的组中值作为各组的 合计。
为组段数
为各组段的频数
为各组段的组中值
例9.3(P157) 对表9-2资料求其此120名8岁男孩的 平均身高。
“112~”组段的组中值为: 该120名8岁男孩的平均身高为123.18cm。
第二节 正态分布及其应用
一.正态分布的概念
正态分布(normal distribution)曲线是 一条高峰位于中央(均数所在处)、两侧逐渐降 低且左右对称、不与横轴相交的光滑曲线。这类 资料就称为正态分布资料。
二、正态分布的特点
(1)正态分布曲线(normal distribution curve)是高 峰位于中央、两侧逐渐降低且左右对称、两端不与横轴相 交的钟形曲线;
若已知t值,求其可能出现的概率,通常用P表示;若
此概率是人为确定来作界值的,则用 表示。所得t值记

形式。
例:双侧面积:
t的绝对值越大,对应的概率越小;t的绝对值越小, 对应的概率越大。
即当
时,

时,
同一自由度下,双侧概率等于2倍的单侧概率。 单侧面积: 双侧面积:
三、总体均数的估计
用样本指标(统计量,statistic)估计总体指标 (参数,parameter)称为参数估计。
适用范围:正态分布、对称分布资料的的离 散趋势描述。
直接法: 适用范围:小样本资料 以甲组为例
加权法: 适用范围:大样本资料
例9.8 计算例9.1(P156)中120名8岁男孩身高资料 的标准差。
(cm)
此120名8岁男孩身高的标准差是4.75cm。
P161改错
(四)变异系数
变异系数(coefficient of variation)即标准 差与均数之比,又称离散系数。用CV表示。
(一)点估计(point estimation) 例9.1:
某市某年调查了120名8岁男孩身高,其样本均数为 123.18cm,即估计该市8岁男孩身高的总体均数是 123.18cm。
点估计未考虑抽样误差影响,准确性差。
(二)区间估计(interval estimation)
即按一定的可信度估计未知总体均数所在范围,此 范围亦称可信区间(confidence interval,简记为CI)。 通常估计总体均数95%或99%的可信区间。
衡量均数抽样误差大小的指标是样本均数的标准差, 简称标准误(standard error),用 表示。
标准误大即抽样误差大 总体不变时是 一定值, 大则抽样误差小。 但此计算方法要求太高,实际工作中往往不能达到。实 际 工作中通常只能得到标准误的估计值 。
大则样本均数离散程度大,即抽样误 差大
例9.13(P166):
对这248名正常成年女子红细胞数的抽样研究,其标准误 是0.018。
标准误大即抽样误差大 总体不变时 是一定值, 大则抽样误差小。 但此计算方法要求太高,实际工作中往往不能达到。 实际工作中通常只能得到标准误的估计值 。
大则样本均数离散程度大,即抽样误差大
二、t分布(t—distribution)
该地8岁男孩身高在130cm以上者占该地8岁男孩总数的百 分比为7.21%。
该地8岁男孩身高在120—128cm之间者占该地8岁男孩总数 的百分比为58.65%。
三.正态分布的应用
1、正态分布是许多统计方法的理论基础
相关主题