当前位置：文档之家› 数值变量资料的统计分析.

数值变量资料的统计分析.

可信度即指估计的准确度，是我们预先给定的概率，符号为，常取95％或99％。
1、大样本（如n>100）数据总体均数的可信区间
移项后: 总体均数的95%可信区间：
缩写为：或：
例9.14(P167):
该地健康成年女性血红蛋白值总体均数有95％的可能落在117.48—120.12g/L之间。
2、小样本数据总体均数的可信区间
（一）极差（range）
极差又称全距，即一组观察值中最大值与最小值之差，用R表示。
适用范围：可用于所有资料的离散趋势描述，但较粗略。
（二）四分位数间距(quartile interval)
四分位数间距是上四分位数（即）与下四分位数（即）之差，其间包括了全部观察值中间的一半，用表示。
适用范围：可用于所有资料的离散趋势描述，但主要用于偏态分布资料。
例9.6(P160) 此150名某型食物中毒患者的四分位数间距是19.47天。
（三）方差和标准差
方差（variance）是每一观察值的离均差平方和的平均值。总体方差用表示，样本方差用表示。
标准差（standard deviation）即方差的平方根。总体标准差用表示，样本标准差用表示。
第三节参数估计和假设检验
一.均数的抽样误差与标准误
抽样研究的目的总是通过对样本的观察，用样本的水平推断其总体的水平。
由抽样而造成的样本指标与总体指标的差异，或各样本指标之间的差异，就称为抽样误差 ( sampling error)。
抽样研究时，抽样误差是不可避免的，只能估计其大小。
（2）均数对应的位置曲线最高，且以均数为中心左右对
称；
（3）正态分布曲线的位置和形状取决于两个参数
(parameter)，即均数和标准差，常用
表示
正态分布。例某地8岁男孩的身高分布为
（4）正态曲线下的面积分布有一定的规律
正态曲线下面积的分布规律:
曲线下横轴上的总面积为100%或1
区间（
，）的面积占总面积的68.27%
（二）几何均数(geometric mean)
几何均数即将各观察单位取对数后再求均数，用G表示。
适用范围：常用于原始资料呈倍数关系或近似倍数关系的偏态分布资料。
以上公式适用于观察值个数较少的资料。例9．4(P158) 5人的血清滴度为1﹕4，1﹕8， 1﹕16，1﹕32，1﹕64，求其平均滴度。
（一）频数表的编制 1、求最大值、最小值、全距
全距又称极差range，常用R表示。 R=最大值-最小值=134.5-112.3=22.2（cm下限，最大值称上限。第一组的下限应小于最小值，最后一组的上限应大于最大值。
相邻两组段的下限之差称组距（class interval），常用 i 表示。
当实际工作中用估计时 t分布了。
，其
的分布就变为
t分布的特征：
（1）以0为中心的对称分布
（2）t分布是一簇曲线，其形态变化与自由度（）大小
有关。当
时，t分布与标准正态分布重合。
t分布的自由度越分散，曲线越低平。
。越小，越大，t值
t分布曲线下的面积是不断变化的，故t值需确定自由度（ )和所求的曲线下面积（P）后，才能得到相应的t 值。将不同和P值对应的t值算出，列成表格即得到t界值表（附表2，P227）。
区间（
，
）的面积占总面积的95%
区间（
，
）的面积占总面积的99%
采用
的变量变换，可将原来的正态分
布变换为均数为0，标准差为1的标准正态分布
（standard normal distribution），亦称分
布，可用
表示。
标准正态分布曲线下对应的面积可查附表1(P226)。例：
例9.11(P164)：
该5人的平均滴度为1:16。
当观察值较多或频数表资料时，需用以下公式计算。
为组段数
为各组段的频数
为各组段的对应值或组中值
例9．5(P159) 某地15人接种某疫苗后抗体滴度见表9-3，求其平均滴度。
此15人接种某疫苗后抗体平均滴度为1:61。
(三)中位数和百分位数中位数（median）是一组由小到大排列的观察值中
例9.12(P165):据调查某地100名健康女性血红蛋白值近似正态分布，均数为117.4(g/L)，标准差为10.2(g/L)，试估计该地健康女性血红蛋白的95％参考值范围。该指标需用正态分布法计算95％双侧界值：
某地健康女性血红蛋白的95%医学参考值范围为 97.41～137.39g/L。
3、列表划记，列出频数表
（二）频数分布图数值资料的频数分布图即直方图(histogram)。
（三）频数表和频数分布图的用途
1、描述频数分布的类型
频数分布有对称分布（也即正态分布）和偏态分布之分，偏态分布又分正偏态分布和负偏态分布。对称分布的资料若是单峰位于中间，左右两侧逐渐降低，可称为近似正态分布。
（天）
此8例某病病人的平均住院天数是10天。
n较大时：百分位数（percentile）即把观察值从小到大排
列，与第X百分位次对应的观察值。用表示。
常用于描述一组偏态分布资料在某百分位置上的水平及确定偏态分布资料L的医学正常值范围。
为所在组段的下限
为
为所在组段的频数
为小于的各组段的累计频数
所在组段的组距
为中位数（累计频数为50%）所在组段的下限为中位数所在组段的组距为中位数所在组段的频数为小于的各组段的累计频数
例9.6(P160) 研究人员观察150例某型食物中毒，潜伏期（天）资料如表9-4所示，试求中位数及第25、95百分位数。
（天）
此150名某型食物中毒患者的平均潜伏期是23.14天。
适用范围：对称分布的资料，特别是正态或近似正态分布的资料。
1、直接法
适用于小样本资料。（
）
都表示观察值表示观察值的个数，即样本含量表示求和
例9．2(P157) 7名正常成年女子血清总胆固醇(mmol/L)分别为：4.21，3.32，5.35，4.17， 4.14，3.58，4.34。试计算其均数。
此7名正常成年女子血清总胆固醇的平均值为 4.16mmol/L。
2、频数表法适用于大样本资料。
特点是将各组频数乘以相应组的组中值作为各组的合计。
为组段数
为各组段的频数
为各组段的组中值
例9.3(P157) 对表9－2资料求其此120名8岁男孩的平均身高。
“112～”组段的组中值为：该120名8岁男孩的平均身高为123.18cm。
第二节正态分布及其应用
一.正态分布的概念
正态分布（normal distribution）曲线是一条高峰位于中央（均数所在处）、两侧逐渐降低且左右对称、不与横轴相交的光滑曲线。这类资料就称为正态分布资料。
二、正态分布的特点
（1）正态分布曲线(normal distribution curve)是高峰位于中央、两侧逐渐降低且左右对称、两端不与横轴相交的钟形曲线；
若已知t值，求其可能出现的概率，通常用P表示；若
此概率是人为确定来作界值的，则用表示。所得t值记
作
形式。
例：双侧面积：
t的绝对值越大，对应的概率越小；t的绝对值越小，对应的概率越大。
即当
时，
当
时，
同一自由度下，双侧概率等于2倍的单侧概率。单侧面积：双侧面积：
三、总体均数的估计
用样本指标（统计量，statistic）估计总体指标（参数，parameter）称为参数估计。
适用范围：正态分布、对称分布资料的的离散趋势描述。
直接法：适用范围：小样本资料以甲组为例
加权法：适用范围：大样本资料
例9.8 计算例9.1(P156)中120名8岁男孩身高资料的标准差。
（cm）
此120名8岁男孩身高的标准差是4.75cm。
P161改错
（四）变异系数
变异系数（coefficient of variation）即标准差与均数之比，又称离散系数。用ＣＶ表示。
(一)点估计（point estimation）例9.1：
某市某年调查了120名8岁男孩身高，其样本均数为 123.18cm，即估计该市8岁男孩身高的总体均数是 123.18cm。
点估计未考虑抽样误差影响，准确性差。
(二)区间估计（interval estimation）
即按一定的可信度估计未知总体均数所在范围，此范围亦称可信区间(confidence interval，简记为CI)。通常估计总体均数95％或99％的可信区间。
衡量均数抽样误差大小的指标是样本均数的标准差，简称标准误（standard error），用表示。
标准误大即抽样误差大总体不变时是一定值，大则抽样误差小。但此计算方法要求太高，实际工作中往往不能达到。实际工作中通常只能得到标准误的估计值。
大则样本均数离散程度大，即抽样误差大
例9.13(P166)：
对这248名正常成年女子红细胞数的抽样研究，其标准误是0.018。
标准误大即抽样误差大总体不变时是一定值，大则抽样误差小。但此计算方法要求太高，实际工作中往往不能达到。实际工作中通常只能得到标准误的估计值。
大则样本均数离散程度大，即抽样误差大
二、t分布（t—distribution）
该地8岁男孩身高在130cm以上者占该地8岁男孩总数的百分比为7.21％。
该地8岁男孩身高在120—128cm之间者占该地8岁男孩总数的百分比为58.65％。
三.正态分布的应用
1、正态分布是许多统计方法的理论基础

e商务文档

数值变量资料的统计分析.

相关文档推荐：