当前位置：文档之家› 描述性统计

描述性统计

描述性统计第一章描述性统计统计分析：包括统计描述和统计推断。

步骤：数据------ 描述性统计----- 统计推断data statistical description statistical inference统计描述：主要是描述样本的特征。

统计推断：参数估计，假设检验。

第一节变量与数据一、变量的类型：1. 连续型变量（计量资料）：取值范围为实数轴上的一个连续区间。

如：身高体重脉搏血细胞计数计量资料(measurement data) : 连续型变量的观察值构成的资料。

2. 离散型变量（计数资料）只能在孤立的几个数中取值的变量。

如: 二值变量(binary variable)。

也称为类别变量(categorical variable) 或名义变量(nominal variable)。

如: 性别--- 男、女职业--- 工、农、商、学、兵计数资料(count data) : 离散型变量的频数资料。

3. 有序变量（等级资料）如: 疗效--- 无效、有效、显效、痊愈等级资料(ranked data)：有序变量的频数资料。

二、数据的结构和特点：1. 基本观察单位：是按研究需要确定的采集数据的基本单位。

观察对象本身可以是一个基本观察单位，也可以同时具有若干个基本观察单位。

2. 记录项目：用于统计分析的记录项目通常由分组因素、反应变量和协变量三部分组成。

表1.1 100名高血压患者治疗后的临床记录患者编号年龄(岁) 性别治疗分组收缩压(kP a) 舒张压(kP a)心电图疗效判定1 37 男A药18.67 11.47 正常显效2 45 女对照20.00 12.53 正常有效……………………100 54 女B药16.80 11.73 正常有效第二节频数表与直方图统计描述包括：图表描述和指标描述。

频数表 (frequency table)与直方图 (histogram)：形象直观描述。

1.频数表：离散型频数表：表1.2 108名病人中性别频数表类别频数频率(%) 累积频数累积频率(%)女 45 41.7 45 41.7男 63 58.3 108 100.0合计 108 100.0表1.3 108名病人中职业频数表类别频数频率(%) 累积频数累积频率(%)工 28 25.9 28 25.9农 23 21.3 51 47.2商 24 22.2 75 69.4学 18 16.7 93 86.1兵 15 13.9 108 100.0合计108 100.0连续型频数表：制作频数表的一般方法：例1.3某地随机抽取正常成年男子120名, 其红细胞计数值(1012/L)如下:5.12 5.13 4.58 4.31 4.09 4.41 4.33 4.58 4.24 5.45 4.32 4.844.915.14 5.25 4.89 4.79 4.90 5.09 4.04 5.14 5.46 4.66 4.20……4.70 4.28 4.375.33 4.78 4.75 5.39 5.27 4.896.18 4.13 5.22……4.83 4.11 3.29 4.18 4.13 4.06 3.42 4.68 4.525.19 3.70 5.51……试作该批样本的频数表。

(1) 求极差R：R=6.18－3.29=2.89(2) 确定组距i：通常分8-15个组，为方便计，取参考极差的十分之一, 再略加调整。

i= R /10=2.89/10=0.289≈0.30(3) 列出组段：第一组包括最小值，最后一个组段必须封口，并且包含最大值。

(4) 划记归组获得频数。

2. 直方图：离散型频数图—直条图对离散型变量, 可在横轴上等距离标出属性的各个类别或各类别所对应的变量值; 在横轴的相应位置上绘制垂直线段, 其高度反映各类别的频数(图1.1, 图1.2)。

连续型频数图—直方图102030405060700 1x1234551015202530y性别图 1.1 108名病人性别频数图 x ：性别，0：女，1：男职业图 1.2 108名病人职业频数图 y :职业,1:工,2:农,3:商,4:学,5:兵频数频数对连续型变量, 可在横轴上等距离标出各组段的起始点, 在各组段上分别绘制长方形, 本例为等组距分组, 长方形高度等于频数, 如图1.3a 所示, 即令长方形的高度等于频数。

第三节样本平均水平的度量5101520253.20 3.804.405.00 5.606.200.10.20.30.40.50.60.7 3.20 3.80 4.40 5.00 5.60 6.20（a ）频数直方图（b ）频率密度直方图图1.3 据120名正常成年男子红细胞计数（1012/L ）的频数表绘制频数频率密度红细胞记数红细胞记数数字描述，对连续型变量我们常着重描述两个特征：平均水平和变异性。

根据不同的分布规律可选取不同的指标来描述一组变异值的平均水平。

现介绍三种常用的指标。

1. 算术均数(arithmetic mean)适用情形：当样本值的频数直方图接近对称时, 能较好地代表其平均水平的指标是算术均数，简称均数 (mean, average)，它是样本观察值的总和除以个体值数目。

（1）直接法：记各个体的观察值为n x x x ,,,21 ，算术均数为x , 则nx n x x x x ni i n∑==+++=121...（2）频数表法：当不掌握原始数据而只有频数表时, 可利用频数表来近似计算算术均数，称为频数表法。

通常取各组段的组中值作为该段的代表值。

用数学公式可表示为： i n i i i n i i x n f nx f x ∑=∑=⎪⎭⎫⎝⎛==11利用频数表计算的样本均数等于组中值的加权平均，权重系数为频数。

2. 几何均数(geometric mean)：是将n 个观察值X 的乘积再开n 次方所得的根。

若对各观察值X 取对数，对数值均值的反对数即为G 。

适用情形：如果原始变量经对数转换后近似对称分布，适用几何均数。

常用于微生物学和免疫学指标。

一般地, 设样本中几个个体值均大于零, 记为n x x x ,,,21 , 几何均数记为g x , 则：g x ⎪⎭⎫ ⎝⎛+++=-n x x x n log ...log log log 211或n n g x x x x 21=几何均数的计算可参考算术均数的计算，唯一不同的是需要在计算前将变量取对数，最后将结果转换回其真值。

3. 中位数 (median)：已知原始数据，由小到大排序，n x x x ,,,21 ，设某观察值，有50%的观察值小于它，有50%的观察值大于它，称该观察值为中位数。

适用情形：数据分布非对称的情形，开口资料。

例：1，1，2，2，3，4，6，9，10 ( n = 9, 为奇数) M d = 第5位 = 3一般， M d = 第 [ n (.50%)05 ]位例： 1 , 1 , 2 , 2 , 3 , 4 , 6 , 9 , 10 , 13( n=10, 为偶数) M d = 第5位和第6位的平均 = (3+4)/2 一般， M d =第 n (50%) 位和其后一位的平均第四节样本变异性的度量例：三组同年龄﹑同性别儿童体重（kg ）数据如下：甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34平均数仅描述了一组数据的集中趋势，由于变异的客观存在，需要一类指标描述资料的离散趋势。

两者结合使用才能对数据进行全面的统计学描述。

常用的指标：极差或全距，四分位数间距，方差与标准差，变异系数1. 极差或全距R：极差= 最大值－最小值2. 四分位数间距Q：Q = 75% 分位数－25% 分位数3. 方差与标准差：充分利用全部个体的信息。

离均差= 个体值－总体均数= μx-i离均差之和＝0 ∑( 离均差)2σ=∑ ( 离均差 )2的平均总体方差2总体标准差σ总体均数常不知道，用样本均数x代替μ离均差 = 个体值－样本均数 = x x i -( 离均差 )2 = 22221)()()(x x x x x x n -++-+- (变小了!)样本方差：1)(1)(1)(1)()()(2212222212--=--=--=--++-+-=∑∑∑=n x x n x x n x x n x x x x x x s ii n i i n(让分母也变小)其中，n-1 称为自由度。

样本标准差s ： 1)(2--=∑n x x s计算公式 : 1/)(22--=∑∑n nx x s iii i4. 变异系数 (coefficient of variation , CV )CV xs=例 : 均数标准差变异系数青年男子身高 170 cm 6 cm 0.035 体重 60 kg 7 kg 0.117第五节相对数与率的标准化一、比、频率和强度：1. 比 (ratio) ：任两个量之比值。

例: 新生儿性别比 = 男性新生儿数／女性新生儿数体块指数 = 体重／ ( 身高 )22. 频率 (frquency) ：是一种特定形式的比, 分子和分母都是计数值, 而分子又是分母的一部份。

对于一份随机样本，当分母适当大时, 频率近似地描述某事件在总体中发生的机会。

例如, 医治100例病人, 90例痊愈, 则%9010090===治疗人数治愈人数治愈率频率没有量纲, 可表示为[0,1]区间上的百分比或小数。

3. 强度(intensity)：是另一种特殊类型的比，分母是一定时期内总的观察人-年，分子是该时期内某事件的发生数。

例如, 某年死亡率 (mortality rate)的定义为：的人年数该年内暴露于死亡危险该年内死亡人数某年死亡率=分子的量纲为“人”, 分母的量纲为“人⨯年”, 死亡率的量纲为“人/（人⨯年）”或“1/年”。

如果分子看作是“校正的总人数⨯1年”，则死亡率可以看作是一年内校正的死亡频率。

一般来说，强度可以理解为“单位时间内的频率”，它反映单位时间内某事件发生的机会。

因为不同性质的相对数所适用的统计方法有所不同，如欲就某个相对数通过样本推断总体, 则需认清该相对数究竟属于哪一种类型：只是一个简单的比，还是反映机会大小的频率, 还是既反映机会又有时间量纲的强度。

二、标准化方法：某病两种疗法治愈率的比较病情甲疗法乙疗法病人数构成比治愈数治愈率(%) 病人数构成比治愈数治愈率(%)轻40 0.40 36 90.0 60 0.60 54 90.0 重60 0.60 42 70.0 40 0.40 28 70.0 合计100 1.00 78 78.0 100 1.00 82 82.0 上表甲乙疗效比较，何者治愈率高？病情甲疗法乙疗法病人数治愈率预期治愈数病人数治愈率预期治愈数轻50 90.0 45 50 90.0 45重50 70.0 35 50 70.0 35合计100 80 100 80假设甲乙病情相同，病情构成相同时，合计治愈率相同为了得出相互对比的正确结论，一是病情轻重之间相互比较，二是对两疗法病情轻重人数构成进行标准化处理。

e商务文档

描述性统计

相关文档推荐：