当前位置:文档之家› 第四章 数据特征与统计描述

第四章 数据特征与统计描述

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 第四章数据特征与统计描述第四章数据特征与统计描述1/ 105本章结构? ???第一节第二节第三节第四节频数分布表与频数分布图计量资料的常用统计指标计数资料的常用统计指标统计图表---------------------------------------------------------------最新资料推荐------------------------------------------------------ 第一节频数分布表与频数分布图3/ 105一、频数分布表 (frequency table)用途:用于描述资料的分布特征频数:在一批样本中,相同情形出现的次数称为该情形的频数。

资料类型计数和等级计量组段观察结果的所有分类根据观察结果重新划分频数相同类别出现的次数分组统计P44 表4-1,4-2,4-3---------------------------------------------------------------最新资料推荐------------------------------------------------------ 表4-3 某地150名正常成年男子红细胞数(1012/L)编号红细胞数12 3 4 5 6 73.984.54 4.74 5.13 4.43 4.81 4.98编号… 143 144 145 146 147 148红细胞数… 4.67 5.40 5.29 4.77 5.38 5.158 …3.79 …1491504.645.195/ 1051. 频数表的编制步骤(1)求极差(range):即最大值与最小值之差,又称为全距。

本例极差: R=5.88-3.79=2.09(1012/L)(2)决定组数、组段和组距:根据研究目的和样本含量n确定。

组距=极差/组数,通常分10-15 个组,为方便计,组距参考极差的十分之一, 再略加调整。

本例i= R /10=2.09/10=0.209≈0.2。

---------------------------------------------------------------最新资料推荐------------------------------------------------------ (3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。

(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。

7/ 105组段(1)3.7~频数,f (2)1组中值,X (3)3.8fX (4)= (2)×(3)3.83.9~4.1~ 4.3~411 174.04.2 4.416.046.2 74.84.5~4.7~ 4.9~ 5.1~ 5.3~ 5.5~ 5.7~5.9 合计2632 26 18 10 4 1 1504.64.8 5.0 5.2 5.4 5.6 5.8119.6153.6 130.0 93.6 54.0 22.4 5.8 719.8---------------------------------------------------------------最新资料推荐------------------------------------------------------ 三、频数分布图P479/ 105二、频数表和频数分布图用途1.描述频数分布的类型* (1)对称分布:若各组段频数的分布以频数最多的组段为中心左右两侧大体对称(总体则完全对称),就认为该资料是对称分布 (图4-2) (2)偏态分布:---------------------------------------------------------------最新资料推荐------------------------------------------------------ ?右偏态分布(正偏态分布):频数最多组段右侧的组段数多于左侧的组段数,高峰向左偏移,频数向右侧拖尾。

表4- 115名正常成年女子血清转氨酶(mmol/L)含量分布人 2 9 14 23 19 14 11 9 7 4 3 数转氨酶含量 12~ 15~ 18~ 21~ 24~27~ 30~ 33~ 36~ 39~ 42~4511/ 105252015人数105013.519.525.531.537.543.5.血清转氨酶(mmol/L)图2-2 115名正常成年女子血清转氨酶的频数分布---------------------------------------------------------------最新资料推荐------------------------------------------------------ ?左偏态分布(负偏态分布):左侧的组段数多于右侧的组段数,频数向左侧拖尾。

表4- 101名正常人的血清肌红蛋白( ?g/mL )含量分布肌红蛋白含量 0~ 5~ 10~ 15~ 20~ 25~ 30~ 35~ 40~ 45~50 人 2 3 7 9 10 22 23 14 9 2 数13/ 10525 20人数15 10 5 0 2.5 12.5 22.5 32.5 42.5 52.5 血清肌红蛋白(μ g / m L)图 2-3 101 名正常人血清肌红蛋白的频数分布---------------------------------------------------------------最新资料推荐------------------------------------------------------ 2. 描述计量资料分布的集中趋势和离散趋势①集中趋势(central tendency):变量值集中位置。

本例在组段“4.7~”。

——平均水平指标②离散趋势(tendency of dispersion):变量值围绕集中位置的分布情况。

离“中心”位置越远,频数越小;且围绕“中心”左右对称。

——变异水平指标15/ 1053.便于发现一些特大或特小的可疑值*组段 (1) 2.30~ 2.60~2.90~ 3.20~ 3.50~ 3.80~ 4.10~ 4.40~ 4.70~ 5.00~5.30~ 5.60~5.90 合计频数 f (2) 1 0 0 0 17 20 17 12 9 0 0 8 101---------------------------------------------------------------最新资料推荐------------------------------------------------------ 4.便于进一步做统计分析和处理17/ 105第二节计量资料的常用统计指标? ?描述集中趋势的特征数描述离散趋势的特征数---------------------------------------------------------------最新资料推荐------------------------------------------------------ 计量资料(定量资料、数值变量资料)总体:有限或无限个(定量)变量值样本:从总体随机抽取的n个变量值:X1,X2,X3,……,Xnn为样本例数(样本大小、样本含量)19/ 105一、描述集中趋势的特征数(平均指标)总称为平均数(average)反映了资料的集中趋势( central tendency )。

常用的有: 1. 算术均数(arithmetic mean),简称均数 (mean) 2. 几何均数(geometric mean) 3. 中位数 (median)---------------------------------------------------------------最新资料推荐------------------------------------------------------ 1. 均数(mean)符号:总体 ? 样本 X 适用条件:资料呈对称分布,尤其是正态或近似正态。

计算: X 1 ? X 2 ? ? ? X n ?X 例4-2 (1)直接法 X ? ? (2)频数表法 f1 X 1 ? f 2 X 2 ? f3 X 3 ? ? ? f k X k ?fX i X? ? f1 ?f 2 ? f3 ? ? ? f k ?fiΣ为求和符号,读成sigma,k, X , f 意义“权数” 例4-nn21/ 105p49,例4-3:均数=719.8/150=4.8---------------------------------------------------------------最新资料推荐------------------------------------------------------ 2. 几何均数(geometric mean)X G ? n X1 X 2 ? X n 1 ? lg X lg X G ? (lg X 1 ? lg X 2 ? ? ? lg X n ) ? n n lg X ?1 ? 几何均数:变量 X G ? lg n 对数值的算术均 lg 表示以10为底的对数;数的反对数。

lg 表示以10为底的反对数 X ? 0,为正值?123/ 105几何均数的适用条件与实例适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料例血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。

? lg 101 ? lg 102 ? lg 103 ? lg 104 ? lg 105 ? ? ? 1000 G ? lg ?1 ? ? ? 5 ? ? 此例的算术均数为22222,显然不能代表滴度的平均水平。

同一资料,几何均数<均数---------------------------------------------------------------最新资料推荐------------------------------------------------------G ? lg?1频数表资料的几何均数 ? ? f lg X ? ? f lg X ? f lg X ? ? ?f ? ? ? lg ? ? ?f ? ? ?f ? ? ?i i ?1 1 1 2 2 i inlg X n ? ? ? ?f· lgX⑸ 0.6021 4.5155 7.2246 3.0102 ┇ 13.5465 72.2471抗体滴度⑴ 1:4 1:8 1:16 1:32 ┇ 1:512 合计人数,f ⑵ 1 5 6 2 ┇ 5 72lgX 滴度倒数,X ⑶ ⑷ 4 0.6021 8 0.9031 16 1.2041 32 1.5051 p51,例4-5:几何┇ ┇ 512 2.7093 均数=反对数(72.2471/40)= 64.0025/ 1053. 中位数(median)意义:中位数是将一批数据从小至大排列后位次居中的数据值,反映一批观察值在位次上的平均水平。

相关主题