第四章数据特征与统计描述练习题一、最佳选择题1. 编制频数表时,分组数目一般取()。
A. 5~10组B. 8~15组C. 10~30组D. 15~20组E. 越多越好2. 描述一组正态分布资料的离散程度,以()指标较好。
A. 极差B. 离均差C. 标准差D. 离均差平方和E. 变异系数3. 描述一组正态分布资料的集中程度,以()指标较好。
A. 算术均数B. 几何均数C. 中位数D. 四分位数E. 百分位数4. 对成倍增长的计量资料描绘其集中趋势,宜用()。
A. 算术均数B. 几何均数C.中位数D.方差E.百分位数5. 若比较身高、身体质量资料的变异度,宜用()。
A. 标准差B. 离均差C. 四分位数间距D. 变异系数E. 极差6. 调查某地中学生的近视情况,若描述近视学生的年龄分布可用A. 普通线图B.直方图C.半对数线图D.圆图E.条图7. 比较某地区解放以来三种病的发病率在各年度的发展速度,宜绘制()。
A. 普通线图B.百分条图C.半对数线图D.圆图E. 条图8. 欲表示某地区2003年SARS病人的职业构成,可绘制()。
A. 单式条图B.圆图C. 直方图D.线图E. 散点图二、问答题1.统计描述主要从哪几个方面发现和描述数据特征?2.频数表的主要用途有哪些?3.算术均数、几何均数和中位数各有什么适用条件?4.标准差有何用途?5.变异系数与标准差有何异同?6.应用相对数应注意些什么?7.简述统计表的主要结构。
8.简述统计图的主要结构。
三、计算题1.某市110名健康女大学生血清总蛋白(g/L)测量资料如下:110名健康女大学生血清总蛋白含量(g/L)73.5 73.5 71.2 67.9 80.5 80.5 70.8 78.0 68.8 78.8 74.6 74.373.5 73.5 79.5 70.4 76.5 72.7 77.2 84.4 75.0 76.5 70.4 72.870.5 70.5 75.6 75.0 78.8 72.0 74.3 71.2 72.0 73.0 71.8 74.068.0 68.0 69.7 71.2 74.3 65.0 75.8 74.3 78.8 73.5 75.0 76.373.5 73.5 73.5 74.3 69.7 80.3 75.8 64.5 72.0 75.0 73.5 74.368.0 68.0 70.4 75.0 81.2 71.2 70.4 76.5 68.9 75.8 76.8 73.274.3 74.3 75.0 72.0 67.3 77.6 76.5 74.3 76.5 74.3 76.5 72.074.0 74.0 72.7 72.7 75.4 82.6 76.5 65.0 74.7 73.5 79.5 73.572.7 72.7 67.3 67.3 67.3 68.8 77.2 70.4 72.7 76.5 67.2 74.574.3 74.3 70.3 82.6 72.7 73.5 73.5 72.7 75.0 73.5 76.8 72.7(1)编制频数分布表并绘制直方图,简述其分布特征。
(2)计算均数与中位数。
(3)计算标准差和变异系数。
2.某防疫站对30名麻疹易感儿童经气溶胶免疫一个月后,测得其血凝抑制抗体滴度资料如下,试计算其平均滴度。
抗体滴度1:8 1:16 1:32 1:64 1:128 1:256 1:512 合计例数 2 6 5 10 4 2 1 30 3.50例链球菌咽峡炎患者的潜伏期如下,试计算均数、中位数、几何均数,并说明何者的代表性较好。
潜伏期(小时)12~ 24~ 36~ 48~ 60~ 72~ 84~ 96~ 108~120 合计病例数 1 7 11 11 7 5 4 2 2 50 4.分别将下表资料中两种疾病发病率的历年变动情况绘制成普通线图和半对数线图,并说明两种图形的不同意义。
某单位1990-1998年普通感冒与支气管炎发病率(‰)年份感冒支气管炎1990 126.27 6.371991 92.19 6.371992 107.59 5.901993 101.93 5.691994 92.60 5.491995 73.20 4.321996 51.40 3.041997 42.39 2.421998 33.92 2.27 5.将以下列表资料绘成合适的图形。
1998年不同地区艾滋病流行情况地区成人受感染率/%北非及中东0.13西欧0.25北美洲0.56拉丁美洲0.57南亚及东南亚0.69某年某地性病传播途径分布情况传播途径病例数构成比/%非婚性接触413303 72.1配偶接触103064 18.0其它传播57174 9.9练习题答案一、最佳选择题解答1.B2.C3.A4.B5.D6.B7.C8.B二、问答题解答1.答:统计描述可以从样本含量n,集中趋势(算术均数、几何均数、中位数),离散趋势(极差、四分位数间距、方差和标准差)以及通过绘制统计图,编制统计表来发现和描述数据特征。
2.答:频数分布表的用途是(1)描述频数分布的类型;(2)描述频数分布的特征;(3)便于发现一些特大或特小的可疑值;(4)便于进一步做统计分析和处理。
3.答:算术均数主要适合描述对称分布资料的集中位置;几何均数适合描述当资料呈倍数关系或对数正态分布时的集中趋势;当大部分观测值比较集中,少数观测值偏向一侧时,或资料分布情况不清楚时,或数据的最大值(最小值)无准确测量数据时,宜用中位数来表示其平均水平。
4.答:标准差的用途归纳起来有:(1)表示变量分布的离散程度。
两组资料(总体或样本)均数相近,度量单位相同的条件下,标准差较大,说明变量值的变异度较大,即各变量值较分散(较远离均数),因而均数的代表性较差;反之标准差较小,说明变异度较小,即各变量值较集中在均数周围,因x 来反映均数代表性而均数对各变量值的代表性较好,在用数字作统计描述时常用符号s的好坏。
(2)可用来计算变异系数。
当两组资料单位不同,或单位相同,均数相差较大时,不能直接用标准差比较它们的变异程度,须用变异系数进行比较。
(3)结合均数描述正态分布的特征,并利用正态曲线下面积分布规律,来计算医学上各种生化、生理的参考值范围。
(4)在单纯随机抽样调查中,是计量资料估计样本大小的不可缺的重要依据之一。
(5)可用来计算抽样误差的大小。
5.答:变异系数与标准差都可反映数据的变异度大小,但标准差是一组同质数据间变异度大小的量度指标,它带有单位,因而不同单位的数据间的变异度大小不可用标准差作比较,而标准误是一种不带单位的反映变异度大小的相对数值,因而它可对不同单位数据间的变异度大小作比较。
可以说,标准差是反映数据内部变异度大小的指标,变异系数是用来比较不同单位数据间变异度大小的一个指标,所以在应用时要注意它们的区别。
6.答:应用相对数时应注意以下几个方面:①应用相对数对比分析时,要考虑资料是否具有可比性。
所谓可比性,通常是指两个指标的同质范围,内容、时间、条件和方法等方面的齐同性,一般要求除了被研究的因素之外,其余可能影响指标的重要因素应控制在齐同的条件下。
如一般发病率的计算,分母是某地区的平均人口数,这个数值基本上是稳定的,而分子是发病人数,它与时间的长短有着密切关系,观察时间越长,发病的例数就积累增多。
一年的发病例数就是各月发病累积的总和,因此年发病率的水平就高于月发病率。
所以计算这类相对数时,必须具体说明时期。
不同时间长短的发病率就不能互相比较。
②计算相对数时,分母不宜过小。
一般来说观察单位足够多时,计算的相对数比较稳定,能够正确反映实际情况,例如用某药治疗4个病例有3个痊愈,按此得治愈率75%的结论就不合适。
又如某病只有2个病例,死去1例,就此说病死率是50%,是不切实际的,在例数少是,还是以绝对数表示较好。
③对观察单位数不等的几个率,不能直接相加求其平均。
由于原来计算各个率的分母和分子的绝对数值大小不同,因而它们在总体中所占的比重不同,因此要以总的绝对数值为依据来计算平均率(或总率)。
例如,某医院四个科室的病死率(%)分别为6.43,2.03, 0.12, 3.79则这四个科室的平均率应为四个科室的病人总数除四个科室的病人死亡人数。
而不能将(6.43+2.03+0.12+3.79)/4=3.09%,这样计算出的平均病死率是错误的。
④分析时不能以结构相对数的构成比代替强度相对数的率。
率说明事物发生的频率,构成比说明某部分占总体的比重。
彼此计算不同、性质不同,说明的问题也不同,不能互相混淆,否则将导致错误的结论。
⑤样本率之间的比较由于存在着抽样误差,一定要作假设检验。
7.答:统计表的主要结构有:(1)标题表的标题应位于表的上方,不可过于简略,也不能过于烦琐,要用一句精练的语言表明主要内容,必要时注明资料的时间和地点。
(2)标目有横标目、纵标目及总标目之分。
横标目位于表的左侧,纵标目位于表的上端,必要时,纵标目可以冠以总标目。
(3)线条统计表中的线条应尽量减少,最基本的线有三条,即顶线、底线和纵标目与表体之间的分隔线。
如需合计,各组数字与“合计”数字之间也要有分隔线。
(4)数字表内一律采用阿拉伯数字。
同一指标小数位要一致,当数字暂缺或无数字时,可用“…”和“—”表示。
8.答:统计图的主要结构有:(1)标题统计图都应有标题,其要求与统计表的标题一致。
(2)图域除圆图外,图域通常是个矩形,其长宽之比一般要求为7 : 5或5 : 7,此图形较美观。
(3)标目统计图的纵横两轴应有标目,即纵标目和横标目。
(4)尺度纵轴尺度自下而上,横轴尺度自左而右,一律由小到大,同时刻度要适中,不要过松或过密。
(5)图例表示两种或几种事物时,要用图例说明。
三、计算题解答1.解:⑴编制频数分布表a. 找出全距:R=84.4-64.5=19.9 (g/L)b. 确定组距:取全距19.9的十分之一为1.9,略加调整,取为2(g/L)作为本例的组距。
c. 确定组限:本例最小变量值为64.5(g/L),组距定为2(g/L),则第一组的下限可取成64.0(g/L),最后一组的下限为84.0,上限为86.0,共分成11组。
d. 列表数出频数,列出频数分布表。
组段⑴频数, f⑵累积频数,Σf⑶组中值, X0⑷fX0⑸=⑵×⑷fX02⑹=⑷×⑸64.0~ 3 3 65.0 195 12675 66.0~ 6 9 67.0 402 26934 68.0~7 16 69.0 483 33327 70.0~13 29 71.0 923 65533 72.0~27 56 73.0 1971 143883 74.0~27 83 75.0 2025 151875 76.0~14 97 77.0 1078 83006 78.0~ 6 103 79.0 474 3744680.0~ 4 107 81.0 324 26244 82.0~ 2 109 83.0 166 13778 84.0~86.0 1 110 85.0 85 7225 合计110——8126601926由频数表绘出直方图:110名女大学生血清总蛋白含量的频数分布从直方图中清楚的看到,数据分布呈单峰、具有对称性,可视为正态分布的资料。