统计学基本概念和步骤一、统计学中的几个基本概念
总体根据研究目的确定的、同质的全部研究对象(严格地讲,是某项观察值的集合)如研究2008年中国60岁以上的老人血清总胆固醇含量,测定值的全部构成了一个总体
样本随机化的原则从总体中抽出的有代表性的观察单位组成的子集称作样本,如DM患者中随机抽取有代表性一组患者构成样本
抽样误
差
由于随机抽样所造成的某变量值的统计量和总体参数之间存在的差异
变量数值变
量
变量值是定量的,表现为数值大小的变化,有度量衡单位。
(计量
资料)如:身高(cm)、体重(kg)
分类变
量
变量值是定性的,表现为互不相容的类别或属性。
(计数资料)
如:性别分男女两类
有序数
据
半定量数据或等级资料,临床疗效可分为治愈、显效、好转、无效
四级,尿糖(-、+、++、+++)
概率描述随机事件(如发病)发生可能性大小的度量为概率,常用P表示。
在0和1之间,P≤0.05的随机事件,通常称作小概率事件,即事件发生的可能性很小
同质和变异同质除了实验因素外,影响被研究指标的非实验因素相同变异是在同质的基础上被观察个体之间的差异
参数和统计
量
总体的统计指标称为参数,样本的统计指标称为统计量统计设计统计工作最关键的一步,整个研究工作的基础
数据整理对数据质量进行的检查,考虑数据分布及变量转换,检查异常值和数据是否符合特定的统计分析方法要求等
统计描述描述及总结一组数据的重要特征,其目的是使实验或观察得到的数据表达清楚并便于分析
统计推断由样本数据的特征推断总体特征的方法
A.等级资料
B.计数资料
C.计量资料
D.分别变量
E.参数因素
在统计学中,数值变量构成
在统计学中,分类变量构成
在统计学中,有序数据构成
『正确答案』C;B;A
下列不属于计量资料的是
A.体重(kg)
B.血型(A、B、O、AB型)
C.身高(cm)
D.每天吸烟量(1-5支)
E.白细胞(个/L)
『正确答案』B
定量资料的统计描述
(一)考什么?
(1)集中趋势指标
(2)离散趋势指标
(3)正态分布的特点与面积分布规律
(二)最重点是什么?
正态分布的集中趋势和离散趋势的指标
(三)最难点的是什么?
概念和正态分布的特点与面积分布规律
概念表示适用
算术平均
数(均
数)
总体均数
μ;样本均
数c
正态或近似正态分布,例如北京男人平均体重80kg,那
么在80kg人最多
几何均数G表示
等比资料,尤其是对数正态分布计量资料。
如抗体的平
均滴度,药物浓度0.1,0.01,0.001等
中位数M表示
一组观察值,按大小顺序排列,不规律,位置居中的变
量值(n为奇数)或位置居中的两个变量值的均值(n
为偶数),如我们几个人吃饭食物中毒发病时间1d,
2d,3d,4d,7d,那中位数是3d
百分位数P x
是把一组数据从小到大排列,分成100等份,各等份含
1%的观察值,分割界限上的数值就是百分位数。
集中趋势:一组数据向其中心值靠拢的倾向和程度
描述7岁男孩坐高的平均水平,宜用
A.算术均数
B.几何均数
C.中位数
D.极差
E.标准差
『正确答案』A
某幼儿园大班11名,6岁儿童接受百白破疫苗注射后,做血清抗体测定,其抗体滴度分别是1:20,1:20,1:40,1:40,1:80,1:80,1:160,1:160,1:320,1:640,描述抗体滴度的集中趋势的指标应选用
A.标准差
B.极差
C.算术平均数
D.几何平均数
E.四分位间距
『正确答案』D
二、离散趋势指标
反映一组同质观察值的变异程度。
常用的描述变异程度的统计指标包括极差、四分位
数间距、方差、标准差和变异系数。
说俗了就是统计的一堆数字中,相对大的数值减去小的数值得出来的结果就是离散趋势的指标,结果越大,说明离散程度越大,变异越大。
举例子:科里20名大夫,最大的
60岁,最小的21岁,离散程度就是39了。
附表:离散趋势指标
概念表示备注
全距R表示
一组资料的最大与最小值之差。
全距越大,说明资料的离
散程度(变异)越大
四分位
数间距
Q表示
(qid)
将一组资料分为四等份,上四分位数Q u(P75)和下四分位
数Q L(P25)之差(中间50%观察值的极差)就是Q。
Q值越
大,说明资料的离散程度越大。
用于描述偏态分布资料的
离散程度。
Q=P75-P25
方差
总体方差用
σ2表示,样
本方差用S2
表示
方差和标准差都是说明资料的变异(离散)程度,其值越
大,说明变异程度越大。
算术均数与标准差一起使用,描
述正态分布资料的集中趋势和离散趋势
标准差
将方差开平
方S
最常用,适用于正态分布
变异系
数
CV表示
CV是将标准差转化为算术均数的倍数,以百分数表示。
常
用于度量单位不同或均数相差较大的情况
小结
计量资料呈对称分布,计算集中趋势的指标最好选用
A.M
中位数
B.Q
四分位数间距
C.
算术均数中的样本均数
D.G
几何均数
E.S
标准差
『正确答案』C
对称:算方差
偏态:几种死
有8个某种传染病人,他们的潜伏期分别为:12、11、21、8、12、5、4、13,其中位数
A.12
B.11.5
C.10
D.8
E.9.5
『正确答案』B
思路:从小到大排列:4、5、8、11、12、12、13、21位于中间位置的数是:11和12。
中位数是11.5
全面描述正态分布资料特征的两个指标是
A.均数和中位数
B.均数和标准差
C.均数和极差
D.中位数和方差
E.几何均数和标准差
『正确答案』B
对称:算方差
偏态:几种死
描述偏态分布资料特征的两个指标是
A.均数和中位数
B.均数和标准差
C.均数和四分位数间距
D.中位数和四分位数间距
E.几何均数和标准差
『正确答案』D
对称:算方差
偏态:几种死
两组呈正态分布的数值变量资料,但均数相差悬殊,若比较离散趋势,最好选用的指标为
A.全距
B.四分位数间距
C.方差
D.标准差
E.变异系数
『正确答案』E
三、正态分布的特点与面积分布规律
1.正态分布及其特点
“正态分布是一个中间多、两侧逐渐减少、基本对称的分布”
2.面积分布规律——正态分布的面积规律
参数:μ总体均数;S样本标准差;总体标准差用σ,μ值的均数为0,σ:1。
区间面积(或概率)
μ±σ68.27%
μ±1.96σ95.00%
μ±2.58σ99.00%
调查某地区200名女大学生的血清总蛋白含量,其均数为75.7g/L,标准差3.1g/L,算得95%参考值范围为(69.62,81.78)g/L,则该地区大约有
A.5%女大学生血清总蛋白含量低于69.62g/L
B.2.5%女大学生血清总蛋白含量高于69.62g/L
C.5%女大学生血清总蛋白含量低于81.78g/L
D.95%女大学生血清总蛋白含量高于69.62g/L
E.2.5%女大学生血清总蛋白含量高于81.78g/L
『正确答案』E
标准正态分布的两个参数值分别是
A.μ=0,σ=1
B.μ=1,σ=0
C.μ=1,σ=-1
D.μ=-1,σ=1
E.μ=0,σ=0
『正确答案』A
普查某市8岁正常男孩体重,发现95%的人体重在18.39~29.45公斤,其标准差是A.2.14公斤 B.5.14公斤
C.2.82公斤
D.0.95公斤
E.无法计算
思路:μ-1.96σ~μ+1.96σ
·μ-1.96σ=18.39
·μ+1.96σ=29.45
·3.92σ=11.06
σ=2.82(公斤)
『正确答案』C。