医学统计学绪论SUN
26
5、误差(Error)和抽样误差( sampling error)
统计上所说的误差泛指测量值与真值之差,样本指标与总体 指标之差。主要有以下三种:系统误差、随机测量误差、抽 样误差。
系统误差(systematic error) 概念:指数据搜集和测量过程中由于仪器不准确、标准不规范等原
因,造次观察结果呈倾向性的偏大或偏小,这种误差称为系统误差。 流行病学称之为偏倚(bias)。 特点:有累加性。观察值有系统性、方向性、周期性的偏离真值。 可以通过严格的实验设计和技术措施消除
自然界中存在的各种现象可归纳为两类: 必然现象
随机现象
3
医学统计学简介(Introduction to medical statistics)
统计学(statistics)是认识社会和自然界中随机现象 之数量特征的一门科学。 统计学是研究数据收集和分析的一门科学和艺术 ------《大不列颠百科全书》
山东大学 流行病与卫生统计学研究所 孙秀彬
如何学习统计学?
理解基本的统计原理 培养统计思维能力:抽象的逻辑推理 多练习 联系实际:阅读文献、工作和生活实际
2
医学统计学简介(Introduction to medical statistics)
世界上各类现象的发展变化规律,都表现为质与 量的辩证统一。要认识某现象客观存在的规律性, 就必须认识其质与量的辩证关系,认识其数量关 系的特征及度的界限,这一切都离不开统计学。
28
: 概念:由于抽样而引起的样本指标与总体指标之间的差别。 特点:有抽样, 抽样误差就不可避免。 统计上可以计算并在一定范围内控制抽样误差。
不可避免,但有一定的分布规律,可估计。
29
抽样误差( random sampling error)
抽样误差(sample error): 由于随机抽样所引起的样本统计量与 总体参数之间的差异以及样本统计量之间的差别称为抽样误差。 如样本均数与总体均数之间的差别,样本率与总体率的差别等。
医学统计学(medical statistics)是以医学理论为指导,运用
数理统计学的原理和方法研究医学科研设计和医学资料的搜集、整理 与分析,从而掌握事物内在客观规律的一门学科。
4
医学统计学简介(Introduction to medical statistics)
医学统计学的内涵
医学统计学是建立在现代科学方法之上,由统计学理论指导的数据收集、 表达和分析的方法,现代科学方法可以概括为以下几点:问题的识别与表达
样本:从总体中随机抽 取的部分观察单位某变 量值 的集合
22
总体
总体是根据研究目的所确定的同质研究对象中所有观察单位 某变量值的集合。例如,研究2004年某市7岁男童体重的医学 参考值范围,其研究对象是该市的7岁健康男童,观察单位是 每个7岁健康男童,变量是体重,变量值是体重测量值,该市 2004年全体7岁健康男童的体重值构成总体。
总体所包含的范围随研究目的的不同而变化。
23
总体的三个基本特征:
①.同质性。即构成总体的各单位必须具有某种共同性质,这是形成总 体的客观依据,也是我们确定总体范围的标准。各单位必须具有这种共 同性质,是由统计研究的目的决定的。 ②.大量性。即总体是由许多单位组成的。一个或少数单位不能形成总 体,因为统计研究的目的是要揭示大量事物的普遍规律性,所以统计研 究的对象必须包括足够多的个体。 ③.差异性。即总体的各单位除了某一方面的共同性外,在其他方面必 须是有差异的,这些差异是统计研究的基础和前提。
(发现问题、提出问题)。
搜集有关资料。 通过归纳得出假说:因果联系及重要的模式。 从假说作出演绎:进行实验或收集更多的资料。 推理:结果与演绎相符,假说得到加强,但不是被证明(例某地区食盐
与高血压的关系)。
5
医学统计学简介(Introduction to medical statistics)
注意:抽样误差是不可避免的。无论抽样抽得多么好,也会存在 抽样误差。但统计上可以计算并在一定范围内控制抽样误差。
减少抽样误差的方法: (1)改进抽样方法(增加样本的代表性),误差从大到小:
整群抽样单纯随机抽样系统抽样分层抽样 (2) 增加样本量; (3)选择变异程度较小的研究指标。
30
6.概率——随机事件
27
随机测量误差( random measurement error ): 由于非人为的偶然因素,对于同一样本多次测定结果不完全
一样,结果有时偏大有时偏小,没有倾向性,这种误差叫随 机测量误差。 特点:没有倾向性,多次测量计算平均值可以减小甚至消除 随机测量误差。 提高操作者熟练程度可以减少这种误差
变量—观察单位的某一项特征 变量值—某一变量的测量值
13
变量类型 数值变量
变量按其值的性质可分为数值变量和分类变量。
数值变量(numerical variable) 其变量值是定量的,表现为 数值的大小,多有度量衡单位。如身高(cm)、体重(kg)、心 律(次/min)、住院天数(d)、血压(mmHg)等。 由数值变量的测定值组成的资料称为数值变量资料或计量资 料。大多数的数值变量的测定值是连续性的,称之为连续型 变量,如身高、体重、血压等;但有的数值变量的测定值只 是正整数,如心率、白细胞计数等,在统计学中把它们也视 为连续型变量。
统计分析时,要根据研究目的、设计类型、资料类型及其分 布特征选择恰当的统计指标和分析方法。
11
三、统计学中的几个基本概念
变量 同质 变异 总体 样本 概率
12
1. 变量(variable)
在搜集资料时,首先要根据研究目的确定同质观察单位, 再对每个观察单位的某项特征进行测量或观察,该特征 称为变量,如上述的“身高”、“体重”、“疗效”就 是变量。变量的观察结果或测量值称为变量值或观察值。 变量按其值的性质可分为不同类型。
变异是生物体的基本属性之一,也是统计研究的前提。
19
变异——生物多样性
20
变异—生物多样性
21
4. 总体(population)和样本(sample)
统计学中,描述样本特征的指 标称为统计量(statistics);描述 总体特征的指标称为参数 (parameter)。
总体:根据研究目的确 定的同质研究对象的全 体(集合)某变量值的 集合。分有限总体与无 限总体
医学统计学的学科特点
医学+数学,侧重医学,淡化数学。 用数量反映质量,如平均期望寿命,解放前为35
岁,现在70岁,可反映国家医疗卫生服务总体水 平的提高。 大量观察+实验数据分析 → 可以揭示医学规律。
6
二、统计工作的基本步骤
设计(design) 搜集资料(collection of data) 整理资料(sorting data) 分析资料(analysis of data)
随机事件(random event) 对随机现象进行实验或观察称为随机 试验。随机试验的各种可能结果的集合称为随机事件,简称事 件。在一次随机试验中,某随机事件可能发生,也可能不发生; 但在一定数量的重复试验后,该随机事件的发生与否是有规律 的。
随机事件具有: 可重复性:相同条件下可重复进行 随机性:出现两种及两种以上结果 偶然性:实验前不能肯定将出现那种 结果
8
2. 搜集资料
搜集资料须遵循统计学原理采取必要措施得到准确可靠的原 始资料。
搜集资料的原则:及时、准确、完整
统计资料的来源:①统计报表,如医院工作报表、法定传染 病报表等;②经常性工作记录,如疾病监测记录、健康档案、 住院病历等;③专题调查(或实验);④另外还可取自外来 资料,如:公开发表的有关报告、商业性数据库、专题研究 文献以及人口普查、计划生育、妇幼保健资料等。
31
概率(probability)
概率(probability):是描述随机事件发生的可能性大小的数值。 必然事件 P(A)=1、不可能事件 P(A)=0、随机事件:0< P(A)<1
小概率事件: 概率p小于或等于的随机事件,表示一次实验
中该事件发生的可能性很小。
小概率原理:小概率事件在一次试验中几乎不可能发生。利 用该原理可对科研资料进行假设检验。“小概率”的标准是
10
4. 分析资料
分析资料的目的是计算有关指标,反映数据的综合特征,阐 明事物的内在联系和规律。
统计分析包括统计描述(descriptive statistics)和统计推断 (inferential statistics)。
统计描述是用描述性指标、统计表与统计图等,对样本资料的 数量特征及其分布规律进行描述。 统计推断是指如何抽样,以及如何用样本信息推断总体特征。
15
注意:变量类型并非一成不变,可根据统计分析的需要进行转化。 进行统计分析时,需考虑变量类型及其分布特征选取适当的描述 指标和分析方法
16
统计资料类型的表现形式
17
2、 同质(homogeneity)
严格地讲,同质是指被研究指标的影响因素完全相同。但在 医学研究中,有些影响因素往往是难以控制的(如遗传、营 养等),甚至是未知的。因此,在实际工作中只有相对的同 质。
7
1. 设计
设计是在保证科学性、可重复性和高效性的前提下,为验证 研究假说而进行的周密安排。是在广泛查阅文献,全面了解 国内外研究现状的基础上,在实施科学研究之前对研究工作 的全面设想。 包括:明确研究目的和研究假说,确定研究内容、观察对象 与观察单位、样本含量和抽样方法,拟定研究方案、预期分 析指标、误差控制措施、进度与费用等。 根据研究的类型,有调查设计和实验设计之分。
24
有限总体与无限总体
若在某特定的时间与空间范围内,总体中同质研究对象的所 有观察单位的某变量值的个数是有限的,则称之为有限总体 (finite population)。