当前位置:文档之家› 医学统计学考试(详细)

医学统计学考试(详细)

医学统计学基本概念1.医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门应用科学。

2.统计工作的步骤:(1)设计(2)收集资料(3)整理资料(4)分析资料;或者分三步:(1)研究设计(2)资料分析(3)结论。

3.定量资料:又称为数值变量资料,特点:(1)各观察值之间有量的差别;(2)数据间有连续性。

它是指变量的取值不止是可列个,而是可取某区间[a,b],(-oo,oo)上的一切值。

4.定性资料:又称为分类资料、分类变量资料(包括二项分类、多项分类资料),特点:(1)各观察值之间有质的差别;(2)数据间有离散性。

它是指变量的取值有限的,至多是可列多个。

附:无序分类:二项分类、多项分类5.等级资料:又称为半定量资料,有序分类,指各类之间有程度的差别。

特点:()各观察单位间或者相同,或者存在质的差别;(2)各等级间只有顺序,而无数值大小,故等级之间不可度量。

6.个体individual:即每个观察单位。

7.总体population:根据研究目的确定的同质观察单位的全体。

8.样本:是从总体中随机抽取部分观察单位,其实测值的集合。

样本包含的观察单位数称为样本含量或样本大小。

9.参数parameters:描述某总体特征的统计指标称为总体参数,简称参数。

如总体均数、总体标准差等。

特点:参数是未知的,固有的,不变的!10.统计量:描述某样本特征的的统计指标称为样本统计量,简称统计量。

特点:统计量是已知的,变化的,有误差的!11.概率probability:是描述随机事件发生的可能性大小的数值。

常用P表示。

它的大小界于0和1之间。

12.随机事件:(1)可重复性:相同条件下可重复进行;(2)随机性:出现两种机两种以上结果;(3)偶然性:实验前不能肯定将出现哪种结果。

13.频率的稳定性:在重复试验中,事件A的频率随着试验次数的不断增加将愈来愈接近一个常数p,频率的这一特性称为频率的稳定性。

14.概率的统计定义:频率的稳定性充分说明随机事件出现的可能是事物本身固有的一种客观属性,因而是可以被认识和度量的。

这个常数p就称为事件A出现的概率(probability),记作P(A) 或P。

这一定义称为概率的统计定义。

它是事件A发生的可能性大小的一个度量。

容易看出,频率为一变量,是样本统计量,而概率为常数,是一总体参数。

实践中,当试验次数足够多时,可以近似地将频率作为概率的一个估计。

15.小概率原理:当某事件发生的概率小于或等于0.05时,统计学通常称该事件为小概率事件,其涵义为该事件发生的可能性很小,进而认为其在一次抽样中不可能发生,此即为小概率原理。

16.同质(homogeneity):性质相同的事物称为同质的。

17.变异(variation):同质的事物内个体之间或同一个体重复测量间的差别称为变异。

18.参考值范围(reference interval)又称正常值范围(normal range)。

由于正常人的形态、功能、生化等各种指标的数据因人而异,而且同一个人的某些指标还会随着时间、机体内外环境的改变而变化,因此需要确定其波动范围,即正常值范围,简称正常值(normal value)。

19.正常值范围(normal ranges),是指绝大多数正常人的某指标范围。

20.抽样误差(sampling error):由于抽样造成的样本统计量和总体参数之间的差异。

21.标准误(standard error):样本统计量的标准差称为标准误。

样本均数的标准差称为均数的标准误。

22.参数估计:由样本信息估计总体参数称为参数估计,包括点估计和区间估计。

23.点估计(point estimation) :直接用样本统计量作为总体参数的估计值。

这种估计方法简单,但未考虑抽样误差的大小。

24.区间估计(interval estimation) :按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度为1-α的可信区间(confidence interval, CI),又称置信区间。

这种估计方法称为区间估计。

25.可信度为1-α的可信区间的确切涵义是:每100个样本所算得的100(1-α)%可信区间,平均有100(1-α)个包含了总体参数。

如取α=0.05,则每100个样本所算得的100个95%可信区间,平均有95个包含总体参数在内,有5个不包含总体参数。

26.可信区间的两个要素:第一个要素是可靠性,常用可信度1-α的大小表示;第二个要素是精确性,常用可信区间的长度CU-CL衡量。

27.均数95%可信区间,其涵义是:如果重复100次抽样,每次样本含量均为n,每个样本均按(见课本P42)构建可信区间,则在此100个可信区间内,理论上有95个包含总体均数,而有5个不包含总体均数。

28.可信度为95%的CI的涵义:每100个样本,按同样方法计算95%的CI,平均有95%的CI包含了总体参数。

这里的95%,指的是方法本身!而不是某个区间!29.第一类错误(I型错误):拒绝了实际上成立的H0假设,称为“假阳性”, 用α来表示。

30.第二类错误(II型错误):不拒绝实际上不成立的H0,称为“假阴性”,用β来表示。

31.检验效能(power of a test)或检验功效:1-β称检验效能(power of a test),过去称把握度。

为当两总体确有差异,按检验水准α所能发现该差异的能力。

1-β只取单尾。

32.完全随机设计:根据某一试验因素,将试验对象完全按随机设计分为若干个组,每个组的样本例数可以相等,也可以不等,分别求出各组试验结果的均数,即为单因素多个样本均数,单个因素可以有多个水平,R>233.随机区组设计又称配伍组设计(Random Block Design):即两因素多个样本均数的比较(或称两因素方差分析,two way analysis of variance)。

34.绝对数:在计数资料中,各组的观察数称绝对数。

35.相对数:是两个有联系的指标的比,计数资料的统计描述主要是相对数(relative number)。

36.率(rate):说明某现象发生的频率或强度,常用%、‰、1/万、1/10万等作单位,表示在一定范围内,某现象的发生数与可能发生某现象的总数之比。

率的结果常以保留1-2位整数为宜。

37.构成比(constituent ratio):说明一事物内部各组成部分所占的比例,常以%来表示。

38.比:也称相对比(relative ratio),两个有关指标之比。

通常以某种现象的数量为1或100作基数,看另一种现象的数量是多少,说明一事物是另一事物的若干倍或百分之几。

两个相比的指标可以性质相同,如时间比、性别比;也可性质不同。

比=A/B39.秩次是指全部观察值按某种顺序排列的位序;秩和:是同组秩次之和。

40.秩变换:将等级变成秩次的方法称为秩变换。

41.秩和检验:就是通过秩次的排列求出秩和,从而对总体的分布进行假设检验的方法。

42.确定性关系:是指两变量间的关系是函数关系。

非确定性关系:是指两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。

相关关系:指既是必然的又是不确定的关系称为相关关系。

当两个变量之间出现如下关系,一个增大,另一个也同时增大,或缩小,我们称这种现象为共变,也就是说两个变量之间有相关关系。

相关关系不一定是因果关系。

相关关系可以是因果关系,也可以是伴随关系。

43.直线相关系数:简称为相关系数,用符号r表示,是用于说明具有直线关系两个变量之间,相关关系的密切程度和相关方向的指标。

44.等级相关的含义:等级相关反映的是两变量等级间的相关,并不反映两变量间的数值关系。

45.直线相关:这种直线关系,或分析这种直线关系的理论和方法,统称为直线相关。

46.直线回归: 直线回归是用于研究两个变量x与y之间的线性依存关系的一种统计分析方法。

47.试验研究设计:是指研究者根据研究目的、通过对受试对象施加干预,严格控制各种影响因素,获得干预研究结果。

48.双盲临床试验:是指观察者方和被观察者方在整个试验过程中不知道受试者接受的是何种处理;单盲临床试验是指仅被观察者方处于盲态。

观察者方指的是研究者、参与试验效应评价的研究人员、数据管理人员、统计分析人员;被观察者方指的是受试对象及其亲属或监护人。

双盲双模拟:试验组:试验药+阳性对照药的安慰剂;对照组:阳性对照药+试验药的安慰剂。

医学统计学相关知识1.频数分布表的用途:(1)看出频数分布的两个重要特征:集中趋势、离散趋势(2)揭示资料的分布类型2. 描述定量资料集中趋势的三个指标及其应用条件:(1)均数(也称算术均数):适用于单峰对称分布的资料;(2)几何均数:适用于等比资料、对数正态分布资料;(3)中位数:适用于偏态分布资料、分布不规则或未知分布资料、一端或两端有不确定数据(开口资料)的资料。

3. 描述定量资料离散程度的指标(极差、四分位数间距、标准差、变异系数)及其适用范围:这四个指标均反映定量资料的离散程度。

极差和四分位数间距可用于任何分布(极差常用于描述单峰对称分布小样本分布资料的变异程度,或用于初步了解资料的变异程度;四分位数间距常用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度),后者比前者稳定,但均不能综合反映各观察值的变异程度;标准差最常用,要求资料近似服从正态分布;变异系数可用于比较度量单位不同的两组或多组资料的变异度或均数相差悬殊的两组或多组资料的变异度。

4. 正态分布的特征:(1)正态分布是一单峰分布,高峰位置在均数处;(2)正态分布以均数为中心,左右完全对称;(3)正态分布取决于两个参数,即均数μ和标准差σ。

μ是位置参数,μ越大,则曲线沿横轴向右移动;μ越小,曲线沿横轴向左移动。

σ为形态参数,表示数据的离散程度,若σ小,则曲线形态“瘦高”;σ大,则曲线形态“矮胖”。

(4)有些指标不服从正态分布,但通过适当的变换后服从正态分布;(5)正态分布曲线下的面积分布是有规律的。

5.正态曲线下的面积规律•正态曲线下面积总和为1;正态曲线关于均数对称;对称的区域内面积相等;•对任意正态曲线,按标准差为单位,对应的面积相等;μ-1.64σ~μ+1.64σ内面积为90%;•μ-1.96σ~μ+1.96σ内面积为95%;μ-2.58σ~μ+2.58σ内面积为99%。

•小于μ-3σ的面积为0.13%; 小于μ-2σ的面积为 2.28%; 小于μ-σ的面积为15.87%。

6. 标准误与标准差的关系区别标准差s标准误s x意义个体变异统计量的抽样误差用途正常值范围(x±1.96s)总体均数的可信区间(x±t α, νs x)与n关系n↑s趋于稳定n↑s x趋于0联系 1.两者都是变异指标,说明个体之间的变异用标准差,说明统计量之间的变异用标准误。

相关主题