当前位置:文档之家› 研究生医学统计学考点总结(精心整理)

研究生医学统计学考点总结(精心整理)


t 分布为一簇单峰分布曲线,高峰在 0 的位置上,说明从正态总体中随机
抽样所得样本计算出的 t 值接近 0 的可能性较大。
t 分布以 0 为中心,左右对称。
分布的高峰位置比 u 分布低,尾部高。
t 分布与自由度 有关,自由度越小, t 分布的峰越低,而两侧尾部翘得
越高;自由度逐渐增大时, t 分布逐渐逼近标准正态分布;当自由度为无
在研究工作时,由于总体标准差常常未知,可以利用样本标准差近似估计 4. 标准误的意义:
反映了样本统计量(样本均数,样本率)分布的离散程度,体现了抽样误 差的大小。 标准误越大,说明样本统计量(样本均数,样本率)的离散程度越大,即 用样本统计量来直接估计总体参数越不可靠。 标准误的大小与标准差有关, 在例数 n 一定时,从标准差大的总体中抽样, 标准误较大;而当总体一定时,样本例数越多,标准误越小。说明我们可 以通过增加样本含量来减少抽样误差的大小。
医学统计学
基本概念:
1. 医学统计学 Statistics :医学统计学是以医学理论为指导,应用概率论与数 理统计的有关原理和方法, 研究医学资料的搜集、 整理、分析和推断的一门科学。 2. 同质和异质:具有相同性质的事物称为同质 (homogeneous)。否则称为异质的 或者间杂的 (heterogeneous) 。不同质的个体不能笼统地混在一起分析,同质和 异质是相对的概念。 3. 变异:同质事物之间的差别称为变异 (variation) ,亦称个体变异。变异的两 个方面:
标准差为 n 的正态分布。 X n 从均数为 μ,标准差为 σ的任意总体中随机抽样,当样本含量足够大时,
样本均数近似服从均数为 μ ,标准差为
n 的正态分布。
3. 标准误 (standard error) :用样本统计量的标准差来反映抽样误差的大小,
又称标准误。
s
sX
n
其中, σ 为总体标准差, n 为抽样的样本例数
选定足够例数的同质的正常人作为研究对象: 例数过少, 代表性差; 例数 过多增加成本,且易导致正常标准把握不严,影响数据的可靠性 控制检测误差 判断是否分组 ( 性别 , 年龄组 ) 单、双侧问题 (one sided or two sided) 选择百分界值 (90%,95%) 确定可疑范围 3. 参考值范围的估计方法:正态分布法、百分位数法
频数分布
1. 频数表编制步骤 求极差: R=Xmax- Xmin 选定适当的组段数后估计组距:组段数的选取以能反映资料的分布特征为宜,
一般取 8 ~ 12 组 列出组段: 组段的含义 : 包括组段的下限而不含组段的上限 。如:3.2~ 等价
于 [3.2 ,3.5) 。 划记归组获得频数 求频率,完成频数表 :相应的频数除以总数即为频率,各组段的频率总和为
抽样误差
1.概念:由于个体变异的存在,在抽样研究中产生样本统计量和总体参数之间 的差异,称为抽样误差( sampling error )。 抽样误差的表现:样本均数和总体均数间的差别、 样本均数和样本均数间的差别。
2. 中心极限定理 (central limit theorem)

从均数为 μ,标准差为 σ的正态总体中随机抽样, 样本均数服从均数为 μ,
categorics 等级变量 : 仅
有顺序,无单位;取值间
的差异是不可度量的
不同分类的互相转化
数值变量→无序分类变量
数值变量→有序分类变量
有序分类变量→无序分类变量
信息量只有减少,不可增加
统计描述指标,呈现方式可分为两种 统计图:直观,但精确度稍差 统计报表:能尽量详细,精确,但不够直观
统计推断:从样本信息外推到总体,以最终获得对所感兴趣问题的解答 参数估计:样本→所在总体特征 假设检验:该指标可能的影响因素分析
差为单位 ) 。
3. 标准正态分布:
标准正态分布 (standard normal distribution)
是均数为 0,标准差为 1
的正态分布。记为 N(0,1) 。标准正态分布是一条曲线。
概率密度函数为: (u) 1 (e- u2 2
∞< u <+∞)
2
正态分布转换为标准正态分布:若 X~ N( , 2) ,作变换:u X
数常用于: 比较度量衡单位不同的两组或多组资料的变异度
s
CV
100%
X
比较均数相差悬殊的两组或多组资料的变异度
5. 变异度的正确应用: 极差不稳定,不灵敏 标准差的基本内容是离均差, 它显示一组变量值与其均数的间距, 故标准
差直接地、总结地、平均地描述了变量值的离散程度。 在同质的前提下, 标准差大表示变量值的离散程度大, 即变量值的分布分 散、不整齐、波动较大;反之,标准差小表示变量值的离散程度小,即变 量值的分布集中、整齐、波动较小。 变异系数派生于标准差, 其应用价值在于排除了平均水平的影响, 并消除 了单位。 6. 总结: 每个观察指标均有其特定的变异规律; 描述变异:
差 (Standard Deviation) 、 变 异 系 数 ( coefficient of
variation ) 。
3. 平均数应用的注意事项: 同质的资料计算平均数才有意义。 均数适用于:单峰对称分布的资料。 几何均数适用于:对数变换后单峰对称的资料。等比资料、滴度资料、对 数正态分布资料。计算几何均数时: 变量值中不能有 0 同一组变量值不能同时存在正、 负值, 若变量值全为负值, 可先将 负号除去,算出结果后再冠以负号 中位数:理论上可用于任何分布资料,常用于描述偏态资料,开口资料, 有不确定值的资料的集中位置。 但当资料适合计算均数或几何均数时, 不 宜用中位数。 中位数和百分位数在样本含量较少时不稳定,越靠两端越不稳定; 中位数在抗极端值的影响方面, 比均数具有较好的稳定性, 但不如均数精 确。 不同质的资料应考虑分别计算平均数。 百分位数:样本含量较少时不宜计算靠近两端的百分位数。 平均数要与变异指标结合使用。
图形描述 统计量描述
平均数:均数、几何均数、中位数和百分位数 变异度:极差、方差、标准差、四分位数间距、变异系数 不同分布的指标,用不同的统计量描述; 用平均数与变异度共同描述。
正态分布
1. 公式:如果随机变量 X 的概率密度函数为f ( X ) 1
< +∞ )
2
则称 X 服从正态分布 , 记作 X~ N( , 2) , 其中,
8. 小概率事件和小概率原理:
小概率事件:医学研究中,将概率小于等于 0.05 或 0.01 的事件称为小概率事
件。
小概率原理:小概率事件并不表示不可能发生,但在某一次试验中,是不会发
生的。
9. 变量的分类:
按照取值的特性:
数值变量 numerical Variable 定量变量:既有顺序的意义,又
(Mean)、几何均数 (Geometric Mean) 、中位数 (Median) 、百分位
数 (Percentile) )。
离散趋势 (Tendency of Dispersion) :描述指标有极差 (Range) 、
四分位数间距 (interquartile range)
、方差 (Variance) 、标准
个体与个体间的差别 同一个体重复测量值间的差别 结果是随机的,不可预测的; 一种或多种不可控因素 ( 已知的或未知的 ) 作用下的综合表现; 个体变异是普遍存在的; 个体变异是有规律的; 没有个体变异,就没有统计学。 4. 总体和样本: 总体 (population) :根据研究目的所确定的同质观察单位的全体;分为有限总 体和无限总体。 个体 (individual) :是构成总体的最基本观察单位。 样本 (sample) :是从总体中按照一定的目的随机抽取的一部分具有代表性的个 体集合。 样本含量 (sample size) :样本中包含的个体个数。 5. 参数和统计量: 总体参数 (parameter) :描述某总体特征的指标,简称参数,一般用希腊 字母表示,如: 、 、 π 。 统计量 (statistic) :描述某样本特征的指标, 一般用拉丁X 字母表示, 如: 、 s、p 。 在总体被确定之后, 总体参数就是一个常数, 是不会变化的, 不管你是否 确切知其大小;而统计量是几乎总是随着样本而变的。
差)。
有些指标本身不服从正态分布,但经过变换之后可以服从正态分布。
正态曲线下的面积分布有一定的规律。
X 轴与正态曲线所夹面积恒等于 1 ,对称区域面积相等。
-1.64 ~ +1.64 内面积为 90%;
-1.96 ~ +1.96 内面积为 95%;
-2.58 ~ +2.58 内面积为 99%。
正态分布曲线下的面积与标准正态分布曲线下的面积对应 ( 以标准正态离
穷大时, t 分布就是标准正态分布。
每一自由度下的 t 分布曲线都有其自身分布规律。 t 界值表 。
可信区间
1. 统计推断 (statistical inference) :是指如何抽样,以及如何用样本性质推
断总体特征,分为参数估计 (parameter estimation) 、假设检验 (hypothesis
testing) 。
2. 参数估计:
点估计( Point Estimation) :用样本统计量作为总体参数的估计。
则 u 服从标准正态分布, u 称为标准正态离差 (standard normal deviation) 4. 正态分布的应用:估计频数分布、质量控制、确定临床参考值范围
参考值范围 :
1. 参考值范围 (reference interval) :是绝大多数正常人的某观察指标所在的范 围,绝大多数: 90%, 95%,99%等等。确定参考值范围的意义:用于判断正常与 异常。 “正常人”的定义:排除了影响所研究的指标的疾病和有关因素的同质的人群。 2. 参考值范围确定的原则:
相关主题