研究生医学统计学考点总结
假设检验:该指标可能的影响因素分析
=Xmax-Xmin 选定适当的组段数后估计组距:组段数的选取以能反映资料的分布特征为宜,
一般取 8 ~ 12 组 列出组段:组段的含义:包括组段的下限而不含组段的上限 。如:3.2~ 等价
于 [3.2,3.5)。 划记归组获得频数 求频率,完成频数表 :相应的频数除以总数即为频率,各组段的频率总和为 1
不同分类的互相转化 数值变量→无序分类变量 数值变量→有序分类变量 有序分类变量→无序分类变量
信息量只有减少,不可增加
统计描述指标,呈现方式可分为两种 统计图:直观,但精确度稍差 统计报表:能尽量详细,精确,但不够直观
统计推断:从样本信息外推到总体,以最终获得对所感兴趣问题的解答 参数估计:样本→所在总体特征
值的极差。
2
X 2
N
XX 2
s2 n1
X 2
N
X X 2
s n1
方差及标准差:
变异系数(coefficient of variation, CV):
为标准差和均数的比值,排除了平均水平的影响,并取消了单位。因此变异系
数常用于: 比较度量衡单位不同的两组或多组资料的变异度 比较均数相差悬殊的两组或多组资料的变异度
或者 100%。
2.频数分布所提供的信息 频数分布图用以表示数据的分布规律。 观察有无可疑值。 考察分布的类型。 对称分布 非对称分布(偏态分布) • 左偏态(负偏态) :指分布的长尾在峰的左侧。
• 右偏态(正偏态) :指分布的长尾在峰的右侧。 考察分布的特征
集中位置 (Central Tendency):描述指标有平均数(算术均数 (Mean)、几何均数(Geometric Mean) 、中位数(Median)、百分位数 (Percentile) )。
医学统计学
基本概念:
1.医学统计学 Statistics:医学统计学是以医学理论为指导,应用概率论与数理统 计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门科学。 2.同质和异质:具有相同性质的事物称为同质(homogeneous)。否则称为异质的 或者间杂的(heterogeneous)。不同质的个体不能笼统地混在一起分析,同质和异 质是相对的概念。 3.变异:同质事物之间的差别称为变异(variation),亦称个体变异。变异的两个方 面:
离散趋势 (Tendency of Dispersion):描述指标有极差(Range)、四 分位数间距(interquartile range) 、方差(Variance) 、标准差(Standard Deviation) 、变异系数( coefficient of variation ) 。
3.平均数应用的注意事项: 同质的资料计算平均数才有意义。 均数适用于:单峰对称分布的资料。 几何均数适用于:对数变换后单峰对称的资料。等比资料、滴度资料、对 数正态分布资料。计算几何均数时: 变量值中不能有 0 同一组变量值不能同时存在正、负值,若变量值全为负值,可先将 负号除去,算出结果后再冠以负号 中位数:理论上可用于任何分布资料,常用于描述偏态资料,开口资料, 有不确定值的资料的集中位置。但当资料适合计算均数或几何均数时,不
宜用中位数。
中位数和百分位数在样本含量较少时不稳定,越靠两端越不稳定;
中位数在抗极端值的影响方面,比均数具有较好的稳定性,但不如均数精
确。
不同质的资料应考虑分别计算平均数。 百分位数:样本含量较少时不宜计算靠近两端的百分位数。 平均数要与变异指标结合使用。
4.变异度指标:
四分位数间距(inter-quartile range):QU - QL = P75 - P25,即中间一半观察
个体与个体间的差别 同一个体重复测量值间的差别 结果是随机的,不可预测的; 一种或多种不可控因素(已知的或未知的)作用下的综合表现; 个体变异是普遍存在的; 个体变异是有规律的; 没有个体变异,就没有统计学。 4.总体和样本: 总体(population):根据研究目的所确定的同质观察单位的全体;分为有限总体 和无限总体。 个体(individual):是构成总体的最基本观察单位。 样本(sample):是从总体中按照一定的目的随机抽取的一部分具有代表性的个 体集合。 样本含量(sample size):样本中包含的个体个数。 5.参数和统计量: 总体参数(parameter):描述某总体特征的指标,简称参数,一般用希腊字 母表示,如: 、 、 π 。 统计量(statistic):描述某样本特征的指标,一般用拉丁X字母表示, 如: 、s、p 。 在总体被确定之后,总体参数就是一个常数,是不会变化的,不管你是否 确切知其大小;而统计量是几乎总是随着样本而变的。
6.随机(random):是指机会均等,目的是保证样本对总体的代表性、可靠性。 7.概率和频率: 频率( relative frequency ):在 n 次随机试验中,事件 A 发生了 m 次,则比值 m/n 称为事件 A 在这 n 次试验中出现的频率。 概率(probability):是随机事件发生可能性大小的一个度量,是一种参数,常用 P 表示,0≤P ≤1。 8.小概率事件和小概率原理: 小概率事件:医学研究中,将概率小于等于 0.05 或 0.01 的事件称为小概率事件。 小概率原理:小概率事件并不表示不可能发生,但在某一次试验中,是不会发 生的。 9.变量的分类:
按照取值的特性:
数值变量 numerical Variable 定量变量:既有顺序的意义,又有 间隔的意义,可以认为是连续的;往往有单位;取值间的差异是可 以度量的。
分类变量 categorical Variable 定性变量:取值是是分散、定性的, 表现为互不相容的类别和属性。 • 无序分类 unordered categorics: 无顺序,无间隔,仅有分类 – 二项分类 – 多项分类 • 有序分类 ordered categorics 等级变量:仅有 顺序,无单位;取值间的 差异是不可度量的