当前位置：文档之家› 医学统计学相关公式汇总

医学统计学相关公式汇总

医学统计学相关公式汇总Chapter 基本概念显著性检验（test of significance ）：计算P 值医学统计工作的内容： 1、实验设计：最关键最重要2、收集资料：最基础原始资料：实验数据现场调查资料医疗卫生工作记录报表报告卡质量控制——精度和偏倚 3、整理资料（1）资料的逻辑检查（坏数）（2）一致性检查（3）原始数据加工：频数分布表4、分析资料：统计描述（表、图、离散趋势、集中趋势）和统计推断统计描述类型的选择：集中趋势离散趋势对称、正态 μ，x S SS ，，对数正态 G S lgX 偏态及其他 M Q ，R 单位不同或均数差别大 CV医学统计的资料类型：计量资料、计数资料、等级分组资料医学统计学的对象：有变异的事物总体和样本：总体（population ）的特性：同质性、大量性、差异性。

抽样的要求：代表性、随机性、可靠性、可比性。

样本的三性：代表性、随机性、可靠性。

可靠性（reliability ）：实验的结果要具有可重复性。

即由科研课题的样本得出的结论所推测总体的结论有较大的可信度。

两样本间具有：可比性。

误差的类别：1、系统误差（system error ）：在资料的收集过程中，由于仪器初始状态没有调零、标准试剂未经矫正、标准指定偏高或偏低等原因，造成的观察结果的倾向性的偏大或偏小。

必须克服。

2、随机测量误差（random measurement error ）：在避免系统误差的情况下，由于各种偶然因素的影响造成对同一对象多次测量值的不一致。

3、抽样误差（sampling error ）：由于抽样造成的的样本统计量与总体参数之间的差别。

不可避免。

样本含量越大，抽样误差越小。

如均数的抽样误差：|-X | 。

概率（probability ）：P （A ）小概率事件：P ≤0.05（有统计学意义）或P ≥0.01（有高度统计学意义）。

Chapter 集中趋势的统计描述手工整理资料频数表（frequency table ）的步骤： 1、求极差（全距） 2、确定组数、组距参考组距=全距 / 组数 3、确定组段4、手工编制划记表直方图（histogram ）：高度：各组的频数纵轴宽度：组距横轴表示组限均数（average ）：适用：对称分布或偏度不大的资料，尤其适合正态分布。

抽样总体样本推断1、算术均数（mean ）：n∑=X X2、加权均数：n∑=X f X3、几何均数：n∑-= X lg lg G 1，n∑-=M 1 X lg f lg G中位数（median ）：观察值按照从小到大排列时，居中心位置的数值。

适用于1、分布明显成偏态时，2、频数分布的一端或两端无确切数值时。

不便于统计计算。

if f n 5.0L M MLM ⨯-+=）（M ：中位数；L M ：M 所在组的上限；f L ：M 所在组之前积累的频数；f M ：M 所在组的频数；i ：组距。

百分位数（percentile ）：Px 。

在一组中找到这样一个数值P ，全部观察值的x%小于P 。

P 75、P 25描述资料离散程度。

if f x%n L P xLx X ⨯-⨯+=）（众数：一组观察值中，出现频率最高的那个观察值。

若为分组资料，则为频率最高组的组中值。

适用于大样本，但粗糙。

Chapter 离散程度的统计描述离散的表述指标：1、按间距计算：极差、四分位数间距2、按平均差距：离均差平方和、方差、标准差、变异系数极差（range ，R ）：即全距。

粗略。

适用于任何分布。

四分位数间距（quartile ，Q ）：一组观察值按大小排序后，分成四个数目相等的段落，每个段落观察值的数目占总例数的25%。

去掉两端含有极端数值的25%，取中间的50%的观察值的数据范围即为~。

越大则数据变异越大。

适用于偏态分布。

Q=P 75 - P 25离均差平方和（sum of square of deviation ）：∑∑∑-==nX X X -X SS 222）（）（方差（variance ）：样本方差1-n X -X SSS 22∑==）（ν总体方差 NX -X SSS 22∑==）（ν 标准差（standard deviations ）：νSSS S 2==适用于近似正态分布。

p.s.1、可用于合并资料的直接计算2、与均数结合可以完整概括一个正态分布。

变异系数（CV ）：用于均属相差交大或单位不同的几组数据观察值的比较。

CV=%100XS⨯ 正态分布（normal distribution ）： 1、正偏态分布：高峰向左，长尾向右负偏态分布：高峰向右，长尾向左。

2、μ和σ是正态分布总体的两个参数，对应样本统计量中的S 和X 。

实际应用中μ和σ通常未知，可以将S 和X 作为总体参数的估计量使用。

注意对比：1-n X -X S2∑=）（N-X 2∑=）（μσ 2、μ是位置参数，σ是变异参数。

描述方法：N （μ，σ2）3、曲线下面积的意义：X 1~X 2出现的概率。

μ±σ 68.3%μ±1.96σ （单侧μ±1.645σ） 95% μ±2.58σ（单侧μ±2.33σ） 99%标准正态分布（standard~）：是μ=0，σ=1的正态分布。

对于任何参数为μ、σ的正态分布，都可以通过变量变换转化成标准正态分布：σμ-x u =。

医学参考值范围（reference value range ）的制定方法： 1、选择足够数量的正常人作为参照样本 2、对选定的参照样本进行准确的测定 3、决定取单侧范围还是双侧范围值 4、选择适当的百分范围 5、估计参考值范围的界限Chapter 抽样误差与可信区间中心极限定理：在样本含量很大的情况下（n ≥50），无论样本测量量（X ）服从什么分布，样本均数X 的抽样分布都近似服从以μ为均数的正态分布N （μ，σ2/n ）标准误（standard error ）：样本均数X 之间变异的标准差。

nXσσ=实际工作中总体标准差σ 未知，，用样本的标准差S 代替：nSS X =标准误（公式）的意义：1、与标准差的联系：在样本含量一定的情况下，标准误与标准差成正比。

（1）当观察值的变异（标准差）较小时，样本均数之间的抽样误差较小，抽到的样本均数与总体均属可能相差较小，用X估计μ的可靠性较好（2）当观察值的变异较大时，样本均数之间的抽样误差较大，抽到的样本均数与总体均属可能相差较大，用X 估计μ的可靠性较差。

2、与样本含量的关系：与其平方根成反比，说明在同一总体中随机抽样，样本含量越大，标准误越小。

3、标准误反映了样本均数间的离散程度，也反映了样本均数与总体均数的差异。

参数估计（parameter estimation）：指偶那个过样本参数估计总体参数，是统计推断的重要内容之一。

常用方法有点估计、区间估计。

点估计（point ~）：使用单一数值直接作为总体参数的估计值。

适用于各种资料。

区间估计（interval ~）：按照预先给定的概率计算出一个区间，使它能够包含总体参数。

给定的概率（1-α）称为可信度。

计算得到的区间称为可信区间（confidence interval，CI）可信区间通常包括两个数值界定的可信限（confidence limit），分别为上限、下限。

总体均数估计的95%可信区间表示：该区间有95%的概率包含总体均数μ。

注意不可以说“总体均数有95%的概率落在这个区间里”。

可信区间估计效果的比较：1、（1-α）越接近1越好，概率↑2、区间宽度越窄越好，精确度↑但两者是矛盾的。

一般选择（1-α）=95%。

t 分布（t distribution ）：是以0为中心的对称分布；当∞→ν时，t 分布的极限分布就是标准正态分布。

在正态分布的总体中进行抽样，n/S -x μ服从自由度1n -=ν的t 分布。

t 的大小与α、自由度有关。

可信区间的计算：XS ⨯-να,2/t X （，）X S ⨯+να,2/t X若n ≥50，则t 分布接近标准正态分布，则简化 X S ⨯-2/u X α（，）X S ⨯+2/u X α 若σ已知，则可简化为Xσα⨯-2/u X （，）X σα⨯+2/u X96.1u 05.0=，58.2u 01.0=Chapter 假设检验假设检验（hypothesis test ）：目的：比较总体参数有无差别基本思想：首先对所需比较的总体提出一个无差别的假设，然后通过样本数据推断是否拒绝这一假设。

基本方法：反证法和小概率事件。

基本步骤：1、建立假设和确定检验水准无效假设（null hypothesis ）：H 0：μ=μ0（或μd =0），总体均数无差别。

备择假设（alternative ~）：H 0：μ≠μ0（或μd ≠0），总体均数有差别假设有单侧和双侧两种。

应用单侧检验一定要有过硬的专业知识。

一般选用双侧检验，因为双侧检验得出有显著差别的结论，单侧检验结论也一定是显著差别；然而反之不亦然。

检验水准亦称显著性水准（significance level ），用α表示，是预先设定的拒绝域的概率值。

一般取0.05。

2、选择检验方法和计算检验统计量3、确定P 值、做出统计推断结论P 值的意义：假设检验下结论的主要依据，指在原假设成立的条件下，观察到的样本差别是由机遇所致的概率。

结论：1、p<α,样本数据差异显著，有统计学意义，拒绝H 0，接受H 12、P>α，样本数据差异不显著，无统计学意义，根据现有样本不足以拒绝H 0（不等于接受H 0）。

单样本的t 检验：条件：μ，X ，S ，n1、H 0：μ=μ0 ，α=0.05，双侧检验2、t=n/S -x μ，1n -=ν3、να,2/t配对样本t 检验：条件：n ，指标1、指标2（d ，∑d ，∑d 2） 1、H 0：μd =0，α=0.052、t=nS n d //d S dd∑=μ3、να,2/t成组设计实验的两样本均数比较条件：n1，n2，X 1，X 2，S1，S2 1、H 0：μ1=μ2 ， 2、u=22212121/S /n S X X n +-3、96.1u 05.0=，58.2u 01.0=F 检验：条件：表格略1、H 0：各组总体均数相同， H 1：各组总体均数不全相同2、EE TRTR E TR SS SS MS MS F νν//==，v TR =k-1，v E =n-k3、F 符合自由度为（k-1，n-k ）的F 分布。

F 值接近1，则可认为均值只来源于随机波动。

若F>1，且F>F α,(k-1,n-k)，则P<α,……。

假设检验中的两类错误：1、第一类错误：当H 0为真时，拒绝H 0接受H 1。

e商务文档

医学统计学相关公式汇总

相关文档推荐：