当前位置：文档之家› 倾向值评分匹配方法PSM_ppt课件

倾向值评分匹配方法PSM_ppt课件

倾向值评分匹配方法PSM
RCT：很多限制，如费用，伦理学要求，操作困难，不适合发病率很低的疾病非RCT：避免以上繁杂的问题，容易组间基线不齐，使之成为处理效应的混杂因素从而产生偏移
• 为了消除混杂因素的影响，传统的解决方式是，用多变量配对，多变量分析模型，M-H分层分析，协变量分析。 • 当需要匹配的变量很多时，多变量配对通常是不可行的；当混杂因素很多或有多个亚组时，分层分析也是不可行的；多因素回归则要求不同组间的协变量具有一致的分布
而只与协变量不应包含在估计倾向值的模型中。干预分组相关，但与结果变量
无关的
估计倾向值
• Logistic 回归模型
• 令y=组别，x为各协变量
每个个体在给定可观测混杂因素的条件下接受干预的条件概率。
选择匹配方法
最近邻匹配
贪婪匹配法
可通过均值上的绝对标准化差值来衡量
配。
• 最大的优点：不丢失样本量。
应用
• 1：关注的结果变量只考察成本或效果
• 2：分开检验混杂因素对成本和效果的影响
• Manca 等应用倾向值分析对不同手术方案的成本和效果进行研究 • 通过加拿大安大略湖省的心肌梗死数据库（OMID），对经皮腔内冠状动脉成形术（PTCA）和冠状动脉旁路移植手术（CABG）对因急性心肌梗死（AMI）入院患者的成本和效果进行评价。 • 该研究中用到的混杂因素包括患者年龄、性别、心源性休克、急性和慢性肾衰竭、有并发症的糖尿病、充血性心力衰竭、脑血管疾病、恶性肿瘤、肺水肿、心律失常、Charlson 合并症指数和家庭中位收入。对两组基线协变量的比较发现，大多数协变量存在显著性差异，即两组患者的基线信息不平衡。
PSM适用情形
• 前提：logistic多因素分析已经无法校正
• 1：实验组与对照组人数相差甚远（＞4:1）
• 2：两组变量差异太大，可比性差，如基线不齐，或混杂因素多 • 3：变量过多，样本量偏少
步骤
Select covariates
Estimate propensityscore
Select the matching method
此外，倾向值分析只能对可观测的混杂因素进行平衡和控制，并不
能够控制不可观测的混杂因素，当有重要的混杂因素缺失或不可观
测时，采用倾向值分析所得结果可能与真实值存在较大偏差。
Assessing balance （test model)
Estimating the treatment effect
7
选择协变量
找出既影响干预分组又影响结果的混杂因素：
一般协变量是根据已有经验或理论依据来选取的。
通过双变量检验，与干预分组变量和结果变量都相关的协变量均应包含在估计倾向值的模型中；与结果变量相关的协变量也应包含在估计倾向值的模型中（不管其与分组变量是否相关），这样有助于降低估计结果的方差；
• 通常dX＞dXm，说明在匹配后样本的平衡程度有所改善。
使用倾向值加权
• 还可在不匹配的情况下使用倾向值，将倾向值作为抽样权重进行
多元分析。倾向值加权的目的在于对干预组和控制组的成员分配
权重，使其能够代表研究总体。可以对加权后的总体直接进行多
元分析，也可用于非参数回归的倾向值分析，进行基于内核的匹
倾向值分析是分析观察性数据常用的一类
方法，目前也越来越多地用于采用观察性
数据开展的药物经济学评价。
倾向值分析简介
• 倾向值（propensity score）是在控制其他混杂因素的条件下个体接受
干预的概率，对其在干预组和控制组间进行控制或匹配以估计干预效
果，可以用来控制大量的混杂因素变量。 • 目的：将多个变量（多维）转化为一个中间变量（一维） • 特点：不在关注每个需要控制的混杂因素的具体取值，转为关注将这些变量纳入logistic回归方程后预测出来的倾向值。只要保证倾向值匹配，这些所有需要控制的混杂因素都考虑了。
• 比较的效果是接受治疗后1 年内的生存率，成本是所有疾病相关
的医疗成本，研究分别对成本和效果未经过调整的结果、多元回
归结果、基于倾向值匹配的结果和基于倾向值分层的结果进行了
比较。
讨论
倾向值分析只能尽量减少混杂因素产生的影响，并不能完全消除，
其消除程度取决于可以被观测和控制的变量数量以及匹配的质量。

e商务文档

倾向值评分匹配方法PSM_ppt课件

相关文档推荐：