当前位置:文档之家› 观察数据分析方法简介

观察数据分析方法简介

观察数据分析方法简介戴晓晨华盛顿大学公共卫生学院全球卫生系2016年9月5日提纲•背景回顾(Background Review)•回归模型(Regression Modeling)•倾向评分匹配(Propensity Score Matching)•工具变量分析(Instrumental Variable)背景回顾•观察研究(observational study)v.s实验研究(experimental study)•一些例子?•自然实验(natural experiment)是那种研究?•前瞻研究(Prospective study)v.s回顾研究(retrospective study)*本讲座不关注实验设计,只针对几种常见数据分析方法。

背景回顾•什么是观察数据(observational data)?•研究者没有进行任何干预而客观观察到的数据•例子?•原始数据(primary data)v.s二手数据(secondary data)•e.g.全国卫生服务调查,吸烟问卷调查•主题范围:基于(二手)观察数据的回顾性观察研究•e.g.大数据分析因果推断•研究的根本目的:因果推断(causal inference)•因果联系(causation)v.s相关性(correlation/association)•因果联系à相关性•相关性à? 因果联系(inference)(8条标准)•Causal Inference attempts to articulate the assumptions needed to move fromconclusions about association to conclusions about causation•例子:短信干预降低艾滋病母婴传染?因果推断•金标准:•反事实(counterfactual scenario)/潜在结果(potential outcome)•需要时光机!•本质:除了干预措施以外所有其他条件完全相同因果推断•现实世界金标准:随机对照实验(RCT )•本质:随机分组导致两组人除了干预措施以外所有其他条件相似•所有条件包括可观察的(observed )和不可观察的(unobserved )•比较两组的平均效果•观察研究的因果推断:•最大障碍:混杂(confounding )•本质:用统计方法使两组人除了干预措施以外的其他可观察的条件相似•比较两组中可观察条件相同的人的平均效果,再对这些平均效果取平均•缺点:很难解决不可观察因素对效果的混杂(hidden bias )。

Texting InfectionUC OC回归模型—连续变量•线性回归(linear model/ OLS):•因变量:连续变量,(计数变量)•优点:应用非常广泛,简单,系数容易解释,•缺点:5个基本假设限制,因变量偏斜(skewed),异质性方差(HSK)导致结果偏倚•Stata code: regress Y X1 X2 X3, robust•对数线性回归(log OLS):•因变量:连续变量,(计数变量)•优点:适用于因变量偏斜(Skewed)的情况,如医疗费用数据•缺点:系数不易解释,retransformation困难,尤其在有HSK情况回归模型—二元变量•逻辑回归(logistic regression)•因变量:二元变量(Binary variable),0到1的连续变量(概率)•隐变量服从逻辑分布•优点:处理二元变量最常用方法,系数经过指数转化可直接解释(OR),预测结果是0,1之间的概率,没有超范围预测•缺点:从log(odds)向概率转化的过程是非线性的,成S型,曲线中间概率变化大,两边变化小•Stata code: logit Y X1 X2…, or•概率回归(probit regression)•因变量:二元变量(Binary variable),0到1的连续变量•隐变量服从正太分布,所以与logistic区别在于link function不同•优点:预测结果是0,1之间的概率,没有超范围预测•缺点:系数不易解释•Stata code: probit Y X1 X2…回归模型—二元变量•C-loglog回归:•因变量:二元变量(Binary variable),0到1的连续变量(概率)•链接方程:•适用于小概率事件回归模型—计数变量•泊松回归(Poisson regression)•因变量:计数变量(0,1,2,3,…)•优点:系数经过指数转化可直接解释(RR),预测结果是自然数,没有超范围预测•缺点:方差=均值,无法解决过度散布问题(overdispersion)•Stata code: poisson Y X1 X2…, irr•负二项回归(negative binomial regression)•因变量:计数变量(0,1,2,3,…)•优点:系数经过指数转化可直接解释(RR),预测结果是自然数,没有超范围预测,方差>均值,可解决overdispersion•Stata code:nbreg Y X1X2…,irr回归模型—名义分类变量•多元逻辑回归(multinomial logistic regression)•因变量:名义分类变量(公共汽车,地铁,开车,骑车)•优点:系数经转化可直接解释(OR),预测值为选择各个类别的概率,所有类别概率加和为1•缺点:效率较低,无法对选项特征进行分析,IIA假设•Stata code: mlogit•条件逻辑回归(conditional logistic regression)•优点:同上,可分析选项特征对选择该选项和选择其他选项概率的影响•缺点:需要大量数据,数据需要转换成long format,较复杂,IIA假设•Stata code: asclogit(alternative specific clogit),回归模型—名义分类变量•Independent Irrelevant Alternative假设(IIA)•例子:选择公交,地铁或开车?•巢式逻辑回归(nested logistic regression)•优点:解放巢间IIA假设(巢内仍需IIA),巢内误差项可相关,选项间可存在方差异质性•缺点:复杂,仍需巢内IIA假设•Stata code:nlogit回归模型—有序分类变量•有序逻辑回归(ordered logistic regression)•因变量:有序分类变量•优点:只有一个隐变量更加有效(efficiency),可预测落入个分类的概率•缺点:proportional odds假设•Stata code:ologit回归模型—广义线性回归•广义线性回归(GLM):十分灵活•主要由家族(Family)和连接方程(Link function)两部分决定•Family:由因变量分布决定。

例如,正太分布,Gamma分布,二项分布,泊松分布,负二项分布•Link function:由因变量的值域决定。

Ø(-∞, +∞) àidentity link. E.g. linear regressionØ(0, +∞) àlog link. E.g. Poisson, nbreg, gamma regressionØ(0, 1) àlogit, probit, cloglog link. E.g. logistic, probit and cloglog regresssion •Stata code: glm Y X1 X2…, family() link()•问题:如何分析医疗费用数据?回归模型—审查数据(censored data)•风险回归(cox regression):生存数据(Time to event data)•Tobit回归:审查数据•一种两部模型(two-part model)回归模型—拟合优度•拟合优度检验(Goodness-of-fit tests)•Pearson correlation test•检验原始预测值(XB)和残差的相关性•检验自变量(Xs)和残差(residual)是否相关•如何通过检验?•Link test•用原模型对XB和XB平方项进行回归检验。

•检验线性假设是否成立•如何通过检验?•Hosmer-lemeshow test•根据XB值对残差项进行分段检验,在每段中计算残差项平均值•检验残差是否有存在特定模式•如何通过检验?倾向评分匹配(Propensity Score Matching)•匹配方法(matching method)不是模型方法•用蛮力(brutal force)对两组进行匹配,比较干预效果•例子:精确匹配•和回归方法一样,匹配法可以解决公开偏倚(overt bias),但不能解决隐藏偏倚(hidden bias)OCTexting InfectionUC倾向评分匹配—计算PS•精确匹配很难在多维情况下进行•e.g.降压药,血压,性别,年龄•PS matchingà降维,将匹配多个变量变为匹配一个变量—PS评分•如何得到PS评分?•用Logistic或者probit model预测每个人的PS评分•因变量:是否接受干预;自变量:EVERYTHING!倾向评分匹配—重合度检验•得到PS以后,检验两组PS重合度(overlaping)倾向评分匹配—匹配(matching)•Quantile matching/stratification:分若干组计算平均效果,然后取平均•逆概率加权(Inverse probability weighting):•干预组:1/PS•对照组:1/(1-PS)•Intuition?•优点:least biased results•缺点:least efficient(large SE)•Epanechnikov kernel-based matching estimator(bandwidth:0.06)•Local-linear regression based matching estimator(tricube kernel,bandwidth:)•Stata code:psmatch2 trt, out() ate pscore() kernel/llr common工具变量(Instrumental Variable)•成为工具变量的条件:•和干预密切相关,•和结局变量不相关•所以IV本质上进行了人群的随机分配•工具变量将方差(variance)分割成,内生(endogenous)和外生(exogenous)方差。

相关主题