当前位置：文档之家› 观察数据分析方法简介

观察数据分析方法简介

观察数据分析方法简介戴晓晨华盛顿大学公共卫生学院全球卫生系2016年9月5日提纲•背景回顾（Background Review）•回归模型（Regression Modeling）•倾向评分匹配（Propensity Score Matching）•工具变量分析（Instrumental Variable）背景回顾•观察研究（observational study）v.s实验研究（experimental study）•一些例子？•自然实验（natural experiment）是那种研究？•前瞻研究（Prospective study）v.s回顾研究（retrospective study）*本讲座不关注实验设计，只针对几种常见数据分析方法。

背景回顾•什么是观察数据（observational data）？•研究者没有进行任何干预而客观观察到的数据•例子?•原始数据（primary data）v.s二手数据（secondary data）•e.g.全国卫生服务调查，吸烟问卷调查•主题范围：基于（二手）观察数据的回顾性观察研究•e.g.大数据分析因果推断•研究的根本目的：因果推断（causal inference）•因果联系（causation）v.s相关性（correlation/association）•因果联系à相关性•相关性à? 因果联系（inference）（8条标准）•Causal Inference attempts to articulate the assumptions needed to move fromconclusions about association to conclusions about causation•例子：短信干预降低艾滋病母婴传染？因果推断•金标准：•反事实（counterfactual scenario）/潜在结果（potential outcome）•需要时光机！•本质：除了干预措施以外所有其他条件完全相同因果推断•现实世界金标准：随机对照实验（RCT ）•本质：随机分组导致两组人除了干预措施以外所有其他条件相似•所有条件包括可观察的（observed ）和不可观察的（unobserved ）•比较两组的平均效果•观察研究的因果推断：•最大障碍：混杂（confounding ）•本质：用统计方法使两组人除了干预措施以外的其他可观察的条件相似•比较两组中可观察条件相同的人的平均效果，再对这些平均效果取平均•缺点：很难解决不可观察因素对效果的混杂（hidden bias ）。

Texting InfectionUC OC回归模型—连续变量•线性回归（linear model/ OLS）：•因变量：连续变量，（计数变量）•优点：应用非常广泛，简单，系数容易解释，•缺点：5个基本假设限制，因变量偏斜（skewed），异质性方差（HSK）导致结果偏倚•Stata code: regress Y X1 X2 X3, robust•对数线性回归（log OLS）：•因变量：连续变量，（计数变量）•优点：适用于因变量偏斜（Skewed）的情况，如医疗费用数据•缺点：系数不易解释，retransformation困难，尤其在有HSK情况回归模型—二元变量•逻辑回归（logistic regression）•因变量：二元变量（Binary variable），0到1的连续变量（概率）•隐变量服从逻辑分布•优点：处理二元变量最常用方法，系数经过指数转化可直接解释（OR），预测结果是0，1之间的概率，没有超范围预测•缺点：从log(odds)向概率转化的过程是非线性的，成S型，曲线中间概率变化大，两边变化小•Stata code: logit Y X1 X2…, or•概率回归（probit regression）•因变量：二元变量（Binary variable），0到1的连续变量•隐变量服从正太分布，所以与logistic区别在于link function不同•优点：预测结果是0，1之间的概率，没有超范围预测•缺点：系数不易解释•Stata code: probit Y X1 X2…回归模型—二元变量•C-loglog回归：•因变量：二元变量（Binary variable），0到1的连续变量（概率）•链接方程：•适用于小概率事件回归模型—计数变量•泊松回归（Poisson regression）•因变量：计数变量（0，1，2，3，…）•优点：系数经过指数转化可直接解释（RR），预测结果是自然数，没有超范围预测•缺点：方差=均值，无法解决过度散布问题（overdispersion）•Stata code: poisson Y X1 X2…, irr•负二项回归（negative binomial regression）•因变量：计数变量（0，1，2，3，…）•优点：系数经过指数转化可直接解释（RR），预测结果是自然数，没有超范围预测，方差>均值，可解决overdispersion•Stata code:nbreg Y X1X2…,irr回归模型—名义分类变量•多元逻辑回归（multinomial logistic regression）•因变量：名义分类变量（公共汽车，地铁，开车，骑车）•优点：系数经转化可直接解释（OR），预测值为选择各个类别的概率，所有类别概率加和为1•缺点：效率较低，无法对选项特征进行分析，IIA假设•Stata code: mlogit•条件逻辑回归（conditional logistic regression）•优点：同上，可分析选项特征对选择该选项和选择其他选项概率的影响•缺点：需要大量数据，数据需要转换成long format，较复杂，IIA假设•Stata code: asclogit(alternative specific clogit)，回归模型—名义分类变量•Independent Irrelevant Alternative假设（IIA）•例子：选择公交，地铁或开车？•巢式逻辑回归（nested logistic regression）•优点：解放巢间IIA假设（巢内仍需IIA），巢内误差项可相关，选项间可存在方差异质性•缺点：复杂，仍需巢内IIA假设•Stata code：nlogit回归模型—有序分类变量•有序逻辑回归（ordered logistic regression）•因变量：有序分类变量•优点：只有一个隐变量更加有效（efficiency），可预测落入个分类的概率•缺点：proportional odds假设•Stata code：ologit回归模型—广义线性回归•广义线性回归（GLM）：十分灵活•主要由家族（Family）和连接方程（Link function）两部分决定•Family：由因变量分布决定。

例如，正太分布，Gamma分布，二项分布，泊松分布，负二项分布•Link function：由因变量的值域决定。

Ø(-∞, +∞) àidentity link. E.g. linear regressionØ(0, +∞) àlog link. E.g. Poisson, nbreg, gamma regressionØ(0, 1) àlogit, probit, cloglog link. E.g. logistic, probit and cloglog regresssion •Stata code: glm Y X1 X2…, family() link()•问题：如何分析医疗费用数据？回归模型—审查数据（censored data）•风险回归（cox regression）：生存数据（Time to event data）•Tobit回归：审查数据•一种两部模型（two-part model）回归模型—拟合优度•拟合优度检验（Goodness-of-fit tests）•Pearson correlation test•检验原始预测值（XB）和残差的相关性•检验自变量（Xs）和残差（residual）是否相关•如何通过检验？•Link test•用原模型对XB和XB平方项进行回归检验。

•检验线性假设是否成立•如何通过检验？•Hosmer-lemeshow test•根据XB值对残差项进行分段检验，在每段中计算残差项平均值•检验残差是否有存在特定模式•如何通过检验？倾向评分匹配（Propensity Score Matching）•匹配方法（matching method）不是模型方法•用蛮力（brutal force）对两组进行匹配，比较干预效果•例子：精确匹配•和回归方法一样，匹配法可以解决公开偏倚（overt bias），但不能解决隐藏偏倚（hidden bias）OCTexting InfectionUC倾向评分匹配—计算PS•精确匹配很难在多维情况下进行•e.g.降压药，血压，性别，年龄•PS matchingà降维，将匹配多个变量变为匹配一个变量—PS评分•如何得到PS评分？•用Logistic或者probit model预测每个人的PS评分•因变量：是否接受干预；自变量：EVERYTHING！倾向评分匹配—重合度检验•得到PS以后，检验两组PS重合度（overlaping）倾向评分匹配—匹配（matching）•Quantile matching/stratification：分若干组计算平均效果，然后取平均•逆概率加权(Inverse probability weighting):•干预组：1/PS•对照组：1/(1-PS)•Intuition？•优点：least biased results•缺点：least efficient(large SE)•Epanechnikov kernel-based matching estimator(bandwidth:0.06)•Local-linear regression based matching estimator(tricube kernel,bandwidth:)•Stata code:psmatch2 trt, out() ate pscore() kernel/llr common工具变量（Instrumental Variable）•成为工具变量的条件：•和干预密切相关，•和结局变量不相关•所以IV本质上进行了人群的随机分配•工具变量将方差（variance）分割成，内生（endogenous）和外生（exogenous）方差。

e商务文档

观察数据分析方法简介

相关文档推荐：