当前位置：文档之家› 分类与回归分析

分类与回归分析

疾病名肠道传染病
ICD-9 001-009
分类结点 1 （年龄） 0～20 岁 21～40 岁 ≥41 岁
分类结点 2 （费用类别）
结点 3 （…）
…
新组合的编码 001 002
自费公费及其它 …
003 004
从上表可以看出，经过CHAID分析，最后将肠道传染病重新组合为4个组，分别为：年龄为0～20岁的病人、年龄为20～40岁的病人、年龄为四十岁以上且费用类别为自费的病人、年龄为40岁以上且费用类别为非自费的病人
Variables in the Equation 95.0% C.I.for EXP(B) Lower Upper 1.655 17.304 2.307 1.072 850.488 1.797
Step a 1 Step b 2
drink Constant drink age Constant
B 1.677 -4.039 3.791 .328 -18.077
S.E. .599 1.237 1.508 .132 6.815
Wald 7.848 10.662 6.323 6.171 7.036
df 1 1 1 1 1
Sig . .005 .001 .012 .013 .008
Exp(B) 5.352 .018 44.299 1.388 .000
分类树与回归树分析
——决策树分类
浙江大学医学院流行病与卫生统计学教研室
沈毅
饮酒与产妇年龄发生早产的风险：
高风险低风险
浙江大学医学院流行病与卫生统计学教研室
沈毅
决策树的基本概念：
分类：决策树分为分类树和回归树两种，分类树对离散变量做决策树，回归树对连续变量做决策树。一般的数据挖掘工具，允许选择分裂条件和修剪规则，以及控制参数（最小节点的大小，最大树的深度等等）来限制决策树的过拟合（overfiting)。
预测变量引起的偏倚的算法。目标变量仅限于nominal型，
且其最后生成的是二叉树。
浙江大学医学院流行病与卫生统计学教研室
沈毅
二、模型定义
在这一步可以选择并定义目标变量和预测变量，如果选择了QUEST法，则目标变量只能为nominal型。要改变变量的类型，可以对变量类型进行重定义（define variables）。（注意：目标变量类型的不同，树枝修剪的规则也不同）
可以有多个子结点。
浙江大学医学院流行病与卫生统计学教研室
沈毅
③C&RT（Classification and Regression Trees），由Breiman
等于1984年首次提出，CART在计算过程中充分利用二叉树的结构，即根结点包含所有样本，对预测变量应用多种统计方法反复运算，
将根结点分割为两个子结点，这个过程又在子结点上重复进行，成
变量目标变量住院总费用预测变量年龄婚否性别手术护理抢救伴随病费用类别入院情况转归情况 1：0～20 岁 2：21～40 岁 3：41～60 岁 4：≥61 岁 1：未婚 2：已婚 3：离婚 4：丧偶 1：男 2：女 0：无 1：有 0：无 1：有 0：无 1：有 0：无 1：有 1：自费 2：公费 3：其它 1：一般 2：急 3：危 1：有效 2：死亡 3：其他（元）量化方法或单位
为一个回归过程，直至不可再分成为子结点为止，最后产生同质的与目标变量有关的子集。其目标是以尽量小的树将目标变量分入同
质的组中。目标变量也可以为nominal、ordinal、continuous三种
类型，其最终生成一个二叉树。
浙江大学医学院流行病与卫生统计学教研室
沈毅
④QUEST（Quick, Unbiased, Efficient Statistical Tree），由Loh和Shih于1997年提出，是一种快速且可避免由多分类
Risk 统计量平均估计误差的标准误 0.0990 0.1528
训练样本和检验样本的误差率估计值均较小，说明分类结果较为合理。通过以上分析我们可以得出结论：肠道传染病的住院总费用经过CHAID分析后，得到两个分类点，分别为年龄和费用类别，从而得到四个病例组合，其中年龄为40岁以上且费用类别为非自费的病人住院总费用最高，并且回代检验和Risk统计量的结果表明分析较为合理。
浙江大学医学院流行病与卫生统计学教研室
沈毅
七、决策树的优缺点
优点： 1、不受缺省值的影响，可充分利用缺省值。 2、对异常值不敏感。 3、树结构、判断规则呈现结果‘ 4、目标变量可以是多种类型的变量。 5、变量间存在非线性、交互效应等同样适用。缺点：不稳定（不同的随机种子、不同的结点划分、不同的算法可能获得十分不同的结果）。
浙江大学医学院流行病与卫生统计学教研室
沈毅
四、修剪树枝
在这一步中可以通过设置树状图的最大层数（Maximum Tree Depth）、根结点（Parent Node）及子结点（Child Node）的最小例数（Minimum Number of Cases）来确定生成树的终止规则（Stoping Rules）；终止规则会随着所选定算法的不同而不同；当目标变量是nominal型时，还可以估计对错误分类造成的费用（costs）；总之，这一部分比较复杂也较难掌握。
过程：通过递归分割的过程构建决策树。
寻找初始分裂：整个训练集作为产生决策树的集合，训练集每个记录必须是已
经分好类的。决定哪个属性（Field）域作为目前最好的分类指标。一般的做法是穷
尽所有的属性域，对每个属性域分裂的好坏做出量化，计算出最好的一个分裂。量化的标准是计算每个分裂的多样性（diversity）指标GINI指标。生成一棵完整的树：重复第一步，直至每个叶节点内的记录都属于同一类。数据的修剪：不同的算法有不同修剪规则（修剪成大小合适的树）。
础上继续使用分类指标对目标变量进行分类，重复上述过程直到P大
于设定的有统计意义的α值时则分类停止。目标变量可以为nominal、 ordinal、continuous三种类型，每个拆分点可以有多个子结点。
浙江大学医学院流行病与卫生统计教研室
沈毅
②Exhaustive CHAID，由Biggs于1991年提出，通过连续合并相近的对子反复检测来选择最佳拆分点，相对于CHAID法需要花费较长的时间。目标变量可以为 nominal、ordinal、continuous三种类型，其每个拆分点
浙江大学医学院流行病与卫生统计学教研室
沈毅
八、Logistic模型和多元线性回归模型与决策树比较
（一）Logistic回归与分类树比较
比较内容目标变量解释变量 Logistic 分类变量分类树分量变量
分类变量（最佳）分类或连续变量
分布
参数估计 Y与X的关系异常值的影响预测分类
二项或多项分布
浙江大学医学院流行病与卫生统计学教研室
沈毅
一、方法选择
①CHAID（Chi-squared Automatic Interaction Detector），由
Kass于1980年提出，其核心思想是：根据给定的结果变量（即目标变量）和经过筛选的特征指标（即预测变量）对样本进行最优分割，按照卡方检验的显著性进行多元列联表的自动判断分组。其分类过程是：首先选定分类的目标变量，然后用分类指标与结果变量进行交叉分类，产生一系列二维分类表，分别计算二维分类表的χ2值，比较P值的大小，以P值最小的二维表作为最佳初始分类表，在最佳二维分类的基
浙江大学医学院流行病与卫生统计学教研室
沈毅
六、注意事项
（1）熟悉欲分析资料的变量特征，合理地选择目标变量及预测变量。如上例中目标变量除住院总费用外，还可选用平均住院天数；（2）必须准确编码预测变量，并对其变量类型进行正确的设定；目标变量是连续变量时，须符合正态性的要求；（3）选用的算法不同会直接影响到模型的建立，因此，一定要根据实际情况，考虑目标变量及预测变量的类型，对树的算法作出合理的选择。对于可以同时选用几种算法的情形，可以对每种算法的结果进行分析，最后找出最佳的模型。（4）对于大样本的资料，可以选用模型验证的第二种方式进行回代检验，当样本量较小时，则应该选用第三种方式（Cross-validation）进行模型检验。（5）可以使用传统的统计模型与Tree模型的分析结果作一对比分析。
浙江大学医学院流行病与卫生统计学教研室
沈毅
五、实例分析
分类决策树（回归树）在病例组合中的应用
根据医疗资源消耗相近的原则，选取每个病例的住院总费用为分组轴心（即目标变量），以年龄、婚否、性别、手术、护理、抢救、伴随病、费用类别、入院情况、转归情况为分类结点（即预测变量），并对目标变量和预测变量进行重新编码。
浙江大学医学院流行病与卫生统计学教研室
沈毅
三、模型验证
设定合适的验证模型的方式： ①Do not validate the tree：不另外建立数据集对模型进行验证，模型的建立和检验都基于整个数据集。 ②Partition my data into subsamples：整个数据文件成两部分，即训练样本（training sample）和检验样本（testing sample），如果通过训练样本生成的模型能够较好地拟合检验样本，则表明生成的决策树对类似于当前数据集结构的更大的数据集具有较好的通用性。在生成满意的训练样本的决策树后，对样本进行检验，决策树即变为应用检验样本后的结果，接着通过考察估计误差、gain系数，可以决定生成的决策树的通用程度。当样本量较大时可以选择该法。 ③Cross-validation：该法将整个数据集拆分成数个相等大小的部分，分别以每一部分作为检验样本，其余部分作为训练样本，生成数个决策树，并计算各个决策树的危险估计（risk estimates）的平均值。该法适用于样本量较小的情形。

e商务文档

分类与回归分析

相关文档推荐：