当前位置:文档之家› 分类与回归树及其应用研究_温小霓

分类与回归树及其应用研究_温小霓

DOI:10.13546/ki.tjyjc.2007.23.003
理论新探
分类与回归树及其应用研究
温小霓, 蔡汝骏
( 西安电子科技大学 经济管理学院, 西安 710071)
摘 要: 本文运用分类与回归树挖掘技术, 对西安市社会医疗保险基金中心 2005 年 1 月到 2006 年
8 月 870 个冠心病住院病例样本数据作分类回归树决策分析。分析结果表明是否手术、住院天数、医院
( 概率) , 0≤p(j|t)≤1,j=1,…,J, J 为类的个数, 在二叉树里 J=2,

" 故对于每个节点, p(j|t)=1; 同时对 病 例 中 所 有 特 征 如 医 院 i=1
级别、是否手术等进行了量化( 具体见第三部分) , 以 X≤S 或
X>S 为分支规则, 所以在树的每个节点, 通过搜索特征 p(j|t),
快速增长。3 级医院病例占总病例的比例为 63.67%, 且在“是
50%, 说明它们是决定统筹支 付 费 用 的 最 主 要 因 素 。 医 院 级
否 手 术 ”中 3 级 医 院 更 是 高 达 72.9%; 而 1 级 医 院 没 有 任 何
别的划分是我国所特有的, 医院级别越高, 医疗资源的占有
2 数据挖掘过程
图 1 统筹支付自然对数 Q- Q 图 图 2 分类回归树中的 1、2 号终结点
2.1 数据预处理
职 业 、职 工 类 型 和 年 龄 等 等 。
最初我们以西安市社会医疗保险基金中心 2005 年 1 月
2.4 分类回归树构建及评价
到 2006 年 8 月 3 个 级 别 26 家 医 院 6683 份 病 例 作 为 样 本 ,
性非常差, 故 考 虑 按 病 种 进 行 分 类 回 归 。 我 们 选 其 中 的 900
验 证 选 择 交 叉 验 证 ( K=10) 法 , 替 代 ( Surrogates) 选 择 为 自 动 。
份冠心病住院病例, 其包括统筹支付费用、是否手术、住院天
经 过 多 次 试 验 , 我 们 发 现 “是 否 住 院 ”、“住 院 天 数 ”、“医 院 级
独立变量 是否住院
重要性
0.31
正态化重要性(%) 100
住院天数 0.17 54.80
医院级别 0.159 51.20
年龄 0.011 3.70
婚姻 0.005 1.70
据并不具有这样形态, 分支效果不明
表2
显, 所以先在软件 SPSS13.0 版本使用 终结点 例数 构成比(%)
类回归树各终结点说明及统筹支付费用标准参考
本文采用 CART( Classification and Regression Tree) [1]挖 掘技术对数据进行了深入分析和挖掘, 得到许多有用的结 论。当前 CART 大都集中于研究疾病的状况, 有根据肿瘤细 胞扩散运用 CART 分析结肠直肠癌症患者的生存情况 [2], 有 运用 CART 对小儿常见病种住院总费用进行回归决策分析[3], 但 是 运 用 CART 算 法 研 究 住 院 病 人 社 会 医 疗 统 筹 支 付 的 却 很少 。 本 文 结 合 西 安 市 社 会 医 疗 保 险 病 例 数 据, 运 用 CART 算法探索社会基本医疗费用统筹支付的规律, 从中挖掘医疗 统筹支付费用的合理范围, 为社会医疗保险基金统筹支付费 用 得 到 合 理 、有 效 地 利 用 提 供 科 学 依 据 。
根据筛选出的变量, 使用 SPSS13.0 软件中的 CRT 分类
创建分类回归树, 其结果并不合理, 并且分类冗余。其原因在
回归树算法,对我们的数据进行分析。我们设定最大树深度
于 把 不 同 病 种 病 例 放 在 一 起 导 致 分 类 混 乱 , 可 读 性 、可 操 作
为 7 层, 不纯度测量选择 Gini 指数, 剪枝树选择 1 个标准差,
数等 44 个指标作为 CART 的分支特征, 我们在数据处理中
别 ”在 分 类 回 归 树 中 起 关 键 性 作 用 , “年 龄 ”、“婚 姻 ”次 之 ( 见
剔 除 30 例 病 例 , 其 主 要 包 括 有 : ①住 院 天 数 少 于 1 天 ; ②住
表 1) 。故我们选这 5 个变量作为分支特征, 得到最优 CART
院 统 筹 支 付 费 用 少 于 100 元 ; ③病 例 中 重 要 项 目 不 全 的 数
树( 见表 2) 。分类回归树重替代估计量与交叉验证估计量分
据。
别 为 0.457 与 0.494, 两 者 基 本 吻 合 , 而 且 它 们 的 标 准 误 差 分
2.2 按不同影响因素分析统筹支付
别为 0.033 与 0.034, 都非常小, 说明分类树的效果非常好。
1 分类回归树方法
我 们 用 CART 二 叉 树 分 支 特 征 和 阈 值 S 把 节 点 处 的 病 例分成 2 组, 从而产生 2 个子节点。以此递归, 产生一棵最大 树, 然后在获得最终选择树前使用贝叶斯先验分类概率和交 叉 验 证 ( cross- validation) 来 估 计 候 选 树 的 错 分 类 率 , 从 而 对 树进行剪枝。因为 CART 使用了 X≤S 或 X>S 形状的二叉树 分支, 而且被 CART 考虑到的分支在单调转换下是不变的, 所以在下面分类回归树分支及剪枝过程中, 我们将统筹支付 费用转换为自然对数。 1.1 分支规则
样本病 例 统 计 分 析 表 明 , 冠 心 病 实 施 手 术 的 病 例 有 112
分 类 回 归 树 代 表 病 例 的 一 个 最 优 划 分 。下 面 我 们 说 明 分
例, 其统筹支付费用占全部病例统筹支付费用的总额比例为
类回归树的终结点 , 图 2 列示了表 2 中的 1、2 号终结点。分
56.11%, 其均值 为 19941.07 元 , 比 没 有 实 施 手 术 的 病 例 多 了
类回归树把病例数据分成 12 个不同的类, 它们的均值介于
17493.37 元 ; 13 天 是 冠 心 病 的 平 均 住 院 天 数 , 60.3%的 病 人
6.53 与 9.76 之 间 , 且 只 有 2 号 终 结 点 的 标 准 差 超 过 1, 并 且
5816.05 元; 有 8.7%的病 人 住 了 20 天 以 上 , 其 平 均 统 筹 支 付
术 ”在 分 支 中 起 了 决 定 性 作 用 , 正 态 化 重 要 性 达 到 了 100%,
为 9915.18 元。由此得出统筹支付费用随着住院天数的增加
其 次 是 “住 院 天 数 ”、“医 院 级 别 ”, 正 态 化 重 要 性 都 超 过 了
级 别 是 统 筹 支 付 费 用 的 决 定 性 因 素 ,并 分 别 给 出 了 该 病 种 不 同 类 别 的 统 筹 支 付 费 用 的 上 限 。为 医 疗 统 筹
支付费用政策的制定提供了科学依据。
关键词: CART; 统筹支付费用; 社会医疗保险
中图分类号: O212来自文献标识码: A文章编号: 1002- 6487( 2007) 23- 0014- 02
Q(i|j)表示类 j 的病例被错分入类 i 的比例。在 CART 中
估计错判成本的方法是交叉验证法。CART 将病例样本分成
K( 通常为 10) 个大小相同的子样本, 每次从 K- 1 个子样本的
不 同 组 中 产 生 CART 树 , 运 用 剩 下 的 子 样 本 进 行 检 验 , 这 样
理论新探
病例, 说明需要手术的病人希望在好医院就诊。综上所述, 可
越高, 意味医疗技术水平越高, 越能获得信赖, 统筹支付费用
以 了 解 手 术 、住 院 天 数 、医 院 级 别 等 因 素 对 统 筹 支 付 费 用 的
也相应地高, 2 号终结点很好地说明了这一点。
影响比较大。
表1
分支特征重要性
2.3 筛选重要的变量 由于 CART 对数据要求服从正态分布, 而预处理后的数
1.2 剪枝方法
本文假设树 T 是由 Tt 个终节点组成, 那么定义的树不纯
度为:
I(T)=%i(s,t)
( 2)
t ∈ Tt
通过选定最佳分支特征 X 和最佳分支规 则 S, 我 们 选 定
一棵最小化的树。, 树的期望非均匀误判成本定义为:
JJ
R(T)="%C(j|j)Q(i|j)p(j)
( 3)
i = 1 i=1,i≠j
0 引言
自上世纪末期至今 ,中国医疗 总 费 用 占 GDP 的 比 重 持 续上升, 医疗总费用的增长速度已经高于国民经济增长速 度 。医 疗 保 险 统 筹 支 付 的 费 用 是 关 系 到 社 会 保 险 基 金 能 否 保 持 收 支 平 衡 可 持 续 发 展 的 关 键 。建 立 合 理 的 医 疗 偿 付 制 度 需 要根据从实际发生的数据中探索费用分布规律, 寻找合理的 支付标准。
基金项目: 国家自然科学基金资助项目( 70371031)
14 统计与决策 2007 年第 23 期( 总第 251 期)
我 们 假 定 病 例 被 分 入 类 j 的 先 验 概 率 为 pj, 0≤pj≤1, j=

" 1,2,…,J, pj=1; 令 p(j|t)为 在 节 点 t 中 第 j 类 的 病 例 的 比 例 i=1
的树产生 K 次, 因此, 所获得的 K 错分类率被平均后得到交 叉验证错分类率; 然后, 与( 3) 式连接后得到总的交叉验证误 判 成 本 RCV(T)。RCV(T)是 由 交 叉 验 证 中 的 子 样 本 随 机 选 取 产 生, 所以在剪枝最大树时, 我们估计它分布的标准差( SE) 。据 证, 一旦发现一棵子树的最小估计误判成本在 1 个标准差内 ( 1 标准差规则) [4], 就 应 该 停 止 搜 索 最 佳 剪 枝 树 , 此 时 的 树 即 为最优树。
相关主题