当前位置:
文档之家› 应用分类树模型构建缺血性脑卒中发病风险的预测模型_刘建平
应用分类树模型构建缺血性脑卒中发病风险的预测模型_刘建平
胆固醇(mmol/L) 空腹血糖(mmol/L) HDL-C(mmol/L) G894T 多态性 A922G 多态性 T786C 多态性
分类变量 ≤5.72=0,>5.72=1 分类变量 ≤6.10=0,>6.10=1 分类变量 >1.04=1,≤1.04=0 GG=1,GT=2,TT=3 AA=1,AG=2,GG=3 TT=1,TC=2,CC=3
交 互 检 测 (chi -square automatic interaction detection, CHAID) 法建立分类树模型及其在缺血性脑卒中危险 因素筛选及发病风险预测中的应用价值。
1 对象与方法 1.1 对象 病例来自 2003 年 9 月至 2006 年 5 月期 间就诊于深圳人民医院和北京大学深圳医院的缺血性 脑卒中患者,纳入本次研究的均为首发病例,共计 309 例。所有病例按中华神经科学会第四届全国脑血管病 学术会议修订的《各类脑血管疾病诊断要点(1995)》作 为诊断标准。排除标准:排除瓣膜性心脏病、房颤、血液 病、肿瘤、脑血管畸形或动脉瘤、自身免疫性疾病等引 起的继发性脑卒中患者。对照来自研究期间社区健康 体检人群,按年龄相差±5 岁、性别和民族相同,且以前 无脑卒中病史的正常人。 1.2 流行病学调查及基因分型 采用自行设计调查 表,对所有对象采用统一的调查问卷和询问方式进行 调查。调查表内容包括:年龄、性别、文化程度、吸烟史、
酶链反应(PCR)技术对内皮性一氧化氮合酶(eNOS)的 的不同类,使之成为卡方显著性。程序根据预先设定的
3 个多态性位点(G894T、A922G、T786C)及类胰岛素生 树状水平数停止[6-7]。当预测变量较多且都是分类变量
长因子受体(IGF-1R)的 3 个多态性位点(rs2229765、 时,CHAID 分类最适宜。与 CART 法基于内部同质性
刘建平 1,程锦泉 1,张仁利 1,耿艺介 1,聂绍发 2
1. 深圳市疾病预防控制中心营养与食品卫生科,518055; 2. 华中科技大学同济医学院公共卫生学院流行病与卫生统计学系
【摘要】 目的 应用分类树模型构建缺血性脑卒中发病风险的预测模型,并评价其应用价值。 方法 采用 1∶1 配 比病例对照研究设计,选择深圳市 2 所综合性医院的 309 名缺血性脑卒中患者为病例组,同时选择按年龄、性别匹配的 健康者作为对照;采用卡方自动交互检测(CHAID)法建立缺血性脑卒中发病风险的预测模型,采用错分概率 Risk 值、索 引图及受试者工作特征曲线(ROC)评价模型的应用价值。 结果 所建立的分类树模型共包括 4 层,共 19 个结点,共筛 检出 6 个解释变量;其中最为重要的预测因素为体育锻炼和高血压病史。模型错分概率 Risk 值为 0.207,利用预测概率绘 制的 ROC 曲线下面积为 0.789,与 0.5 比较,差异有统计学意义(P=0.001),模型拟合的效果较好。结论 分类树模型不仅 能有效地拟合缺血性脑卒中发病风险的预测模型,还可以有效地筛检变量间的交互作用效应。
史、家族病史、血液生化指标、eNOS 基因型和 IGF-IR 作特征曲线(ROC 曲线)下面积对模型效果进行评价。
基因型等变量进行了定义及量化编码,见表 1。
1.4.3 模型参数 拆分及合并的显著性检验水准均定
表 1 主要变量定义及量化编码
变量名称
变量赋值
是否患缺血性脑卒中 病例=1,对照=0
为 0.05,最大的生长深度为 4 层,为充分发掘影响脑卒 中发病的潜在的影响因素,所以,设定母结点和子结点 中的最小样本含量为 40 和 20。
中国慢性病预防与控制 2012 年 6 月第 20 卷第 3 期 Chin J Prev Contr Chron Dis,June 2012,Vol. 20,No. 3
·255·
饮酒史、既往病史、家族史、体育锻炼、饮食、心理因素 程度不断自动生成父节点和子节点,卡方显著性越高,
及一般生化指标等。采用 Taqman-MGB 荧光定量聚合 越先成为预测根结点的变量,程序自动归并预测变量
DOI:10.16386/j.cjpccd.issn.1004-6194.2012.03.045
·254·
中国慢性病预防与控制 2012 年 6 月第 20 卷第 3 期 Chin J Prev Contr Chron Dis,June 2012,Vol. 20,No. 3
【论著】
应用分类树模型构建缺血性脑卒中发病风险的预测模型
影响因素相同,均为高血压病史。在缺乏体育锻炼的人 群中如果同时具有高血压病史会增加缺血性脑卒中发 生的风险,具有高血压病史的个体脑卒中发生概率 (92.5%)明显高于没有高血压病史的人群(64.2%),成 为主要的影响缺血性脑卒中发生的危险因素。而在经
IGF-IR(rs2229765) GG=1,GA=2,AA=3
年龄(岁) 性别
分类变量 <45=1,45~54=2,55~64=3,65~74= 4,>74=5 男=1,女=0
1.4.4 统计学分析 用 SPSS 13.0 分类树(Tree)模块 进行缺血性脑卒中发病风险模型的构建。
体质指数(BMI) 腰臀比(WHR)
分类变量 <25 kg/m2=0,≥25 kg/m2=1 分类变量:男性≤0.9=0,>0.9=1;女性≤0.8=0, >0.8=1
rs951715、rs2593053)进行基因分型。
原理不同,CHAID 法是以列联表卡方计算为基础的运
1.3 分类树分析变量的分级与数量化的方法 在资 算法则,更易被医务工作者理解。
料的统计学处理中,对是否罹患缺血性脑卒中、年龄、 1.4.2 模型的评价 模型提供索引图、错分概率 Risk
性别、体质指数、腰臀比、吸烟、饮酒、饮茶史、既往病 统计量对分类结果进行评价,同时还可采用受试者工
【Abstract】 Objective To introduce classification tree in building the risk model for ischemic stroke, and explore the value of this data mining technique. Methods A 1∶1 age-gender-matched case-control study was conducted. 309 patients with ischemic stroke were selected from two general hospitals in Shenzhen. The controls were selected from the same hospitals. The classification tree model was constructed using Exhaustive CHAID method and evaluated by the Risk statistics, index map and area under the ROC curve. Results The model had four stratum and nineteen nodes. Six explanatory variables were screened out in the model. The most important risk factors were physical exercise and history of hypertension. The risk value of misclassification probability of the model was 0.207, and the area under the ROC curve was 0.789 which was significantly different from 0.5, suggesting that the classification tree model fitted the actuality very well. Conclusion Classification tree model can not only properly predict the occurrences of ischemic stroke, but also reveal the complex interaction effects among the factors.
心血管疾病史
否=0,是=1
在本研究中缺血性脑卒中发病风险影响最大的影响因
心血管病家族史 脑卒中家族史 糖尿病家族史 高血压家族史 甘油三酯(mmol/L)
否=0,是=1 否=0,是=1 否=0,是=1 否=0,是=1 分类变量 ≤1.70=0,>1.70=1
素为体育锻炼,其中,很少体育锻炼的个体缺血性脑卒 中发生概率为 77.6%,明显高于经常参加体育锻炼的 人员(27.0%),成为缺血性脑卒中发病的高危人群。而 在具有不同体育锻炼的人群中筛选出缺血性脑卒中的
【关键词】 缺血性脑卒中;分类树;卡方自动交互检测法 中图分类号:R743.3 文献标志码:A 文章编号:1004-6194(2012)03-0254-05
Study on the Application of Classification Tree Model in Building the Risk Model for Ischemic Stroke LIU Jian-ping, CHENG Jin-quan, ZHANG Ren-li, et al. Shenzhen Center for Disease Control and Prevention, Shenzhen 518055, China Corresponding author: CHENG Jin-quan, E-mail:cjinquan@
基金项目:国家自然科学基金资助项目(30771852);深圳市科技计划项 目(201102110)