复里亏提(医学版) Fudan Univ J Med sci 169
乳腺癌基因芯片数据分析 蒋定锋 高 峻 赵耐青 (复旦大学公共卫生学院卫生统计与社会医学教研室 上海200032)
【摘要】 目的以乳腺癌病人的表达谱芯片数据为基础,探寻乳腺癌复发的相关基因。方法对标化芯片数据 进行缺失值处理后,分别用单因素COX回归模型和综合了聚类及多因素COX回归的综合法来筛选兴趣基因, 然后通过兴趣基因对病人做样品聚类,以灵敏度、特异度、约登指数和Kaplan.Meier法评价分类效果,最后结合 文献和蛋白质数据库探寻乳腺癌复发的相关基因。结果综合法筛出的3O个P<0,01的基因对乳腺癌病人复 发状况的预测效果最佳;单因素COX回归筛出的102个P<0,01的基因的预测效果较差;单因素C0X回归筛 出的15个P<0.001的基因预测效果最差。结论综合法筛选得到的3O个基因可用来评价病人的预后状况, 为进一步的生物学研究提供待选基因。 【关键词】乳腺癌; 基因芯片; 聚类分析; COX回归模型 【中国图书馆分类法分类号】R 737.9,0 212,1
Microarray Data Analysis for Breast Cancer JIANG Ding—feng,GAO Jun,ZHAO Nai—qing (Department ofHealth Statistics and Social Medicine,Sdmol ofPublic Health,Fudan University Shanghai 200032,Ckina) 【Abstract】Purpose To study the relapse-related genes based on gene expression profiles from breast can. cer patients with different clinical outcomes.Methods Firstly,univariate COX regression model was used to analysis the microarray data tO select the potential genes.Secondly,an integrated method composed of cluster and multivariate O0X analysis was also carried out,Then K—means cluster method was applied tO clas— sify the relapse situation of patients.Sensitivity,specificity,Youden’S index and Kaplan・Meier analysis were used tO evaluate the genes selected by different methods, Results The 30 genes(P<0.01)selected by the integrated method performed best when predicting the relapse situation of patients,The 102 genes(P<0. 01)by univariate COX analysis performed well while the 15 genes(P<0.001)by univariate COX analysis performed worst, Conclusions The 30 genes selected by the integrated method,especially the genes which were also picked out by the other two methods,are worthy of further experiments to a&ses8 the resultS of microarray. 【Key words】breast cancer;microarray;cluster analysis;COx regression model
乳腺癌是西方女性的高发肿瘤。在我国发病率 也逐年升高,尤其在京、津、沪等沿海发达地区,其中 以上海最高,1997年发病率为49/10万,居女性恶 性肿瘤的首位…。 目前具有相同症状及病理类型的患者经过相同 治疗后,在预后上存在极大差别。这说明当前乳腺 癌的分类标准有待提高,同时提示病人内在的基因 表达对病人的预后具有重要意义。基因芯片能同时 检测数千个基因的表达,了解病人特异的表达谱,为 通讯作者E mail:nqzhao@shmu edu cn 系统研究乳腺癌预后的相关基因提供了技术保证, 从而成为乳腺癌研究领域的一种常规技术。 如何对芯片产生的海量数据进行分析,以获得 有效的生物学信息来指导后续研究是乳腺癌研究的 重点和难点。我们利用Christos等 j提供的数据, 综合运用聚类和COX回归模型两种方法来筛选乳 腺癌复发的相关基因。为了克服多重比较导致假阳 性增大的危险,本研究对P值进行了控制。该芯片 数据包括99个病人的乳腺癌样品的7650个探针,
维普资讯 http://www.cqvip.com 170 复旦学报(医学版)2005年3月,32(2) 其数据矩阵为99×7 650,并且已知99个病人的其 他信息如复发与否、复发时间和失访时间等。 材料和方法 缺失值的处理 对缺失少于1/3的标化探针数 据(即至少有66个病人有该探针数据)共7 475个 探针进行缺失值处理。7 475个探针中4 404个无 任何缺失,而其他3 071个则有不同程度的缺失。 将3 071个探针分别作为应变量,4 404个探针为待 选自变量,利用SAS软件用多元逐步回归法填充缺 失值,采用前进法,人选标准a=0.001,控制模型变 量个数。 单因素COX回归分析 对7 475个探针进行 单因素COX回归分析,乳腺癌复发定义为失效事 件,结果有15个探针的P<0.001,将对数风险函数 的预测值定义为Y1 =Z (i=1,2…15);同时有 102个探针的P<0.01,将对数风险函数的预测值 定义Y2,=Z (j-=1,2…102)。 综合法分析 用单因素COX回归分析对7 475 个探针进行初筛,乳腺癌复发定义为失效事件,人选 标准a=0.1,共有816个探针入选。对816个探针 用层次聚类法聚类,组间连接法,Pearson相关系数 为指标,聚成2O类。然后用多因素COX回归模型 对每一类来筛选兴趣探针,采用逐步回归法,人选标 准P=0.01,移出标准P=0.011。结果20类中有 7类无一个探针符合人选标准,其余13类中共有30 个探针符合标准。将30个探针所在13个类的对数 风险函数预测值定义为Y3女= (k=1,2…13)。 K.Means聚类 分别以单因素COX回归分析 得到的线性预测值y1 (i=1,2…15)、y2,(j_= 1,2…102)和综合法得到的线性预测值 (是=1, 2…13)为应变量,用K.Means聚类法对99个病人 进行聚类,分成2类。 效果评价对3个聚类结果分别与病人的实际 复发状况比较,计算灵敏度、特异度和约登指数,然 后以预测分类结果为分组变量;用Kaplan—Meier法 对病人的复发时间作生存分析,评价不同方法得到 的15、102和30个兴趣探针的分类效果,结合文献 报道探寻乳腺癌复发的相关基因。 结 果 以Yl 、Y2j和y3女为指标做样品聚类后,分类 和实际复发情况见表1~3。 由表1~3可见以 3女为指标作分类,其预测效 果最佳、 2,次之,y1 最差。
表1 Y1 为指标聚类后结果 Tab 1 Cluster results by Yli Thepredi c tedstatusofthepa tients
The real status of patients Not relapse: Relapse:,S ̄rn r1l1 tPr 1 r11 lstPr 2
Not rdapse:0 Relapse:1 Sensitivity(95%confidence interva1) Specificity(95%confidence interva1) Youden’Sindex 43 11 54 19 26 45 62 37 99 26/45=0 578(0 422—0 723) 43/54:0 796(0.665—0 894) 0 578+0 796—1=0 374
Note:Cluster results of 15 probes through univariate COX analysis(P< 0 001)
表2 Y2 为指标聚类后结果 Tab 2 Cluster results by Y2] The predi c tedstatusofthepatients
The real status ofpatients Not relapse: Relapse:,S ̄rn duster1 cluster 2
NOt rdapae:0 Relapse:1 Sum Sensitivity(95%confidence interva1) Specificity(95%confidence interva1) YoudeFl’S indeX 38 16 54 6 39 45 44 55 99 39 5=0 867(0 732—0 949) 38/54=0 704(0 564—0 820) 0 867+0 704—1=0 571 Note:Cluster results of 102 probes through univariate COX analysis(P< 0.01)
表3 Y 为指标聚类后结果 Tab 3 Cluster results by Yak The p r ed ictedstatusof th epatients
The real Sta ̄S ofpatients Not rdapae: Relapse:,S ̄rn cluster 1 cluster 2
NOt relapse:0 Relapse:1 Sum Sensitivity(95%confidence intercat) Spec f citv(95%confidence interva1) Youden’S index 46 8 54 6 39 45 52 47 99 39/45=0 867(0 732—0 949) 46, 4=0 852(0 729—0 934) 0 867I}0 852—1=0 719