本科毕业论文(设计)论文(设计)题目:有关删失数据的一些估计与模型学院:___理学院_专业:___数学与应用数学班级:___081 ____学号:___080701110241_学生姓名:___黄玉春____指导教师:___戴家佳____2012年6月 2 日贵州大学本科毕业论文(设计)诚信责任书本人郑重声明:本人所呈交的毕业论文(设计),是在导师的指导下独立进行研究所完成。
毕业论文(设计)中凡引用他人已经发表或未发表的成果、数据、观点等,均已明确注明出处。
特此声明。
论文(设计)作者签名:日期:摘要本文讨论了近几年有关删失数据的一些估计与模型,对删失数据的几种重要分类进行了讨论,并且针对这几种分类进行了叙述。
本文在第二章着重说明了删失数据的几种重要估计,其中Kaplan-Meier估计、Nelson-Alan估计、Pererson估计、Breslow估计等都是近几年在医学等领域广泛应用的概念,本文详细的阐述了这几种估计,详尽的了解了它的构成与它的定义。
本文在第三章讨论了有关删失数据的一个重要模型——Cox模型,Cox模型是近年来在医学上极为重要的一个模型,在分析删失数据的时候,Cox模型对正确评价医学方面等的治疗效果和进一本改进的治疗方案具有重要的临床意义。
本文引用Cox模型分析了乳腺癌因子与生存期之间的数量关系,建立生存模型,最后得到相对危险度来估计每个个体的生存率。
最后对Cox模型的一些局限性与应用范围提出了意见。
关键字:删失数据,Cox模型,kaplan-Meier估计,Nelson-Aalen估计The Estimation And Models Of Censored DataAbstractThis paper discusses the relevant censored data in recent years and some of its important classifications, and gives an account of the classifications.The second chapter of this paper mainly focuses on several important estimate to censored data, among which Kaplan-Meier estimate, Nelson-Alan estimate, Pererson estimate, Breslow estimate are all widely applied in medical science and other fields in recent years. This paper expatiates these estimates, their structures and definitions.In section 3 of this paper discusses an important model about the censored data--Cox model, Cox model is an extremely important model in recent years in medical , when analysis the censored data , Cox model has important clinical significances for the evaluation of medicine, the treatment effect of the and into a treatment plan of this improvement . The paper quotes Cox model to analyze the quantitative relationship between the breast cancer factor and life cycle, and establishing survival model, then get the relative risk ratio to estimate the survival rate of each individual. Finally puts forward opinions about the limitations and application range of the Cox model.Key word: Censored data,model of Cox,kaplan-Meier estimate,Nelson-Aalen estimate目录摘要 (1)第一章前言 (4)1.1.研究现状 (4)1.2删失数据基本概念 (6)1.3删失数据的几种衍生数据 (9)小结 (12)第二章删失数据的几种估计 (13)2.1 Kaplan-Meier估计 (13)2.2 Nelson-Aalen估计[22] (14)2.3 Pererson估计 (14)2.4 Breslow估计[23] (14)2.5 Buckley-James估计 (15)2.6 Lynden-Bell估计[24] (16)2.7 Turnbull估计 (17)小结 (17)第三章Cox模型 (18)3.1 C ox模型 (18)3.2 Cox模型的几种常用类型[25] (19)3.3 Cox模型分析的步骤[27] (20)3.4 Cox模型的统计描述 (21)3.5实例应用[28] (22)3.6 Cox模型的应用范围及注意事项 (25)3.7 Cox模型的局限性 (27)小结 (28)第四章总结 (29)参考文献 (30)致谢 (32)第一章 前言由于失访、改变防治方案、研究时间结束时事件尚未发生等情况, 所采集的数据中许多应该采集而未能采集, 应提交而未在一些时点上提交造成数据不完全, 这类数据称为统计学上的删失数据, 也称为截尾数据、终检数据(Data Censored ) 。
国内一些学者关于删失数据统计分析的研究主要集中在生存分析、线性回归、半参数回归参数估计等领域。
但关于Cox 回归、单指标回归参数估计的研究涉及较少。
至于在信息随机缺失机制下的研究也主要涉及线性回归及半参数回归参数估计, 其他领域涉及较少。
作为数理统计学的一个重要分支,生存分析一直是一个非常活跃的研究领域,近年来也得到迅速的发展,并在医学、工业、保险以及经济等领域有着广泛的应用。
传统的独立删失情况下的生存分析的工具、从最早期的生存表方法,到截断数据的似然方法,时间序贯计划以及技术过程与鞍方法。
此外还有生存函数的Meier -Kaplan 估计,截断数据线性回归的参数估计,极端数据的秩检验等重要的研究内容,产生了一系列良好的理论结果。
随着考虑的问题越来越复杂,人们提出了一系列新的模型,譬如Cox 模型、Aalen 相加模型等等。
其中Cox 模型是应用最为广泛的模型之一。
自从Cox D.R.,于1972年提出Cox 比例风险模型之后,引起了很多学者的关注。
Prentice ,Efron ,N.Breslow 等许多学者做出了一系列卓有成效的分析和对一些己有结果的扩展工作。
现在Cox 模型己经在工业,医疗领域得到了广泛的应用。
Cox 模型中,有两个未知的部分,一是参数口,另一个是基准生存函数(t)S 0.因而Cox 模型是一种半参数模型。
这两个未知的部分都需要利用观测数据来加以估计,当然这里个数参数的估计方法,在后人的整理中利用偏似然函数己经得到了完整的求参方法。
1.1.研究现状国内一些学者关于删失数据统计分析的研究主要集中在生存分析、线性回归、半参数回归参数估计等领域。
但关于Cox 回归、单指标回归参数估计的研究涉及较少。
至于在信息随机缺失机制下的研究也主要涉及线性回归及半参数回归参数估计, 其他领域涉及较少[1]。
线性回归模型领域文献有:秦更生等[2]证明了具有删失数据下k 近邻回归函数估计量的强相合性 。
非线性回归模型领域文献有:周秀轻等[3] 研究了随机删失数据非线性回归模型的最小一乘 LAD) (估计问题。
半参数回归领域文献有: 秦更生[4] 研究了当β为一维待估参数和删失分布G 未知时, 基于核光滑和综合数据法, 导出了β和g 的估计量。
非参数回归领域文献有:许冰等[5] 研究了删失数据非参数回归函数最近邻估计强收敛速度。
单指标回归领域文献有:国外自20 世纪80 年代末以来, 一些统计文献从不同角度根据不同假设条件, 对该模型作了一定的研究, 并提出了一系列方法. 而在国内, 有关该模型的相关文献还很少。
关于该模型删失数据的统计分析的文献更少。
生存分析领域文献有:郑祖康[6]证明了在具有删失数据的生存分析中整体估计量在D 空间的强收敛性以及弱收敛性。
时间序列分析领域文献有:何书元等[7]研究了当平稳时间序列被另外的平稳序列删失后的协方差、相关系数的估计问题。
密度估计领域文献有:王启华等[8]研究观察数据被随机右删失时参数分布族的局部渐近正态与渐近极小极大有效性。
国外文献尚未发现应用Cox 模型时对删失比例有何限制的报道。
关于删失比例对Cox 模型影响的研究,[9]Anderson 的研究认为族线性回归模型在忽略删失数据情况下与Cox 模型和Weibull 模型的效能相当,却优于简单线性回归模型,还认为族线性回归模型对删失比例的大小具有稳健性但并未考虑删失数据时其效能与Cox 模型的比较。
关于不同删失数据类型情况下的参数估计有较多研究;如Keib 等[10]提出的混合加成模型适用于左右删失和区间删失,并对忽略区间删失对模型的影响进行了模拟研究,认为会降低模型的效能;[11]Pons 用半Markov 过程对左右删失进行参数估计;[12]Dabrowska 用半参数及核估计法进行参数估计;[13]Wang 应用Carlo Monte 模拟方法对缺失数据进行了诊断;[14]Tian 则对协变量随时间变化的生存分析用核加权偏似然方法进行了参数估计;[15]Messaci 等对于混合删失用基于贝叶斯的非参数Dirichlet -Cox 模型进行参数估计;[16]Braekers 将删失数据分为有意义和无意义删失数据两种,并改进Cox 模型对含有这两种删失数据进行参数估计,同时进行了模拟研究等。
但是,上述研究均未讨论不同的删失比例对Cox 模型的影响,也未见应用Carlo Monte 方法模拟分析不同删失比例对Cox 比例风险模型回归结果的影响。
只有Heller 和[17]Simonoff 在研究BJ 模型特性时,比较了BJ 模型和Cox 模型的应用条件,提出要根据数据的删失比例、拟合效果、删失分布和生存分布形式等因素选择合适的方法,并建议当删失比例超过60%时使用Cox 回归模型,但并未讨论删失比例对Cox 回归结果的影响趋势,也未确定在应用Cox 比例风险模型进行生存分析时删失比例的限度。