当前位置:文档之家› 数据挖掘任务实例——KDDCUP

数据挖掘任务实例——KDDCUP


❖ 临床上面临的挑战,特别是在急诊室的情景,是 正确诊断一个患者有PE,然后送他们去治疗。
❖ 然而这并不容易的,PE的主要症状是dysapnea( 呼吸急促),这有多种原因,其中有一些是相对 良性的,这导致很难区分出危重PE患者。
❖ 医生面临的两个严峻的临床挑战,是诊断病人是 否患的是PE,以及确定PE的位置。
❖2. 为了找到能够表征目标医学结构的描述性特征 ,研究人员通常部署大量的实验特征,从而引入 了无关和冗余的特征。
❖3. 因为标签由医学专家创建,所以通常是杂乱的 ;并且在许多情况下没有来自活检或其它独立确 认的相关背景。
❖4. 为了能被临床接受,CAD系统必须达到极高的 性能阈值才能对医生的日常实践有用。
数据格式
❖ 我们提供了两个分别包含的训练和测试特征的矩 阵的文本文件,每一行代表一个例子,每一列代 表一个特征。
❖ 前两列提供病人标识符和PE标识符。PE标识符也 是我们目标标签变量,告诉你相应的例子是否PE 。如果它是一个PE,标签是PE标识符(正数), 如果它不是一个PE,标签设置为0。
❖ 在测试数据中,所有的标签都设置为-1(这意味 着未知)。试验数据将在2006年7月10日提供。
❖ 例如,CAD系统已被用于从X射线图像中自动检 测(潜在的癌症)的乳腺肿块和钙化,从CT(计 算机断层扫描)肺图像中检测肺结节,以及从结 肠CT图像中检测结肠息肉等。
❖ CAD应用导致一些非常有趣的数据挖掘问题:
❖1. 典型的CAD的训练数据集非常庞大,且阳性和 阴性两类极不平衡。通常,不到1%的例子是真阳 性。
❖ 计算CT血管造影(CTA)已成为PE的一个精确 的诊断工具。
❖ 然而,每个CTA研究包括数以百计的图像,每个 图像代表肺的一片。
❖ 人工看片费时费力,并且很复杂,有各种包括呼 吸运动伪影,flowrelated伪,伪影,部分容积效 应,阶梯伪影,淋巴结,与血管分叉等等在内外 观相似的(假阳性)PE。
❖ 总之,来自CAD系统的机器学习和数据挖掘任务 非常具有挑战性!
肺栓塞检测的挑战
❖ 肺栓塞是在肺动脉发生阻塞的条件下发生的。 ❖ 在大多数情况下,阻塞是由一个或更多从你身体
的其他部分来的血凝块进入肺部造成的。
❖ PE并不总是致命的,然而在美国却是排在第三位 的最常见的死亡原因,每年至少有650000例发生 。
特征产生
❖ 对于每个候选计算出一组116个的特征。其中三个 特征X,Y,Z是候选的位置。
❖ 剩余的特征是基于图像的特征,归一化到单位的 范围内,具有特定特征的含义。
❖ 注意到这些功能不一定是独立的,并且可以与其 他特征相关。
❖ 这些特征可分为三类:表示候选中体素的亮度分 布的,度量候选邻居的亮度分布的,和描述候选 的三维形状的。
❖ 在此任务中,共收集了69例提供给胸部放射学专 家,审查了每例并标出PE。
❖ 这些例子被随机分为训练集和测试集。训练集包 括38阳性和8例阴性,而测试集包含其余23例。测 试集是分开的,仅用于评估最终系统的性能。
❖ 在比赛过程中可能会有额外的训练/测试数据。任 何增加的数据将通过参赛邮件列表公布给所有已 注册的参加者并张贴在网上。
分类任务
▪ 1. 从医学图像中候选识别感兴趣的区域(Regions of Interest,ROI)
▪ 2. 计算每个候选的描述性特征
▪ 3. 在其特征的基础上对每一个候选进行分类(在这种情 况下,是PE还是不是)
❖ 在今年的KDD杯数据,步骤1和2已经做好。你的 目标是设计一系列与步骤3相关的分类器。
The PE Data
❖ 试验数据中患者号码3111和3126与训练数据中患 者号码分别为3103和3115的数据重复。从测试集 中剔除。
候选的产生和标记
❖ 每个例子通过一个候选发生器来识别潜在的PE候 选。
❖ 在候选产生过程中共识别出4429个候选:3038个 候选出现在训练集中,1391个出现在测试集中。
❖ 每个候选是一个voxels(像素的3-D模拟)的集群 ,其中每个voxel都有一个灰度值。
❖ 每个候选基于是否邻近一个由专家提供的三维地 标被标记为是否PE。
❖ 由于PEs不是完美的球体,而是不规则的物体,候 选不是位于PE上,而是位置接近,可能只是根据 其位置(错误地)被标为PE。换句话说,标签可 能是带噪声的。
❖ 同时,注意到多个候选往往对应一个单一的PE( 来自专家相同的标记)。由于每个PE具有唯一的 标识符,有可能存在多个候选具有相同的PE标识 符。换句话说,这个问题是个多实例的问题,其 中每一个阳性的例子有多个实例。
数据挖掘任务实例 ——KDD CUP
KDD CUP
❖Knowledge Discovery CUP ❖数据挖掘世界杯
2006 KDD Cup Task
❖Computer Aided Detection of Pulmonary Embolism
❖ 肺栓塞计算机辅助检测
背景描述
❖ 在过去的十年中,计算机辅助诊断(CAD)系统 已经从单纯的学术刊物领域,发展到强大的医学 临床实践的商业系统中,用以帮助医生从医学图 像中检测早期癌症。
❖5. 最后,为了进行商业销售(至少在美国),绝 大多数C
❖ 通常,该CAD系统必须表现出统计学上显著的临 床表现提高,例如,让一个(没有任何机器学习 的特别知识)社区医生在未知的情况下使用时, 有该CAD的医生的敏感性必须(显著)超出没有 CAD时他们的表现,并且没有假阳性的显著增加 (这对应可能会导致不必要的活检或昂贵的测试 )。
❖ 此外,当诊断为PE后,所给的药物是防止进一步 血栓,但是这些药物有时会导致随后的大出血和 流血,患者在诊断用药后数周仍会如此。
❖ 因此,医生必须仔细地审查每一个CAD输出的正 确性以防止过度诊断。每名患者的扫描该CAD系 统必须只给出少量的假阳性。
❖ 一个CAD系统的目标,就是自动识别PE。
❖ 在一个几乎普遍适用的CAD算法框架中,这个问 题由一个3阶段系统来解决:
相关主题