当前位置：文档之家› 数据挖掘任务实例——KDDCUP

数据挖掘任务实例——KDDCUP

❖ 临床上面临的挑战，特别是在急诊室的情景，是正确诊断一个患者有PE，然后送他们去治疗。
❖ 然而这并不容易的，PE的主要症状是dysapnea（呼吸急促），这有多种原因，其中有一些是相对良性的，这导致很难区分出危重PE患者。
❖ 医生面临的两个严峻的临床挑战，是诊断病人是否患的是PE，以及确定PE的位置。
❖2. 为了找到能够表征目标医学结构的描述性特征，研究人员通常部署大量的实验特征，从而引入了无关和冗余的特征。
❖3. 因为标签由医学专家创建，所以通常是杂乱的；并且在许多情况下没有来自活检或其它独立确认的相关背景。
❖4. 为了能被临床接受，CAD系统必须达到极高的性能阈值才能对医生的日常实践有用。
数据格式
❖ 我们提供了两个分别包含的训练和测试特征的矩阵的文本文件，每一行代表一个例子，每一列代表一个特征。
❖ 前两列提供病人标识符和PE标识符。PE标识符也是我们目标标签变量，告诉你相应的例子是否PE 。如果它是一个PE，标签是PE标识符（正数），如果它不是一个PE，标签设置为0。
❖ 在测试数据中，所有的标签都设置为-1（这意味着未知）。试验数据将在2006年7月10日提供。
❖ 例如，CAD系统已被用于从X射线图像中自动检测（潜在的癌症）的乳腺肿块和钙化，从CT（计算机断层扫描）肺图像中检测肺结节，以及从结肠CT图像中检测结肠息肉等。
❖ CAD应用导致一些非常有趣的数据挖掘问题：
❖1. 典型的CAD的训练数据集非常庞大，且阳性和阴性两类极不平衡。通常，不到1%的例子是真阳性。
❖ 计算CT血管造影（CTA）已成为PE的一个精确的诊断工具。
❖ 然而，每个CTA研究包括数以百计的图像，每个图像代表肺的一片。
❖ 人工看片费时费力，并且很复杂，有各种包括呼吸运动伪影，flowrelated伪，伪影，部分容积效应，阶梯伪影，淋巴结，与血管分叉等等在内外观相似的（假阳性）PE。
❖ 总之，来自CAD系统的机器学习和数据挖掘任务非常具有挑战性！
肺栓塞检测的挑战
❖ 肺栓塞是在肺动脉发生阻塞的条件下发生的。 ❖ 在大多数情况下，阻塞是由一个或更多从你身体
的其他部分来的血凝块进入肺部造成的。
❖ PE并不总是致命的，然而在美国却是排在第三位的最常见的死亡原因，每年至少有650000例发生。
特征产生
❖ 对于每个候选计算出一组116个的特征。其中三个特征X，Y，Z是候选的位置。
❖ 剩余的特征是基于图像的特征，归一化到单位的范围内，具有特定特征的含义。
❖ 注意到这些功能不一定是独立的，并且可以与其他特征相关。
❖ 这些特征可分为三类：表示候选中体素的亮度分布的，度量候选邻居的亮度分布的，和描述候选的三维形状的。
❖ 在此任务中，共收集了69例提供给胸部放射学专家，审查了每例并标出PE。
❖ 这些例子被随机分为训练集和测试集。训练集包括38阳性和8例阴性，而测试集包含其余23例。测试集是分开的，仅用于评估最终系统的性能。
❖ 在比赛过程中可能会有额外的训练/测试数据。任何增加的数据将通过参赛邮件列表公布给所有已注册的参加者并张贴在网上。
分类任务
▪ 1. 从医学图像中候选识别感兴趣的区域（Regions of Interest，ROI）
▪ 2. 计算每个候选的描述性特征
▪ 3. 在其特征的基础上对每一个候选进行分类（在这种情况下，是PE还是不是）
❖ 在今年的KDD杯数据，步骤1和2已经做好。你的目标是设计一系列与步骤3相关的分类器。
The PE Data
❖ 试验数据中患者号码3111和3126与训练数据中患者号码分别为3103和3115的数据重复。从测试集中剔除。
候选的产生和标记
❖ 每个例子通过一个候选发生器来识别潜在的PE候选。
❖ 在候选产生过程中共识别出4429个候选：3038个候选出现在训练集中，1391个出现在测试集中。
❖ 每个候选是一个voxels（像素的3-D模拟）的集群，其中每个voxel都有一个灰度值。
❖ 每个候选基于是否邻近一个由专家提供的三维地标被标记为是否PE。
❖ 由于PEs不是完美的球体，而是不规则的物体，候选不是位于PE上，而是位置接近，可能只是根据其位置（错误地）被标为PE。换句话说，标签可能是带噪声的。
❖ 同时，注意到多个候选往往对应一个单一的PE（来自专家相同的标记）。由于每个PE具有唯一的标识符，有可能存在多个候选具有相同的PE标识符。换句话说，这个问题是个多实例的问题，其中每一个阳性的例子有多个实例。
数据挖掘任务实例 ——KDD CUP
KDD CUP
❖Knowledge Discovery CUP ❖数据挖掘世界杯
2006 KDD Cup Task
❖Computer Aided Detection of Pulmonary Embolism
❖ 肺栓塞计算机辅助检测
背景描述
❖ 在过去的十年中，计算机辅助诊断（CAD）系统已经从单纯的学术刊物领域，发展到强大的医学临床实践的商业系统中，用以帮助医生从医学图像中检测早期癌症。
❖5. 最后，为了进行商业销售（至少在美国），绝大多数C
❖ 通常，该CAD系统必须表现出统计学上显著的临床表现提高，例如，让一个（没有任何机器学习的特别知识）社区医生在未知的情况下使用时，有该CAD的医生的敏感性必须（显著）超出没有 CAD时他们的表现，并且没有假阳性的显著增加（这对应可能会导致不必要的活检或昂贵的测试）。
❖ 此外，当诊断为PE后，所给的药物是防止进一步血栓，但是这些药物有时会导致随后的大出血和流血，患者在诊断用药后数周仍会如此。
❖ 因此，医生必须仔细地审查每一个CAD输出的正确性以防止过度诊断。每名患者的扫描该CAD系统必须只给出少量的假阳性。
❖ 一个CAD系统的目标，就是自动识别PE。
❖ 在一个几乎普遍适用的CAD算法框架中，这个问题由一个3阶段系统来解决：

e商务文档

数据挖掘任务实例——KDDCUP

相关文档推荐：