当前位置:文档之家› 9 最近邻元素

9 最近邻元素




最近邻居数量 K 在最近邻元素分析模块建 模中起到了很大的作用。K 的取值不同, 分类结果不同。 如图 1 所示,每个实例根据其目标变量取 值(0 和 1)的不同,被分入两个类别集合。 当 K=5 时,目标变量取值为 1 的实例数更 多,所以新实例被分到类别 1 当中。 当 K=9 时,新实例被分到类别 0 当中。 Statistics 的最近邻元素分析模型既允许用 户指定固定的 K 值,也支持根据具体数据 自动为用户选择 K 值。
分析过程—预估汽车类型


运行设置时增加一个目标变量,Vehicle type(汽车类型),我们可以更好的了解 新车型应该被匹配到哪个类型当中。 要额外说明的是,增加了目标变量,最近 邻元素分析过程将支持自动选择一个“最 优”的邻居个数,并通过 Variable Importance(变量重要性)来衡量个案之 间的距离。
功能


支持 feature selection(预测变量选择)的 功能,允许在用户输入的众多的预测变量 当中,只选择一部分预测变量用作建模, 使得建立的模型效果更好。 允许建立目标变量是连续型变量的模型, 在这种情况下,目标变量的平均值或者中 位数值将作为新的实例目标的预测值。
商业案例



Peers Chart(对等图)



初始内容将显示每一个焦点个案的 3 个邻 居们在每一个预测变量上的取值分布。系 统默认将在前 6 个用户选择的预测变量上 显示数值。 当我们在预测变量空间子视图当中用鼠标 点击选择某个点,在右边的 Peers Chart (对等图)中,将显示该个案及它的 3 个 邻居们在每一个预测变量上的取值分布。 每一个单独的图表显示了某个预测变量的 一维空间。比如,newCar 处于 Engine



本次分析过程只寻找 K 个最近的邻居,而 不做分类和预测,所以我们没有选择目标 变量。 为了图形显示更加清晰,本步骤选择含有 少数个案的数据集进行示例。 分析结束后,“Output 输出视图”当中, 双击新产生的 Model Viewer(模型视图), 打开模型视图浏览器
Predictor Space (预测变量空间)视图


当向模型中引入一条新的实例,它和模型 当中已经存在的每一个实例之间的距离将 会被计算出来。这样,与这条新实例最相 近的邻居就被区分出来了。 图 1 描述了一个目标变量是离散型变量的 最近邻模型, 红色五角星是新实例,白色 和蓝色的点是模型当中已有实例。与他最 近的邻居们都被用红线连接了起来。
K的作用
计;
Variance:代表 Training (训练)数据的
计算拟合优度

Rsquare = 1-errorSummay/(Variance*(N1)) = 1- 631717.253/(4628.002*(157-1)) = 0.125
结论


理论上,Rsquare 值应该在 0 和 1 之间, Rsquare 值越接近 1,则表示所创建的模 型越好。本例中的值小于 0.5,说明我们的 模型不是很好。预测不是特别可信。 现在来看看最近邻居数目在建模过程中是 如何确定的,可以看到,当 K 值为 6 的时 候,模型的 Sum of Squares Error(预测 错误率)是最低的,因此最邻近元素分析 自动地为我们选择了 6 作为最终的 K 值。
增加新记录
标记新记录
再增加一个新变量 partition


区分 Training( 训练数据子集 ) 和 Holdout( 测试 ) 子集,我们将已有车型视为训练数 据子集,而新车型为测试子集。 由于算法中规定:partition > 0 表示为训练 数据
最近邻元素分析模型的分析过程
第一次分析
某汽车制造厂商的研发部门制定出两款新 预研车型的技术设计指标。 厂商希望将其和已经投放到市场上的已有 车型的相关数据进行比较,从而分析新车 型的技术指标是否符合预期,并预测新车 型投放到市场之后,预期的销售额多少。 在本文当中,对每一个车型实例,我们都 用个案来称呼它。 Car_sales.sav
表 1.两款新预研车型的技术指标数据
最近邻元素
模型简介



最近邻元素分析是一种针对样本实例进行 的分类算法,它根据某些样本实例与其他 实例之间的相似性进行分类。 将两个实例间的距离作为他们的“不相似 度”的一种度量标准。相互临近的实例被 称之为“Neighbors(邻居)” 支持两种距离,Euclidean Distance( 欧氏 距离法 ) 和 City-block Distance(城区距离 法)。
分析


原始数据最右边,可以看到数据增加了一 列,名为“KNN_PredictedValue”,我们称 其为预测值,它是对原始数据每个个案, 利用所产生的模型,根据预测变量的取值 计算出的目标变量值。 在这一列中我们注意到,newCar 的预测 type(分类)是 0,newTruck 的预测 type (分类)是 1。下面我们来检查这些预测 分类计算的是否合理。
分析过程—预测销售额

设置目标变量为 Sales in thousands(销售 额(千元)),再进行一次分析,从而获 得如果将两个新车型投放到市场后的预期 销售额。售额是 80.818,newTruck 的预测销售额是 42.455。 那么,这些预测值计算的是否合理,我们 所建的模型怎么样呢?
效果分析


本例中的目标变量是连续型变量,上例中 预估分类模型(目标变量是离散型)的方 法在此处不再适合。我们可以通过判断该 模型的统计量 Rsquare 的值,来评定所建 模型的好坏。 Rsquare = 1- errorSummary/ ( Variance *( N -1) ),其中, errorSummary:代表建模后得到的错误合



三维视图,图中的三条轴分布代表了 Horsepower (马力)、Engine size(引 擎尺寸)、Price in thousands(价格)三 个预测变量。 该视图是可交互的,用户可以通过鼠标点 击和拖拽,将视图旋转到更好的视角来观 察个案样本点在空间中的分布。 图中的每个点都代表 training(训练分区) 数据集中的个案,用圆形表示。只有两个 新车型个案属于 focal(焦点)个案,其外
相关主题