当前位置：文档之家› 9 最近邻元素

9 最近邻元素

最近邻居数量 K 在最近邻元素分析模块建模中起到了很大的作用。K 的取值不同，分类结果不同。如图 1 所示，每个实例根据其目标变量取值（0 和 1）的不同，被分入两个类别集合。当 K=5 时，目标变量取值为 1 的实例数更多，所以新实例被分到类别 1 当中。当 K=9 时，新实例被分到类别 0 当中。 Statistics 的最近邻元素分析模型既允许用户指定固定的 K 值，也支持根据具体数据自动为用户选择 K 值。
分析过程—预估汽车类型

运行设置时增加一个目标变量，Vehicle type（汽车类型），我们可以更好的了解新车型应该被匹配到哪个类型当中。要额外说明的是，增加了目标变量，最近邻元素分析过程将支持自动选择一个“最优”的邻居个数，并通过 Variable Importance（变量重要性）来衡量个案之间的距离。
功能

支持 feature selection（预测变量选择）的功能，允许在用户输入的众多的预测变量当中，只选择一部分预测变量用作建模，使得建立的模型效果更好。允许建立目标变量是连续型变量的模型，在这种情况下，目标变量的平均值或者中位数值将作为新的实例目标的预测值。
商业案例

Peers Chart（对等图）

初始内容将显示每一个焦点个案的 3 个邻居们在每一个预测变量上的取值分布。系统默认将在前 6 个用户选择的预测变量上显示数值。当我们在预测变量空间子视图当中用鼠标点击选择某个点，在右边的 Peers Chart （对等图）中，将显示该个案及它的 3 个邻居们在每一个预测变量上的取值分布。每一个单独的图表显示了某个预测变量的一维空间。比如，newCar 处于 Engine

本次分析过程只寻找 K 个最近的邻居，而不做分类和预测，所以我们没有选择目标变量。为了图形显示更加清晰，本步骤选择含有少数个案的数据集进行示例。分析结束后，“Output 输出视图”当中，双击新产生的 Model Viewer（模型视图），打开模型视图浏览器
Predictor Space （预测变量空间）视图

当向模型中引入一条新的实例，它和模型当中已经存在的每一个实例之间的距离将会被计算出来。这样，与这条新实例最相近的邻居就被区分出来了。图 1 描述了一个目标变量是离散型变量的最近邻模型，红色五角星是新实例，白色和蓝色的点是模型当中已有实例。与他最近的邻居们都被用红线连接了起来。
K的作用
计；
Variance：代表 Training （训练）数据的
计算拟合优度

Rsquare = 1-errorSummay/(Variance*(N1)) = 1- 631717.253/(4628.002*(157-1)) = 0.125
结论

理论上，Rsquare 值应该在 0 和 1 之间， Rsquare 值越接近 1，则表示所创建的模型越好。本例中的值小于 0.5，说明我们的模型不是很好。预测不是特别可信。现在来看看最近邻居数目在建模过程中是如何确定的，可以看到，当 K 值为 6 的时候，模型的 Sum of Squares Error（预测错误率）是最低的，因此最邻近元素分析自动地为我们选择了 6 作为最终的 K 值。
增加新记录
标记新记录
再增加一个新变量 partition

区分 Training( 训练数据子集 ) 和 Holdout( 测试 ) 子集，我们将已有车型视为训练数据子集，而新车型为测试子集。由于算法中规定：partition > 0 表示为训练数据
最近邻元素分析模型的分析过程
第一次分析
某汽车制造厂商的研发部门制定出两款新预研车型的技术设计指标。厂商希望将其和已经投放到市场上的已有车型的相关数据进行比较，从而分析新车型的技术指标是否符合预期，并预测新车型投放到市场之后，预期的销售额多少。在本文当中，对每一个车型实例，我们都用个案来称呼它。 Car_sales.sav
表 1.两款新预研车型的技术指标数据
最近邻元素
模型简介

最近邻元素分析是一种针对样本实例进行的分类算法，它根据某些样本实例与其他实例之间的相似性进行分类。将两个实例间的距离作为他们的“不相似度”的一种度量标准。相互临近的实例被称之为“Neighbors（邻居）” 支持两种距离，Euclidean Distance( 欧氏距离法 ) 和 City-block Distance（城区距离法）。
分析

原始数据最右边，可以看到数据增加了一列，名为“KNN_PredictedValue”，我们称其为预测值，它是对原始数据每个个案，利用所产生的模型，根据预测变量的取值计算出的目标变量值。在这一列中我们注意到，newCar 的预测 type（分类）是 0，newTruck 的预测 type （分类）是 1。下面我们来检查这些预测分类计算的是否合理。
分析过程—预测销售额

设置目标变量为 Sales in thousands（销售额（千元）），再进行一次分析，从而获得如果将两个新车型投放到市场后的预期销售额。售额是 80.818，newTruck 的预测销售额是 42.455。那么，这些预测值计算的是否合理，我们所建的模型怎么样呢？
效果分析

本例中的目标变量是连续型变量，上例中预估分类模型（目标变量是离散型）的方法在此处不再适合。我们可以通过判断该模型的统计量 Rsquare 的值，来评定所建模型的好坏。 Rsquare = 1- errorSummary/ ( Variance *( N -1) )，其中， errorSummary：代表建模后得到的错误合

三维视图，图中的三条轴分布代表了 Horsepower （马力）、Engine size（引擎尺寸）、Price in thousands（价格）三个预测变量。该视图是可交互的，用户可以通过鼠标点击和拖拽，将视图旋转到更好的视角来观察个案样本点在空间中的分布。图中的每个点都代表 training（训练分区）数据集中的个案，用圆形表示。只有两个新车型个案属于 focal（焦点）个案，其外

e商务文档

9 最近邻元素

相关文档推荐：