当前位置：文档之家› 多元统计分析及spss实现

多元统计分析及spss实现

二、描述性统计
2.利用探索性分析不同性别员工当前薪金情况
p值小于0.05，通过正态性检验，即认为当前薪金分布服从正态分布
二、描述性统计
3.用比率分析比较不同性别员工的薪金增长率是否有较大差异
分析→描述统计→比率，将“当前薪金”指定为分子，将“起始薪金”指定为分母，将“性别”指定为组变量，单击“统计量”，选中：均值、置信区间、AAD、PRD、 COD，单击“继续”，单击“确定”
1.利用频率计算当前薪金的描述性统计量，并绘制
带正态检验的直方图；
2.利用探索性分析不同性别员工当前薪金情况；
3.用比率分析比较不同性别员工的薪金增长率是否有较大差异； 4.用P-P图和Q-Q图检验当前薪金是否符合正态分布
二、描述性统计
1.利用频率计算当前薪金的描述性统计量，并绘制带正态检验的直方图
无论是夹角余弦还是相关系数，它们的绝对值都小于1，作为变量近似性的度量工具，我们把它们统记为cij。当∣cij∣= 1时，说明变量Xi与Xj完全相似；当∣cij∣近似于1时，说明变量Xi与Xj非常密切；当∣cij∣ = 0时，说明变量Xi与Xj完全不一样；当∣cij∣近似于0时，说明变量Xi与Xj差别很大。据此，我们把比较相似的变量聚为一类，把不太相似的变量归到不同的类内。在实际聚类过程中，为了计算方便，我们把变量间相似性的度量公式作一个变换为 dij = 1 ∣cij∣ 或者 dij2 = 1 cij2 来表示变量间的距离远近，小则先聚成一类，这比较符合人们的一般思维习惯。
三、聚类分析——相似性度量
2、马氏距离
dij 2 (Xi , X j ) (Xi X j )' Σ1 (Xi X j )
马氏距离又称为广义欧氏距离。显然，马氏距离与上述各种距离的主要不同就是它考虑了观测变量之间的相关性。如果各变量之间相互独立，即观测变量的协方差矩阵是对角矩阵，则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。马氏距离还考虑了观测变量之间的变异性，不再受各指标量纲的影响。将原始数据作线性变换后，马氏距离不变。
一、数据处理——建立数据文件：数据编辑
（1）数据的排序：数据→排序个案… 数据→排列变量… （2）数据的转置：数据→转置…
分割文件、重组、选择个案等
一、数据处理——制图
主要通过“Graph”菜单中的选项来创建图形
二、描述性统计
例2.1：数据2.1给出了员工代码、性别、起始薪金、当前薪金等信息：
二、描述性统计
1.利用频率计算当前薪金的描述性统计量，并绘制带正态检验的直方图
二、描述性统计
2.利用探索性分析不同性别员工当前薪金情况
单击“分割文件”按钮，将“性别”指定为分组方式，选中“比较组”，单击“确定” 分析→描述统计→描述，将“当前薪金”指定为变量，单击“选项”按钮，选中所需统计量，单击“继续”，单击“确定” 分析→描述统计→探索，将“当前薪金”指定为因变量，将“性别”指定为因子，单击“绘制”，选定“直方图”，单击“继续”，单击“确定”
多元统计分析及spss实现
数理部任铭
多元统计分析方法从研究问题的角度可以分为不同的类，相应有具体解决问题的方法。
问题数据或结构性化简分类和组合变量之间的相关关系预测与决策假设的提出及检验内容尽可能简单地表示所研究的现象，但不损失很多有用的信息，并希望这种表示能够很容易的解释。方法多元回归分析、聚类分析、主成分分析、因子分析、相应分析、多维标度法、可视化分析
定义变量
数据录入
数据文件的保存数据编辑调用其它数据文件
一、数据处理——建立数据文件：定义变量
单击数据编辑窗口左下方的“Variable View”标签或双击题头（Var），进入变量定义窗口。可定义：变量名（Name）变量类型（Type）变量长度（Width）小数点位数（Decimal）变量标签（Label）变量值标签（Values）缺失值的定义方式（Missing）变量的显示宽度（Columns）变量显示的对齐方式（Align）变量的测量尺度（Measure）
三、聚类分析——聚类分析的概念及分类
聚类分析就是分析如何对样品（或变量）进行量化分类的问题。通常聚类分析分为Q型聚类和R型聚类。 Q型聚类是对样品进行分类处理； R型聚类是对变量进行分类处理。
三、聚类分析——相似性度量
在聚类之前，要首先分析样品（变量）间的相似性。样品相似性度量（距离）：即两个样品间相似程度就可用p维空间中的两点距离公式来度量。变量相似性度量（夹角余弦、相关系数）
基于所测量到的一些特征，给出好的分组方法，对相似的对象或变量分组。
变量之间是否存在相关关系，相关关系又是怎样体现。通过统计模型或最优准则，对未来进行预见或判断。检验由多元总体参数表示的某种统计假设，能够证实某种假设条件的合理性。
判别分析、聚类分析、主成分分析、可视化分析
多元回归、典型相关、主成分分析、因子分析、相应分析、多维标度法、可视化分析多元回归、判别分析、聚类分析、可视化分析多元总体参数估计、假设检验
三、聚类分析——相似性度量
变量相似性度量 1、夹角余弦
cos ij
p
xi x j xi x j
ik
2、相关系数
rij
(x
k 1 p k 1
xi )( x jk x j )
2 2 ( x x ) jk j k 1 p
( xik xi )
三、聚类分析——相似性度量
相对于数据的大小，我们更关心变量的方向及相关性
三、聚类分析——相似性度量
几种距离
1、闵式距离
dij (q ) ( xik x jk )
k 1 n 1 q q
绝对距离（ q=1）欧氏距离（ q=2）切比雪夫距离（ q=∞）
欧氏距离是常用的距离，但在解决多元数据的分析问题时，欧氏距离就显示出了它的不足之处。一是它没有考虑到总体的变异对“距离”远近的影响，显然一个变异程度大的总体可能与更多样品近些，既使它们的欧氏距离不一定最近；另外，欧氏距离受变量的量纲影响，这对多元数据的处理是不利的。为了克服这方面的不足，可用“马氏距离”的概念。
三、聚类分析——相似性度量
3．距离选择的原则
一般说来，同一批数据采用不同的距离公式，会得到不同的分类结果。产生不同结果的原因，主要是由于不同的距离公式的侧重点和实际意义都有不同。因此我们在进行聚类分析时，应注意距离公式的选择。通常选择距离公式应注意遵循以下的基本原则：（1）要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。（2）要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理，则通常就可采用欧氏距离。（3）要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题，我们应根据研究对象的特点不同做出具体分折。实际中，聚类分析前不妨试探性地多选择几个距离公式分别进行聚类，然后对聚类分析的结果进行对比分析，以确定最合适的距离测度方法。
2、描述性统计
3、聚类分析
4、主成分分析 5、因子分析 6、判别分析 7、方差分析 8、回归分析
一、数据处理
SPSS界面介绍
建立数据文件
制图
一、数据处理——SPSS界面介绍
数据编辑窗口
一、数据处理——SPSS界面介绍
结果编辑窗口
一、数据处理——建立数据文件
2．通过欧氏距离将某个样品划入离中心最近的类中，并对获得样品与失去样品的类，重新计算中心坐标；
3．重复步骤2，直到所有的样品都不能再分配时为止。
K-均值聚类法步骤流程图
寻找k个凝聚点: xi1 , xi 2 ,, xik
0 0 0 0 d ( x , x ) min d ( x , x ) G , G , , G x G 若 l im 1 jk l ij 则 l 1 2 k m;得

一、数据处理——建立数据文件：数据录入
直接录入调入数据：excel、记事本等
一、数据处理——建立数据文件：保存
选择“File”菜单的“Save”命令，可直接保存为SPSS默认的数据文件格式（*.sav）。
选择“File”菜单的“Save As”命令，弹出 “Save Data As”对话框，可选择保存为Excel （*.xls）等文件格式。
三、聚类分析——常见聚类方法
A）系统聚类法 B）K均值聚类法
三、聚类分析——常见聚类方法
A）系统聚类法
系统聚类的基本思想是：距离相近的样品（或变量）先聚成类，距离相远的后聚成类，过程一直进行下去，每个样品（或变量）总能聚到合适的类中。系统聚类过程是：假设总共有n个样品（或变量），第一步将每个样品（或变量）独自聚成一类，共有n类；第二步根据所确定的样品（或变量）“距离”公式，把距离较近的两个样品（或变量）聚合为一类，其它的样品（或变量）仍各自聚为一类，共聚成n 1类；第三步将“距离” 最近的两个类进一步聚成一类，共聚成n 2类；……，以上步骤一直进行下去，最后将所有的样品（或变量）全聚成一类。为了直观地反映以上的系统聚类过程，可以把整个分类系统画成一张谱系图。所以有时系统聚类也称为谱系分析。
多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。
本讲重点介绍常用的统计方法。这些方法包括聚类分析、主成分分析、因子分析、判别分析、对应分析、典型相关分析、方差分析、回归分析等。典型统计赛题：葡萄酒评价（2012年A题）
葡萄酒评价（2012年A题）

e商务文档

多元统计分析及spss实现

相关文档推荐：