聚类分析与判别分析区别
ij
表示
:
cos
!
ij
=
p
a
=
1
!
x
ia
x
ja
p
a
=
1
!
x
2
・
p
a
=
1
!
x
2
"
ia
ja
1
≤
cos
!
ij
≤
1
当
cos
!
ij
=1
,
说明两个样品
x
i
与
x
j
完全相似
;
cos
!
ij
接
近
1
,
说
明
两
个
样
品
x
i
与
x
j
相
似
密
切
;
cos
!
ij
=0
,
说明
x
i
与
x
j
完全不一样
;
cos
!
ij
接近
0
,
说
明
x
i
与
x
j
差别大。把所有两两样品的相似系数都
通过聚类分析可以达到简化数据的目的
,
将
众多的样品先聚集成比较好处理的几个类别或子
集
,
然后再进行后续的多元分析。
比如在回归分析
中
,
有时不对原始数据进行拟合
,
而是对这些子集
的中心作拟合
,
可能会更有意义。又比如
,
为了研
究不同消费者群体的消费行为特征
,
可以先聚类
,
然后再利用判别分析进一步研究各个群体之间的
差异。
算出
,
可排成相似系数矩阵
:
H=
cos
!
11
,
cos
!
12
,
…
cos
!
1n
cos
!
21
,
cos
!
22
,
…
cos
!
2n
…
cos
!
n1
,
cos
!
n2
,
…
cos
!
nn
#
*
*
*
*
*
*
*
*
*
*
*
*
%
&
’
’
’
’
’
’
’
’
’
’
’
’
(
其中
cos
!
11
=cos
!
22
=
…
=cos
!
nn
=1
。
H
是一个实
对
称
阵
,
只
须
计
算
上
三
角
可以把自变量
X
的取值空间
R
p
划分为
G
个区域
R
t
,
t=1
,
…
,
G
,
使得当
X
的取值
x
属于
R
t
时后验概率在第
t
组最大
,
即
p
(
t|x
)
=
max
p
(
s|x
)
,
+
x
∈
R
t
s=1
,
…
,
G
从上面的分析越来越清晰的看到
,
在实际应
用中
,
当已知了类别的判别问题时
,
我们应选择判
别分析
;
而当我们面对大量的数据
,
杂乱无章
,
而
又需要分类时
依据
判别类型的多少与方法不同
,
分为多类判别和逐
级判别。判别分析的过程是通过建立自变量的线
性
组
合
(
或
其
他
非
线
性
函
数
)
,
使
之
能
最
佳
地
区
分
因变量的各个类别。
二、
聚类分析与判别分析的区别
1
、
基本思想不同
(
1
)
聚类分析的基本思想
我们所研究的样品或指标
(
变量
)
之间存在程
度不同的相似性
(
亲疏关系
)
,
于是根据一批样品
而判别分析的前提是已经知道分类情况
,
判
定新的观测样
品
到
已
知
组
中
。
即
由
若
干
个
不
同
的
样
本
来
构
造
判
别
函
数
,
以
此
决
定
新
的
未
知
类
别的样品属于哪一类。例如
,
炼钢产品按化学成
分
分
为
非
合
金
钢
、
低
合
金
钢
、
合
金
钢
和
不
锈
钢
,
在
测
得
所
要
判
断
钢
坯
的
化
学
成
分
后
,
就
可
以
判
定
属
于
哪
一
类
钢
种
;
某
医
院
已
有
1000
个
分
别
患
有
胃
炎
、
肝
炎
、
合并协方差阵估计
,
t=1
,
…
,
G
为组的下
标
,
共有
G
个组。
S
t
:
第
t
组的协方差阵
q
t
:
第
t
组出现的先验概率
p
(
t|x
)
:
自变量为
x
的观测属于第
t
组的后验
概率
f
t
(
x
)
:
第
t
组的分布密度在
X=x
处的值
按照
Bayes
理论
,
自变量为
x
的观测属于第
t
组的后验概率
:
p
(
t|x
)
=q
t
f
t
(
x
)
/f
(
x
)
。
于是
,
判别分析都是多元统计中研究事物分类的基本方
法
,
但二者却存在着较大的差异。
一、
聚类分析与判别分析的基本概念
1
、
聚类分析
又称群分析、
点群分析。
根据研究对象特征对
研究对象进行分类的一种多元分析技术
,
把性质
相近的个体归为一类
,
使得同一类中的个体都具
有高度的同质性
,
不同类之间的个体具有高度的
异质性。
根据分类对象的不同分为样品聚类和变量聚类。
通过考察和比较目前自己的情况和竞争对手的情
况
,
就有可能发现潜在的新产品机会。
e
、
选择试验的市场
为了推出某项新的市场策略
,
例如开发新的
产品、
实行新的促销方式、
新的广告创意等
,
需要
进行事先的实验。
通过聚类分析
,
可将实验的对象
(
例如商店、
城市、
居民区等
)
分成同质的几个组作
为实验组和控制组。
f
、
作为多元分析的预处理
21
d
22
…
d
2n
…
…
…
…
d
n1
d
n2
…
d
nn
#
$
$
$
$
$
$
$
$
$
$
$
$
%
&
’
’
’
’
’
’
’
’
’
’
’
’
(
若
d
ij
越小
,
那么第
i
与
j
两个样品之间的性
质就越接近。性质接近的样品就可以划为一类。
b
、
常用的相似系数中如夹角余弦系数
:
将
任
何
两
个
样
品
x
i
与
x
j
看
成
维
p
空
间
的
两
个向量
,
这两个向量的夹角余弦用
cos
!
义如下
:
d
ij
=
m
k
=
1
!
(
X
ik
-
X
jk
)
2
"
其中
:
X
ik
:
第
i
个样品的第
k
个指标的观测值
X
jk
: