当前位置:文档之家› 上证指数的有序聚类分析

上证指数的有序聚类分析


2 实证分析
用中国人民银行网站提供的金融股票交易统计数据 ,采取 2007年的上证指数 A 股的最低综合股
价指数进行实证分析. 原始数据见表 1. 由于一般的统计分析软件没有有序聚类分析的实现 ,故使用
matlab7. 0软件编程实现.
表 1 原始数据
时间 1月
2月
3月
4月
5月
6月
7月
8月
9月 10月 11月 12月
i =1
Байду номын сангаас
j =1
j=1
e ( P ( n, K) ) + eA ( P ( n, K) ) .
∑ 其中 ,
x
=
1 n
n i =1
xi 是均值向量 ;
eA
( P ( n,
K) ) 叫作类间平方和 ,是反映各类之间的差异的. 当
n,
K
固定时 , ST 为一个常数. 显然 ,当 e ( P ( n, K) ) 越小 , eA ( P ( n, K) ) 越大 ,分类越合理. 因此 ,最优分法也
表 3 最小误差函数 e ( P ( i, j) )
2
3
4
5
3
3 594. 7 (2)
4
18 686 (4)
3 594. 7 (4)
5 2. 432 5e + 005 (4)
18 686 (5)
3 594. 7 (5)
6 2. 535e + 005 (4) 1. 240 7e + 005 (5) 18 686 (6) 3 594. 7 (6)
在金融市场分析中 ,技术分析和基本面分析是两大分析方法. 进行技术分析的人士认为 : ( 1)市场
行为包含一切信息 ; (2)价格呈趋势运动 ; (3)历史会重演. 对于金融时间序列研究的主要方法是建立
合适的回归预测模型. 文献 [ 1 ]对金融时间序列建立 ARCH 模型. 文献 [ 2 ]对金融时间序列建立相关
2008年 6月 第 27卷 第 3期
重庆文理学院学报 (自然科学版 ) Journal of Chongqing University of A rts and Sciences (Natural Science Edition)
Jun1, 2008 Vol127 No13
上证指数的有序聚类分析
K
∑ e ( P ( n, K) ) = D ( ij, ij+1 - 1) . j =1
考虑到总离差平方和 :
n
K
K
∑ ∑ ∑ ST >
( xi - x) ′( xi - x) ′=
D ( ij , ij+1 - 1) +
( ij+1 - ij ) ( xij, ij+1 - 1 - ′ x ) ( xij, ij+1 - 1 - x ) =
最低价 2 753. 12 2 668. 33 2 861. 18 3 359. 73 4 029. 90 3 570. 80 3 739. 50 4 494. 21 5 275. 70 5 734. 09 5 015. 93 5 034. 41
j
∑ 第 1步 :计算直径 D ( i, j) = ( xl - xij ) ′( xl - xij ) ,得到所有的直径的计算结果列于表 2. l=i
表 4 上证指数分类情况表 分类
(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12) (1, 2, 3, 4, 5, 6, 7) , (8, 9, 10, 11, 12) (1, 2, 3, 4, 5, 6, 7) , (8) , (9, 10, 11, 12) (1, 2, 3, 4, 5) , (6, 7) , (8) , (9, 10, 11, 12 ) (1, 2, 3, 4, 5) , (6, 7) , (8) , (9, 10) , (11, 12) (1, 2, 3, 4, 5) , (6, 7) , (8) , (9) , (10) , (11, 12) (1, 2, 3, 4) , (5) , (6, 7) , (8) , (9) , (10) , (11, 12) (1, 2, 3) , (4) , (5) , (6, 7) , (8) , (9) , (10) , (11, 12) (1, 2, 3) , (4) , (5) , (6) , (7) , (8) , (9) , (10) , (11, 12) (1, 2) , (3) , (4) , (5) , (6) , (7) , (8) , (9) , (10) , (11, 12) (1) , (2) , (3) , (4) , (5) , (6) , (7) , (8) , (9) , (10) , (11, 12)
m in e ( P ( 3, 2) ) = m in { D ( 1, j - 1) + D ( j, 3) } = m in{ D ( 1, 1) + D ( 2, 3) , D ( 1, 2) + D ( 3, 3) } 2≤j≤3 = m in{ 0 + 18 686, 3 594. 7 + 0} = 3 594. 7 ( 2) ,
于是 ,又得到第 K - 1类 Gk - 1 = { 1, 2, …, jK - 1}. 由类似方法依次得到分类. 可见 ,求最优解只要计算
出 { D ( i, j) , 1 ≤ i ≤ j ≤ n} 和 { e ( P ( i, j) , 1 ≤ i ≤ n, 1 ≤ j ≤ n} , 并进行适当的判断即可 . [ 4, 5 ]
为记号简单 ,变量 xi 就用下标 i来表示. 设将 n个有序变量分成 K类 ,某一分法为 :
3 [收稿日期 ]2008 - 03 - 05 [作者简介 ]杨春华 (1973 - ) ,女 ,四川自贡人 ,讲师 ,硕士.
26
P ( n, K) : { i1 = 1, i1 + 1, …, i2 - 1} { i2 , i2 + 1, …, i3 - 1} …{ iK , iK + 1, …, n} . 其中 , i1 = 1 < i2 < … < iK ≤ n. 定义这一类的误差函数为 :
7 2. 590 5e + 005 (4)
……
……
1. 265 4e + 005 (5) ……
32 916 (6) ……
17 825 (6) ……
6
……
……
……
……
……
3 594. 7 (7) ……
…… ……
第 3步 :进行分类. 例如 ,我们现在想分为 3类 ,即 k = 3. 由数据知道 , e ( P ( 12, 3) ) = 1. 069 8e + 006,相应的首次分
数据分成多个不同的组 ,使得每个组内的数据尽可能相似 ,而不同组中的数据具有明显的差别. 常用
的聚类分析不太适合金融时间的聚类分析. 我们考虑到金融时间序列的时间先后的顺序 ,建立有序聚
类分析.
本文建立金融时间序列的有序聚类分析 ,对 2007年上证指数进行实证分析. 有序聚类分析有精
确最优解方法 :费歇算法.
就是使 e ( P ( n, K) ) 达到最小的一种分法.
第 3步 : m in e ( P ( n, K) ) 的递推公式为 : i1 = 1 < i2 < … < iK≤n
m in e ( P ( n, K) ) = m in {
m in
e ( P ( j - 1, K - 1) ) + D ( j, n) }.
表 2 直径 D ij
1
2
3
4
5
……
2
3 594. 7
……
3
18 686
18 596
……
4
2. 876 5e + 005 2. 545 9e + 005 1. 242 8e + 005
……
5
1. 289 9e + 006 1. 108 2e + 006 6. 878 6e + 005 2. 245 6e + 005
杨春华 ,刘润智
(重庆文理学院 数学与计算机科学系 ,重庆 永川 402160)
[摘 要 ]本文利用多元统计分析的聚类分析法对 2007年的上证指数 A 股的最低综合股价指 数进行实证分析 ;根据金融时间序列的顺序关系进行有序聚类分析 ,将 2007年的上证指数 A 股的最低综合股价指数进行实证分析 ,并认为分为 2类或 3类较好. [关键词 ]上证指数 ;聚类分析 ;有序聚类分析 [中图分类号 ]O212 [文献标识码 ]A [文章编号 ]1673 - 8012 (2008) 03 - 0026 - 04
从而得到 1, 2, 3分为 2类是分类方法 {1, 2} , { 3} (括号内的数字代表分类达到最小的最后一类的始
27
编号 ). 其次 ,计算 m in{ e ( P ( i, j) ) , 4 ≤ i ≤ 12, 3 ≤ j ≤ 11} .
根据算法 (1)计算得到最小误差函数 e ( P ( i, j) ) ,结果列于表 3,括号内的数字含义同上.
的 AR IMA 和对误差项进行拟合等.
最常用的时间序列分析除了用上述的回归模型外 ,用得较多的是对时间序列进行分割. 时间序列
分割是将长度为 n的时间序列分为 k段 ,对各段分别使用不同的模型进行描述. 如何准确对时间序列
进行分割才能取得所需的效果 ,需要进行分析.
聚类分析是把一组物理或抽象对象按照相似性归为各类 ,也称为“无指导分类 ”. 它是将整个目标
……
相关主题