当前位置:
文档之家› 基于加速遗传算法的投影寻踪聚类评价模型研究与应用_黄勇辉
基于加速遗传算法的投影寻踪聚类评价模型研究与应用_黄勇辉
Sz =
i= 1
n- 1
( 4)
nn
∑ ∑ Dz =
( R - rij )u ( R - rij )
( 5)
i= 1 j= 1
式中 , z 为序列 { z ( i )|i= 1~ n}的 均值 ; R 为求局 部密 度
的窗 口半径 , 它的 选取既 要使包 含在窗 口内的 投影点 的
平均 个数不太少 ,避免 滑动平均偏 差过大 ,又不 能使它 随
1 0. 00 0. 38 0. 67 0. 40 0. 00 0. 20 0. 80 0. 45 0. 60 0. 73 1. 00 0. 24
2 0. 10 0. 00 1. 00 0. 00 0. 05 0. 00 0. 00 0. 40 0. 00 0. 00 0. 00 0. 00
3 0. 20 1. 00 0. 92 0. 12 1. 00 1. 00 0. 45 1. 0 1. 00 1. 00 0. 80 1. 00
10 8
系 统 工 程 2009年
x( i, j ) =
x* ( i, j ) xmax ( j ) -
x min x min
( (
j) j)
,
x max ( j ) xmax ( j ) -
x* (i , j ) x min ( j )
,
x* ( i, j ): 有利因子 ( 1)
7 0. 00 1. 00 0. 00 0. 18 1. 00 0. 00 0. 00 0. 00 0. 05 0. 00 0. 79 0. 43
8 1. 00 0. 40 0. 33 0. 83 0. 00 0. 31 0. 71 0. 02 0. 06 0. 92 0. 58 0. 03
针对 上述问 题 , 学术界提 出了直 接由 样本数 据驱 动 的探索性数据分析方法 ,投影寻踪 ( Projectio n Pursuit, PP) 方法 [1,2 ]是这类 方法的典 型代表。所谓投 影寻踪 就是将 高 维数 据向低 维空间 投影 , 通过分 析低维 空间的 投影特 性 进而 来研究 高维数 据的特 征 , 是 处理多 因素复 杂问题 的 统计方法。投影寻踪聚类 ( Pro jection Pursuit Cluster, P PC) 模型 则是依 据投影 寻踪思 想建立 的聚类分 析模型 , 它 已 被广泛应用于模式识别和多因素分析领 域 [3- 12]。其基本思
想是: 把高维度的数据通过一定的组 合投影到低维度子空 间上 ,对于投影 到的构型 ,采用投 影指标函 数 (目标函 数 ) 来描述投影值 ,进而暴露原系统综合 评价问题某种分类排 序结 构的可 能性 大小 ,寻找 出使 投影 指标 函数 达到 最优 (即能反映高维度数据结构或者特征 )的投影值 ,然后根据 该投影值来分析高维度数据的分类结构特征 (即投影寻踪 聚类评价模型 )。其中 ,投影指标函数的构造 及其优化问题 是应用 PP方 法能否成功的关 键因素 ,其复杂性 在一定程 度上限 制了 P P方法 的深 入研 究和广 泛应 用。为 此 ,本文 提 出 基于 实 数 编 码 的 加速 遗 传 算 法 ( Real coding based Accelerating Genetic Alg orithm, R AG A)的 投影 寻踪 聚类 评价模型 ,并开展了相应的应用研究 。
问题较为简便和有效。
② 基于实码的加速遗传算法原理及 实现的流程
基于 实码加 速遗传 算法 ( R AG A)的选 择、交 叉、变异 是并行处理的 ,因此 R AG A实 际搜索范围广 ,得到全局最 优点的机会也 大。RA G A的循 环可逐步调 整、缩 小优化变 量的寻优区间 ,解的精度随着循环次 数的增加可望逐步提 高。
4 0. 30 0. 17 0. 42 0. 03 0. 37 0. 29 0. 30 0. 26 0. 06 0. 33 0. 93 0. 45
5 1. 00 0. 48 0. 00 1. 00 0. 42 0. 11 1. 00 0. 00 0. 66 0. 12 0. 78 0. 33
6 0. 00 0. 40 1. 00 1. 00 0. 76 0. 00 1. 00 0. 47 0. 00 0. 12 0. 00 0. 00
局部 投影点尽可 能密集 ,最好凝聚 成若干 个点团 ;而在 整
体上 投影点团之 间尽可能 分散开。基于此 ,投影 指标函 数 可构造为
Q( a) = Sz Dz
( 3)
式 中 , Sz 为投影值 z ( i)的标准差 , Dz 为投 影值 z (i )的 局
部密度 ,即
n
∑ ( z (i ) - z )2
收稿日期: 2009-08-12 基金项目: 国家自然科学基金资助项目 ( 70771046) 作者简 介: 黄勇辉 ( 1974-) , 男 , 江西南昌人 ,南京航空航天大学博士 研究生 , 江西财经大学讲师 ,研究方向: 政府绩效 与综合评价 , 系统工程 ; 朱金福 ( 1955-) , 男 ,江苏常州人 ,南京航空航天大学教授 ,博士生导师 , 研究方向: 管理智能化。
图 1 加速遣传算法实现的流程 ( 4)聚类 (优序排列 ) 把由 ( 3)求得的最佳投影方 向 a* 带入 式 ( 2)后即得各 样本 点的投影 值 z* ( i)。投影 值 z* ( i)与 z* ( j )越接近 ,表 示样 本 i 与 样本 j 越倾向 于归为 一类。按 z* ( i )值 从大到 小排序 ,据此可把对样本集进行分类 。
1 引言
常规 的系统评 价方法存在 一个共 同特点 ,即采 用“对 数据 结果或分布 特征先作 某种假定 — — 按照一 定准则 建 立显式评价函数 —— 对建立的评价函数 模型进行证实”这 样一 条证实性数 据分析方 法。目前 常用的 评价方 法有: 模 糊综合评价方法在对各指标进行“特征化”处理后 ,会出 现 不同程度的 信息丢失 ,为 评价结论带来误差 ; A HP法和 灰 色关 联评价法具 有能解决 多目标、多层次、多准 则决策 问 题的 优势 ,但 评价结果 往往受主观 因素的 支配与 干扰 ; 基 于特 征向量的最 优综合评 价法 ,不 需人为 确定权 重 ,评 价 结果接近实际 ,但难于从系统各层次把握被评对象的综 合 水平 及应采取的 技术措施。而且由 于数学 化、形 式化等 局 限性 ,这类方法对于处理某些高维度、非线 性 ,非正态评 价 问题的适应能力不强。
3 实例运用与分析
现 以 南京 地区 ( 5县 4区 )的 农 业生 产 力综 合 评价 为 例 [13] ,进一步说明 RA G A— P PC模型的应用。农业生产力 综合评价 指标体系包 括劳动生 产率、土地生产 率、农业总 产值、化肥用量、机械总动力、农村用电 量、有效灌溉 率、耕 地复种指数、每劳动力负担耕地能力 、净产值率、水稻气候 生产力和小麦气候生产力共 12项评价指标 ,因而指标样本 集共有 9个 ( 5县 4区 ) , 12个评价指标 (已归 一化处理 ) ,详见 表 1。
基于实码 的加速遗传 算法是分 别在父 代群体 的基础 上通过选择、交叉、变异算子得到 3个子代群体 ,选择 N (群 体规模 )个优秀 个体作为 下一代父代 群体。有限次 运算后 进行加速遗传 ,缩小优秀个体选择 的区间 (分别将 M 次演 化迭代的 S个优 秀个体共 M× S个体 的变化区 间作为下 一次加速 遗传的变 量区间 ) ,这样 演化迭代 与加速 遗传的 反复交替进行可实现遗传进化逐步向最优个体逼近 ,并且 随着接近 优秀个体 ,个体的 密度加大 ,这样 可在一 定程度 上减少早熟收敛的机率。加速遗传算 法的流程见图 1。
第 11期 黄勇 辉 ,朱金福: 基于加速遗传算法的投影寻踪聚类评价模型研究与应用
109
样本
六合县 江浦县 江宁县 溧水县 高淳县 浦口区 大厂区 栖霞区 雨花区
表 1 农业生产力评级指标样本集及其投 影值
序号
评价指标 j
j= 1 j= 2 j= 3 j= 4 j= 5 j= 6 j= 7 j= 8 j= 9 j= 10 j= 11 j= 12
第 27卷第 11期 (总第 191期 ) 系 统 工 程 2009年 11月 Syst ems Engineeri ng
文章编号: 1001-4098( 2009) 11-0107-04
V o l. 27, N o. 11 Nov. , 2009
基于加速遗传算法的投影寻踪聚类评价模型研究与应用( 7) Nhomakorabeaj= 1
这 是一个以 {a ( j )|j= 1~ p }为优 化变量 的复杂 非线性 优
化问 题 ,用常 规优化方 法处理较困 难。模 拟生物 优胜劣 汰
规 则与 群 体内 部染 色 体信 息 交换 机 制的 加 速遗 传 算 法
( R AG A)是一种通用的 全局优化方法 ,可用它来求解上 述
黄勇辉 1, 2 ,朱金福 1
( 1. 南京航空航天大学 民 航学院 ,江苏 南京 210016; 2. 江西财经大学 公共管理学院 ,江西 南昌 330013)
摘 要: 针对农业生产 力综合评价这类高 维指标体系决策问 题 ,采用降 维技术: 投影 寻踪分类模型 ,利用基于 实数编码的加速遗传算法优化其投影方向 ,将多维数据指标 (样本 评价指标 )转换 到低维子空 间 ,根 据投影函 数值的大小评价出样本的优劣 ,从而做出决策。该模型 最大限度地避免了传统评判中权重取值的人为干扰 ,评 价结果更为准确客观 ,为农业生产力综合评价决策及其它评判决策问题提供一条新的方法与思路 。 关键词: 投影寻踪 ;加速遗传算法 ;聚类 ;农业综合生产力 ;高维指标 中图分类号: N 945; C934 文 献标识码: A
着 n 的增大太快 , R 一般可取值为 0. 1Sz ; 距离 rij = |z ( i) z ( j )|; u( t )为单位阶跃函数 , 当 t≥ 0时其函数值为 1,当 t