管理信息系统课程小组作业多指标面板数据的聚类分析研究——以我国15个副省级城市综合竞争力评价为例小组组长:XXXXX小组成员:XXXXXXXXXX完成时间:指导教师:徐德华目录1 选题背景与意义 (4)2 聚类分析与聚类算法 (5)2.1 聚类分析 (5)2.1.1 相关概念与定义 (5)2.1.2 相似度计量模型 (5)2.2 聚类算法 (7)2.2.1 传统聚类算法及其比较 (7)2.2.2 扩展聚类算法 (13)3 面板数据及其聚类方法 (15)3.1 面板数据概述 (15)3.1.1 概念及发展 (15)3.1.2 面板数据的特点 (15)3.1.3 面板数据的分析处理方法 (16)3.2 单指标面板数据的数据形式和聚类分析方法 (16)3.3 多指标面板数据的数据形式和聚类分析方法 (17)3.3.1 多指标面板数据的数据形式 (17)3.3.2 常见的多指标面板数据聚类分析方法 (17)4 实证研究 (23)4.1 城市竞争力研究综述 (23)4.1.1 城市竞争力内涵研究综述 (24)4.1.2 城市竞争力模型研究综述 (26)4.1.3 城市竞争力评价体系研究综述 (29)4.2 城市竞争力指标选取 (30)4.2.1 城市竞争力评价指标选取的原则 (30)4.2.2 我国15个副省级城市竞争力评价指标体系 (31)4.3聚类分析 (32)4.3.1 基于主成分分析的聚类 (32)4.3.2 基于指标距离求和的聚类 (38)4.3.2 基于概率连接函数的聚类 (40)4.4结果分析 (42)5 结论与展望 (44)5.1 结论 (44)5.2 不足与展望 (44)主要参考文献 (45)附录 (46)附录1 (46)附录2 (46)附录3 (48)1 选题背景与意义面板数据(Panel Data)作为截面数据与时间序列数据的组合数据集,同时体现了空间维度和时间维度的数字特征,克服了时间序列数据多重共线性、数据量不足等困扰,逐渐发展成为现代计量经济学领域统计分析与统计研究的重要方法和工具。
运用多元统计方法对面板数据进行聚类分析是统计学的新兴研究领域。
聚类分析作为一种数据挖掘手段,已被广泛地应用在许多领域中,包括模式识别、数据分析、图像处理、市场研究、管理评价等。
传统的聚类分析对象一般是固定时期的不同个体截面数据,二维数据聚类分析往往不能满足人们分析问题的需要,而且基于单一的固定时期的聚类分析往往抹杀了指标的动态发展趋势及其发展状态,无法预测其未来发展轨迹和所属类别。
例如:在城市竞争力聚类分析中,竞争力存在着随时间动态变化过程,仅仅固定在某一年度的截面数据分析就显得有失偏颇,如果根据一个较长时期的面板数据进行聚类分析则显得较为合理。
城市竞争力是国内近年来正在兴起的一个新课题,目前处于起步研究阶段,还未形成公认的完整体系。
经济全球化,知识经济时代的到来,促使我国城市必须进行转型改革,走上新型的发展道路。
我国现阶段的城市要从建设城市转向管理和经营城市,就是要重塑城市资源整合和配置资源机制,提高城市对社会资源的吸引力和创造社会财富的能力,从根本上就是提高城市竞争力。
城市竞争力评价是典型的综合评价,在不同的评价体系下有不同的指标指标,而且必须考虑时间因素,因此相关的数据就是典型的多指标面板数据。
1994年5月,经中央机构编制委员会第6次会议通过,决定将原来的14个计划单列市和杭州、济南2市正式确定为副省级市(其中,重庆市97年恢复直辖)。
将这15个城市定为副省级市,是中央对于区域经济发展的重要决策,加强了省级机构统筹规划和协调的地位和作用,不仅有利于加快这些城市的经济与社会发展,而且有利于更好的发挥这些中心城市的辐射作用。
在国家政策层面和经济决策权待遇同等的情况下,经过20年,这15个副省级城市的发展出现了很大差异,城市竞争力也日趋呈现差异化。
鉴于此,我们小组决定利用多指标面板数据的聚类方法对此进行探析,一方面介绍面板数据的一些处理思路,另一方面通过聚类寻找15个城市类别之间的差异,以提出相关建议。
2 聚类分析与聚类算法2.1 聚类分析2.1.1 相关概念与定义聚类分析(Cluster Analysis )又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一种方法,其目的是将有限个无标注数据划分到有限个离散的组或类中,发现数据隐藏的内部结构。
聚类分析是数据挖掘的一种重要手段,是一种无监督的模式分类方法,在分类时只依赖对象自身所具有的属性来区分对象之间的相似程度。
聚类分析作为一种有效的数据分析方法被广泛应用于数据挖掘、机器学习、图像分割、语音识别、生物信息处理等方面。
给定一个对象集合{}12,,,n X x x x =,假设每个对象,1,,i x i n =含有 m 个特征,在此用向量的方式来表示对象的特征,()12,,,i m x l l l =,聚类分析的过程就是根据对象的特征来分析对象之间的相似程度,并根据某种聚类决策准则来获得聚类结果。
聚类的结果用{}12,,,k C c c c =表示,则聚类结果满足以下条件:,1,,i c i k ≠∅=;1ki i c X ==;,,,1,,i j c c i j i j k ⋂=∅≠=。
模糊聚类的结果没有上面的约束条件,模糊聚类给出的结果只是对象隶属于每个类的程度。
通常聚类分析一般包含四个部分:(1)特征获取与指标选择;(2)计算相似度;(3)聚类分组;(4)结果分析。
2.1.2 相似度计量模型给定数据矩阵,通常需要通过某种相似度计算模型来计算相似度矩阵。
相似性计算模型一般需满足如下三个条件:(1)非负性:对于任两个对象x 和y,有0(,)1s x y ≤≤;(2)对称性:对于任两个对象x 和y,有(,)(,)s x y s y x =;(3)(,)1s x x =。
相似度的计算依赖于数据的特性,针对不同的数据类型,目前有许多相似度的计算公式,下面列出一些常见的计算公式:(1)数值型数据的相似度数值型数据的相似度通常利用数据间的距离来构造,可以利用公式(,)1(,)(,),(,)(,)1(,)1max_d x y d x y s x y s x y e s x y d x y d-===-+或将距离转化为相似度,其中max_d 表示集中数据之间的最大距离。
常见的距离公式有:◆ 闵可夫斯基(Minkowski )距离:11(,)n pp i i i d x y x y =⎛⎫=- ⎪⎝⎭∑ ◆ 切比雪夫(Chebyshev)距离:1(,)n i i i d x y x y ==∨- ◆ 马氏(Mahalanobis)距离:()()112(,)()T d x y x y S x y -=--其中,∨表示取大运算。
闵可夫斯基距离是一个一般化的距离度量,当p=1是为曼哈顿距离,当p=2是为欧式距离。
(2)二元数据的相似度二元数据是由二元变量构成,二元变量只能有两种取值状态:0或1,其中0表示该特征为空,l 表示该特征存在。
如果二元变量的两个状态是同等价值的具有同样的权重称为对称的二元变量,否则称为不对称的二元变量。
对于对称的二元变量评价两个对象和之间相似度的最著名的系数是简单匹配系数:(,)r d x y r s=+,其中r 为x 和y 取值不相同的属性的个数,s 为x 和y 取值相同的属性的个数。
对于非对称的二元变量,常用系数来表示,其中最常用的是Jacard 系数。
下面给出常见系数的计算公式,设{}12,,,n x x x x ={}12,,,n y y y y =为二元数据,常用0-0匹配表示x i =0且y i =0,同理可用0-1、1-0及1-1匹配表示x i 及y i 相应的取值,其中f ij 表示集合(){},==,1,2,,k k k k x y x i y j k n =且的基数,{},0,1i j ∈。
◆ Jacard 系数 11011011f J f f f =++ ◆ Rogers-Tanimoto 系数 1100000110112()f f RT f f f f +=+++ ◆ Sokal-Sneath-a 系数 1100000110112()22f f Sa f f f f +=+++ (3)其他相似度 ◆ 余弦相似度1cos(,),=,n i i i xy x y xy x y x x y ===∑其中◆ 相关系数构成的相似度 {}1+corr(,)s(,)(,)s(,)=2x y x y corr x y x y = 或者2.2 聚类算法2.2.1 传统聚类算法及其比较聚类分析的核心就是聚类算法,在不断的发展过程中演化出了多种经典的聚类算法,在现有文献中,传统的聚类算法主要有几种类型:划分方法、层次方法、密度方法、模型方法和网格方法。
(1)基于划分的方法对于给定的包含n个数据对象的数据库,通常基于划分的方法要求用户给定构建数据的最终划分数目k,通过采用目标函数最小化策略,将数据分成k个簇。
可以看出,算法将整个数据集划分为k个簇,同时满足以下两个条件:①每个簇至少包含一个数据对象;②每个数据对象必须属于且唯一的属于一个簇。
但在某些模糊划分技术中,如在FCM算法中,第二个要求可以放宽。
给定划分数目k,基于划分的方法首先创建一个初始划分,通常采用的方法是随机选取k个数据对象作为初始聚类中心点,然后采用一种迭代的重定位技术,尝试通过对象在划分间移动来改进划分,采用的准则是:在同一个簇中的数据对象尽可能相似,不同的簇中的数据对象尽可能相异。
根据对象在划分之间移动的衡量参数和簇的表示方法不同,基于划分的方法主要包括有K-Means法,K-中心点算法以及对他们的扩展。
(2)基于层次的方法层次的方法按数据分层建立簇,形成一棵以簇为节点的树。
根据层次如何形成,层次的方法可以分为凝聚的和分裂的。
凝聚的方法,也称自底向上的方法,该方法从数据点作为个体簇开始,每一步合并两个最接近的簇,直到所有的簇合并为一个(层次的最上层),或者达到一个终止的条件。
在这里,判断最接近的簇需要簇的临近性定义。
大多数的层次聚类算法都属于这类。
分裂的方法,也称为自顶向下的方法,它与凝聚的方法正好相反,该方法从包含所有点的一个簇开始,每一步分裂一个簇,最终每个对象在单独的一个簇中,或者达到一个终止条件,比如达到某个希望的簇数目,或者两个最近的簇之间的距离超过了某个闭值。
在这种情况下,我们需要确定每一步分裂哪一个簇,以及如何分裂。
无论是凝聚算法还是分裂算法都要采用一个划分准则,以便判定簇之间的相似性或相异性,五个广泛采用的簇间距离度量方法如下:ⅰ.最小(单链)距离:ⅱ.最大(全链)距离:ⅲ.平均值(质心)距离:,其中、是的质心 ⅳ.平均(组平均)距离:ⅴ.中心点距离:,其中、是的中心点。