2011-2012学年度第二学期数据分析课程论文评定教师签名:日期:2012 年月日聚类分析和因子分析在就业人数案例中的应用摘要:中国的就业问题是一个备受关注的热点问题。
了解中国各地区各行业的就业情况,有利于更好地调整各地区更行业的就业情况,加快产业结构的转型。
本文利用2011年《中国统计年鉴》的统计数据资料,在研究各地区各行业就业人数的现状及主要问题的基础上,运用聚类分析和因子分析方法发现全国就业情况分三个类型,东南部沿海地区就业情况最好,中东部就业一般,西部、北部和中部一些地区就业情况较差。
针对这些情况对优化各地区各行业就业结构提出一些对策和建议。
关键词:就业人数;聚类分析;因子分析一、引言1、1 背景知识中国是世界上人口最多的国家,就业问题成为中国政府面临的一个十分严峻的社会问题。
就业情况的好与差与当地的经济发展水平有很大关系。
了解中国各地区各行业的就业情况,有利于更好地调整各地区更行业的就业情况,加快产业结构的转型。
在高等教育大众化的今天,就业难已经成为一个不争的事实,越来越引起社会的关注。
作为当代大学生,我们很有必要了解当前的各地区各行业的就业就业情况。
1、2 聚类分析法系统聚类法是聚类分析诸方法中用得最多的一种,其基本思想是:开始将n个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合成一类。
[1]1、3 因子分析法因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。
因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。
对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。
[2]二、聚类分析的应用2、1 聚类分析法的基本思想及方法聚类分析关注于根据一些不同种类的度量构造一些相似的对象组成的群体。
关键的思想去确定对分析目标有利的对象分类方法。
这个思想已经用于许多领域,包括天文学、考古学、医药、化学、教育、心理学、语言学和社会学。
在聚类分析前,首先把数据标准化为Z-分数,采用系统聚类(Hierachical Cluster)方法,用音差平方和法(Ward法)计算欧几里得(Eudlidean)距离。
聚类分析依据的基本原则是:直接比较样本中各事物之间的性质,,将性质相近的归为一类,而将性质差别比较大的分在不同类。
也就是说,同类事物之间的性质差异小,类与类之间的事物性质相差较大。
其中欧式距离在聚类分析中用得最广,它的表达式如下:其中Xik表示第i个样品的第k个指标的观测值,Xjk表示第j个样品的第k个指标的观测值,dij为第i个样品与第j个样品之间的欧氏距离。
若dij 越小,那么第i与j两个样品之间的性质就越接近。
性质接近的样品就可以划为一类。
当确定了样品之间的距离之后,就要对样品进行分类。
分类的方法很多,本节只介绍系统聚类法,它是聚类分析中应用最广泛的一种方法。
首先将n 个样品每个自成一类,然后每次将具有最小距离的两类合并成一类,合并后重新计算类与类之间的距离,这个过程一直持续到所有样品归为一类为止。
分类结果可以画成一张直观的聚类谱系图。
应用系统聚类法进行聚类分析的步骤如下:①确定待分类的样品的指标;②收集数据;③对数据进行变换处理(如标准化或规格化);④使各个样品自成一类,即n个样品一共有n类;⑤计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并成一类;⑥并类后,如果类的个数大于1,那么重新计算各类之间的距离,继续并类,直至所有样品归为一类为止;⑦最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果。
[3]2、2 各地区各行业就业人数的聚类分析4-7 各地区按行业分私营企业和个体就业人数(2010年底) 单位: 万人地区#制造业#建筑业#交通运输、仓储和邮政业#批发和零售业#住宿和餐饮业#租赁和商务服务业#居民服务和其他全国总计4170.2 723.5487.66388.5996.4815.4956.北京45.9 22.1 15.0 146.4 29.2 65.2 21.2 天津40.9 6.0 6.1 44.5 5.6 11.0 5.3 河北148.9 13.8 17.8 237.4 30.1 11.6 31.8 山西45.3 5.5 5.9 143.1 23.4 7.5 27.2 内蒙古30.9 8.0 13.1 114.5 26.5 9.8 22.3 辽宁149.9 34.2 67.2 259.2 37.9 27.4 41.4 吉林40.9 28.7 12.3 125.9 29.2 8.5 22.6 黑龙江52.0 11.4 15.2 159.5 38.3 14.5 59.7 上海131.9 45.1 22.2 219.2 19.2 71.1 16.8 江苏867.2 175.8 38.9 571.6 59.6 68.1 74.0 浙江638.2 53.5 24.2 380.5 47.8 57.1 53.1 安徽100.6 18.7 10.6 264.4 42.4 21.3 43.1 福建118.6 12.8 7.7 206.5 25.3 30.8 29.5 江西161.9 8.4 16.8 214.7 34.9 11.4 30.2 山东340.1 47.9 38.0 493.3 61.3 50.1 63.7 河南153.0 18.9 14.9 328.1 49.7 23.5 47.3 湖北115.3 22.8 22.8 276.0 51.6 23.1 48.8 湖南80.7 14.8 16.3 250.1 27.3 68.4 32.0 广东419.9 35.0 27.6 638.3 86.2 89.3 82.7 广西67.2 7.1 19.6 213.3 25.9 15.7 19.6 海南 5.9 6.6 4.8 33.3 7.7 7.0 7.3 重庆49.8 14.0 8.8 135.2 21.2 29.3 17.9 四川136.2 23.5 25.0 305.9 69.7 41.6 55.0 贵州23.6 4.1 6.1 75.5 14.0 5.3 12.6 云南66.0 27.9 9.6 183.7 38.0 15.5 26.2西藏 2.1 3.8 0.8 15.6 5.5 1.4 3.2 陕西66.6 30.0 8.1 134.6 34.9 12.1 21.0 甘肃21.6 8.8 2.8 87.0 20.6 4.7 13.0 青海11.0 5.4 1.6 21.9 6.9 0.8 3.8 宁夏11.2 3.1 1.7 37.9 7.2 3.4 8.7 新疆26.5 5.9 6.3 71.6 19.3 9.1 15.0数据来源:2011《中国统计年鉴》[4]先建立数据集d1,用聚类分析法在SAS输入代码得到如下聚类过程与聚类结果。
表2-1 31个地区的聚类过程图2-1 31个地区聚类结果的树状图从聚类结果可以把31个地区分为3大类第一类:江苏、浙江、山东、广东。
这些东部沿海地区都是就业人数最多的,就业现状非常好的。
第二类:河北、江西、福建、上海、湖南、辽宁、安徽、湖北、河南、四川。
这些地区各行业就业人数是一般般的。
第三类:北京、山西、重庆、陕西、内蒙古、吉林、黑龙江、广西、云南、天津、海南、宁夏、西藏、青海、贵州、新疆、甘肃。
这些大部分是北部中部和西部地区的,各行业总体上就业人数是较少的。
三、因子分析的应用利用聚类分析的方法,我们初步知道江苏、浙江、山东、广东。
这些东部沿海地区都是就业人数最多的;河北、江西、福建、上海、湖南、辽宁、安徽、湖北、河南、四川这些地区各行业就业人数是一般般的;北京、山西、重庆、陕西、内蒙古、吉林、黑龙江、广西、云南、天津、海南、宁夏、西藏、青海、贵州、新疆、甘肃,这些大部分是北部中部和西部地区的,各行业总体上就业人数是较少的。
那么能不能知道就业人数多的地区是哪些行业就业情况非常好的而使这个地区整体就业好,而哪些就业人数少的地区又是因为哪些行业就业人数少而是这些地区总体就业情况不太理想。
现在我们用因子分析法来探究一下这些问题。
3、1 因子分析的数学模型设有P 个随机变量x=(x1,x2,...xp)',其均值为μ=(μ1,μ2...μp)',协方差矩阵为∑=(σij)。
因子分析的一般模型为其中f1,f2....fm 为公共因子,ε1,ε2.....εp 为特殊因子,他们都不是可以观测的随机变量。
公共因子f1,f2....fm 出现在每一个原始变量xi(i=1,2...p)的表达式中,可理解为原始变量共同具有的公共因素;每个公共因子fj(j=1,2....m)一般至少对两个原始变量有作用,否则它将归入特殊因子。
每个特殊因子εi(i=1,2...p),仅仅出现在与之相应的第i 个原始变量xi 的表达式中,它只对这个原始变量有作用。
上式可用矩阵表示为简记为x =μ+AF +ε其中F =(f1,f2....fm)'为公共因子向量,ε=(ε1,ε2.....εp)',为特殊因子向量,A =(aij):p ×m 称为因子载荷矩阵。
通常假定E(F )=0,E(ε)=0,V(F )=0,V(ε)=D=diag(σ12,σ22,...σp 2)。
该假定和关系式构成了正交因子模型。
由上述假定可以看出公共因子彼此不相关且具有单位方差,特殊因子也彼此不相关和公共因子也不相关。
[1]3、2 各地区各行业就业人数的因子分析建立变量之间的相关系数阵R :表3-1 7个行业变量之间的相关系数阵R1111122112211222221122m m m m p p p pm m pX a F a F a F X a F a F a F X a F a F a F εεε=++++⎧⎪=++++⎪⎨⎪⎪=++++⎩111121112212222212m m p p p pm p p X a a a F X a a a F X a aa F εεε⎡⎤⎡⎤⎡⎤⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥=+⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦⎣⎦从相关系数矩阵得知:大部分的相关系数都比较高,各变量呈较强的线性关系,能够从中提取公共因子,适合进行因子分析。