用电量需求模型分析
摘 要:主成分回归法是采用多元统计中的主成分分析方法,是对高维变量系统进行最佳综合与简化,同时也客观地确定各个指标的权重,避免主观随意性,将多元问题综合成几个单一指标形式,是一种较好的建模方法。运用主成分分析法,提取影响用电需求的主要变量,建立用电量需求预测模型,并进行了实证运用。
关键词:主成分回归法;用电量;预测模型
Abstract: Using the principal component analysis method of multivariate
statistic analysis, the Principal Component Regression (PCR) method
optimally summarizes and simplifies the multivariable system, and
objectively determines the weight of every index, avoiding subjectivity.
The PCR method, which is good for modeling, was used to select the main
variables affecting power demand, and to establish models for power demand
forecasting. The application of the models is also introduced.
Key words: Principal Component Regression (PCR) method; power consuming
amount; forecasting model.
引言
从社会经济的角度看,用电量是一个综合性很强的社会经济指标,反映了地区宏观经济的发展水平,是各行各业发展状况的一个景气指标。用电量的变化,是众多变化因素共同作用的结果。在对用电需求进行预测的时候,我们很难考虑到影响用电量变化的所有因素以及这些因素对用电量变化的影响程度。通常的做法是,选取主要影响因素,通过分解它们,达到预计的目标结果。这样的过程,其实就是提取主要变量,建立预测模型的过程。
数理统计提供了许多建立计量模型的方法,根据用电需求预测的具体情况,我们选用主成分分析法来建立需求模型,并将此方法过程实证运用。主成分分析法的工作目标,就是要在力保数据信息丢失最小的原则下,对高维变量空间进行降维处理;即在保证数据信息损失最小的前提下,经线性变换和舍弃一小部分信息,以少数的综合变量取代原始采用的多维变量。
1、 用主成分分析法构造回归模型
选取11个影响用电量需求的产品,这些产品的产量情况见表1
先将原始数据矩阵(包括因变量y)进行标准化处理。这是主成分分析的一个明显特征。每个主分量依赖于测量初始变量所用的尺度,当尺度改变时会得到不同的特征值,为了消除尺度影响,抽象出数据本质特征,需对初始变量进行标准化处理,使其方差为1。标准化处理方法如下。
sxxyii/ (1)
式中,x为样本均值;s为样本标准差
在11个自变量所构成的相关矩阵的基础上计算其特征值,结果如表2。
如果按95%的信息选取主分量则可以选取两个主分量,即第一主分量(特征值为9. 4396)和第二主分量(特征值0. 5763),这两个主分量已经几乎包含了11个变量的全部信息量。
这两个特征值所对应的特征向量值为:
第一特征向量: (0. 3143, 0. 3026, 0. 3101, 0. 2783, 0. 2519, 0. 3109, 0. 3115, 0. 3076, 0.3034, 0. 3145, 0. 3050)
第二特征向量: (-0. 052, 0. 2945, -0.047,0.3696,0.7203, -0.1922,
-0.1390, -0.2420,-0.3366, -0.1475, -0.0540)
表1 影响用电需求的11个主要产品的产量、用电量数据
序号 11种产品的产量
用电量y
1x 2x 3x 4x 5x 6x 7x 8x 9x 10x 11x
1 47 56 48. 3 7 777 2028 32. 2 7. 31 0. 3 1. 21 1. 43 26.22 10. 73
2 62. 6 110 59. 6 13743 3 500 33. 2 9. 61 1. 8 2. 28 1. 93 28 17. 65
3 68 125 60 12269 3 800 55. 6 12.85 3. 3 5. 39 1. 9 27.56 26. 84
4 35. 3 57. 6 25. 6 4 582 2 600 24. 4 6. 76 10. 6 5. 36 1. 54 10.95 24. 2
5 31. 3 20. 6 23. 5 3 891 1 296 17. 9 5. 08 13. 7 5. 61 1. 33 10.15 20. 08
6 35. 2 18. 2 26. 5 5 061 1 052 24. 8 5. 54 16. 9 7. 51 1. 47 14.23 19. 28
7 45. 3 23. 7 38. 5 7 686 1 001 37. 8 7. 14 34 8. 64 1. 57 20.38 22. 89
8 49. 5 28. 2 50 9 526 1 134 78. 8 11. 2 60. 8 13.87 1. 92 26.56 28. 94
9 59. 7 30. 5 69. 2 10515 1 545 101.6 15.89 103.9 20.05 2. 86 33.18 39. 05
10 47. 8 19. 6 52. 7 7 580 1 287 74. 9 10.86 88. 1 15.75 2. 41 23. 9 39. 09
11 17. 7 8. 1 17. 2 2 333 998 40. 2 5. 1 31. 3 6. 69 1. 55 17.56 26. 81
12 36 10. 4 37. 2 2 099 1 374 73. 3 13.14 47. 8 13.63 1. 57 27. 2 37. 19
13 62 29. 3 57. 7 10589 1 953 138.6 25.54 90. 9 18.86 2. 63 36.28 54. 09
14 97 77. 9 78. 3 13004 2 522 247 31.31 137.3 28.51 4 41.53 77. 39
15 95. 2 97. 4 74. 6 12593 2 733 270 28.79 154 28.93 4. 24 40.24 84. 02
16 118.4 102.2 58. 3 10936 2 557 233.5 28.03 169.1 28.24 3. 76 38. 2 88. 39
17 99. 9 86. 5 50 7 810 2 440 205 26. 5 143.6 22.17 3. 07 31.54 86. 32
18 151 111 110.7 9 400 3 088 288 38.61 189 29.17 5. 03 46.87 107. 94
19 1. 8 84. 1 76. 9 8 476 2 895 262 31.46 216.5 26.36 4. 46 38.62 102. 76
20 162.5 138.3 132 11682 3 678 358.6 46.21 405.8 30.42 6. 23 52.48 118. 84
21 238.2 224 202 16163 3 794 454.8 55.85 542.8 50 7. 83 55.96 139. 3
22 292.9 274.4 251.5 18796 3 838 519.2 63.77 581.3 56.68 9. 49 62.17 156. 39
23 329 287.6 259.2 21300 3 898 551.1 61.88 632.4 60.22 10.81 66.75 163. 7
相应得到两个新因子:
1z=0. 31431x′+0. 30262x′+0. 31013x′+0.27834x′+0. 25195x′+0.
31096x′+0. 31157x′+0.30768x′+0.30349x′+0.314510x′+0.305011x′ 2z=-0. 0521x′+0. 29452x′-0. 0473x′+0·36964x′+0. 72035x′
-0. 19226x′-0. 13907x′-0. 24208x′-0. 33669x′-0. 147510x′
-0. 054011x′
由此,将11维变量降为2维,从而简化了回归分析的结构。将已标准化后的变量1x′、2x′…11x′的代入1z、2z的表达式中,得到新的数据矩阵:(1iz、2iz) (i=1, 2,…23)。将iy值(用电量值,已作标准化变换处理)和新的数据1iz、2iz进行回归处理,得到如下的线性回归方程:
21049.0064.0zzy (2)
式中,1z、2z是第一、第二主分量。复相关系数R=0. 9662。
主成分分析在简化结构、消除变量之间的相关性方面起到了明显的效果,但也给回归模型的解释带来一定的复杂性,因为主分量是原始变量的线性组合,最终仍需回到原始变量中去,才能给回归模型赋予经济意义上的解释,当然,这些线性系数可以看作权重系数,在某种意义上,这些权反映了各个变量的相对重要性的数量。
表2 11个自变量所构成的相关矩阵的特征值
序号 特征值 每个特征值占总体的百分比/% 累计百分比/%
1 9. 439 89. 71 89. 71
2 0. 5763 5. 47 95. 18
3 0. 2185 2. 07 97. 25
4 0. 1775 1. 69 98. 94
5 0. 0477 0. 46 99. 40
6 0. 0244 0. 24 99. 64
7 0. 0130 0. 12 99. 76
8 0. 0105 0. 10 99. 86
9 0. 0080 0. 07 99. 94
10 0. 0047 0. 04 99. 99
11 0. 0007 0. 01 100. 00