关于排名问题的研究
37823.0
0.03
1.119255
其中出场次数最高的 10 位教练为:
表 4.1-2 排名 教练 出场次数最高的 10 位教练
Y (执教年龄) G (参赛场数)
WL (胜率)
Sum (特殊得分)
1
Mike
39
1277
0.764
15.35
Krzyzewski
2
Bob
42
1273
0.706
12.2
Knight
二、问题分析
2.1 第一题的分析
为了找出 “史上最好的大学篮球教练” ,我们首先要对找到的 3513 名教练的 数据进行初步筛选,然后运用主成分分析法,利用 MATLAB 进行程序运行,得
2
到主成分分析的初步排名,最后,我们要对模型进行分析和改进,排除次要成分 的干扰,再进行一次排名,并将这个排名与主成分分析法的排名进行对比。
Rupp ’以 13.134 分位居榜首,其执教年份达 41 年,出赛场数 1066 次,胜率高
达 0.822,遥遥领先于其他教练;而‘ R E Edmonds ’因得分为-1.00625,虽 然胜率 100%,但执教年限短,参赛少,而且无特殊获奖,所以排名最后。我们 的创新之处在于,做完以上的排名,我们又进行了一些分析,去除占比较低的主 成分,进行了第二次排名,发现这次的排名结果与上面基本保持一致,但‘ Jim
0.776
7.6
9
Hank Iba
40
1085
0.693
7.75
10
Cliff
Ellis
36
1085
0.61
10.85
对原始数据通过建模步骤 2 标准化后,求得相关系数矩阵如下:
表 4WL Sum
G
WL
Sum
1 0.969673493 0.237450116 0.671973
7
表 4.1-4
相关系数的特征值与特征向量
特征值 2.685945 0.906586 0.380446 0.027023
特征值百分比 67.15% 22.66% 9.51% 0.68% 特征向量
累计百分比 67.15% 89.81% 99.32% 100.00%
0.576316 0.583076 0.241291 0.519289
Phog Allen
Jim Boeheim
Lefty Driesell
Eddie Sutton
Denny Crum
8
后 10 名 3504 3505 3506 3507 3508 3509
C.I .Freeman
-0.98962 -0.98962 -0.99437 -0.99675 -0.99912 -0.99912 -1.0015
主成分得分和排名
4 个主成分得分
Y
G
WL
Sum
前 10 名 1 2 3 4 5 6 7 8 9 10
Adolph Rupp
Mike Krzyzewski Jim Calhoun Dean Smith Bob Knight
8.005109 7.622913 7.447418 7.291008 6.683904 6.578223 6.57755 6.441081 6.086887 5.970887
5
贡献率很小的话,我们认为该主成分是干扰因素,将其去除,减小误差。故, 最 终得分排名的模型为:
score Gi i / ( m )
i 1 m 1
k
4
(4.2-8)
其中 k 是使
/ 80% 成立的最小正整数。
i 1 i i 1 i
k
4
4.1.3 模型求解过程及结果
Calhoun ’和‘ Dean Smith ’的排名得到了纠正,使我们的结果更具说服力。
最后,我们考虑了时间轴对篮球教练的影响,写了一篇关于冠军教练 Adolph
Rupp 的文章。
针对第二题第一问,我们采用了多变量统计因子分析法。首先对我们搜集到 的 31 个省 (市、 自治区) 的 8 大类共 27 个指标进行了标准化处理, 然后利用 SPSS 软件进行因子分析,得到公因子累积贡献率、因子斜交旋转后的载荷矩阵,再由 回归法计算得出因子得分, 并以各因子的方差贡献率占 4 个因子总方差贡献率比 重作为权重进行加权求和,得出各省(市、自治区)的综合得分,进行排名。 其 中江苏位居第一位,宁夏、青海、西藏因得分较低,居于最后三位。 针对第二题第二问,我们选取了北京市,采用了灰色 GM(1,1)模型,对北 京市的综合实力进行了短期预测。
0.969673493 1 0.209491145 0.719537391
0.237450116 0.209491145 1 0.284633336
0.671973 0.719537391 0.284633336 1
可以看到,各变量间的相关系数都比较大,特别是 Y 和 G 之间,相关系数高 达 0.9696,说明执教年龄与参赛场数两者之间存在极大的信息冗余量。
(4.2-4)
经标准化处理后的数据相关系数为:
rij
1 n xki xkj ,(i, j 1, 2,3, 4) n 1 k 1
(4.2-5)
(4)对 于 相 关 系 数 矩 阵 R , 求 特 征 方 程 R I 0 的 P 个 非 负 的 特 征 值
1 , 2 , 3 , 4 。对应于特征值 i 的特征向量为:
Ci (c1i , c2i , c3i , c4i ), i 1, 2,3, 4
(5)求主成分。由特征向量组成的 4 个主成分为:
(4.2-6)
Gi c1i X 1 c2i X 2 c pi X 4
(4.2-7)
主成分 G1 , G2 , G3 , G4 之间相互无关, 且它们的方差是递减的。 方差的大小代 表该主成分所包含信息量的大小。利用教练的 4 个指标求得各主成分,再累加各 主成分得分,就得到了教练的总得分。 注意:考虑到信息不免受到一些因素的干扰(如胜率是一个估计量,存在误 差干扰) 。为了降低这些干扰的影响力,若某个主成分的方差很小,即对得分的
(4.1-1)
(2)考虑到每个变量的数量级与标准差不一样,对数据进行标准化处理, 处理方法如下:
xik [ xik x k ] / sk , i 1, 2,, n; k 1, 2,3, 4
1 n x x / n , s 式中, k ik xik xk n 1 i1 i 1
3.2 符号系统
score
最终排名 执教年龄 参赛场数 胜率
Y
G
WL
3
Sum
F1
特殊得分 公因子 1 的得分 公因子 2 的得分 公因子 3 的得分 公因子 4 的得分 各省(市、自治区) 综合得分
F2 F3
F4
F
四、模型的建立与求解
4.1 第一题模型的建立与求解
4.1.1 问题的分析
为了找出上个世纪的“史上最好的大学篮球教练” ,我们决定采用主成分分 析法,采用 Y 执教年份) 、 G (参赛场数) 、 WL (胜率)和 sum (特殊得分)作 为衡量教练排名得分的指标。首先,我们对各变量进行标准化处理。由于有四个 指标,每个指标都与排名正相关,每个指标的增加都对排名增加了得分。因此, 将每个指标对排名增加的得分增加,即为排名得分。考虑到各个指标之间可能是 相关的,导致得分重复计算,因此需要对指标进行坐标变换,使其正交旋转到互 不相关的新坐标轴上,去除冗余信息。
关于排名问题的研究
黄娇娇 李娜 陈杰
摘要
本文旨在找到“史上最好的篮球教练” ,对我国 31 个省(市、自治区)综合 实力进行排名和对北京市未来综合实力进行短期预测。 我们分别运用了主成分分 析法、因子分析法和灰色 GM (1,1) 模型,对以上问题进行解答。 针对第一题,我们首先对搜集到的上个世纪 3513 名大学篮球教练进行了初 步筛选,得出出场次数最高的 10 位教练。然后,我们对原始数据进行了标准化, 得出各变量的相关系数矩阵,可得各变量的相关系数都比较大。接着,通过主成 分分析法得分进行排名,得到前十名和后十名的大学篮球教练,其中‘ Adolph
三、模型假设与符号系统
3.1 模型假设
(1)假设教练的排名只与执教年龄、参赛场数、胜率和特殊得分相关,不受其 他因素的影响。 (2)假设所有的教练都身体健康,且他们指导的每场比赛外部环境相同,对教 练的指挥不构成干扰。 (3)假设各省(市、自治区)综合实力的排名只受我们选取的指标的影响,而 不受其他因素的干扰,或者说与其他因素相关程度非常小。
3
Jim
40
1259
0.697
13.1
6
Calhoun
4
Jim Boeheim
38
1256
0.75
11.3
5
Lou Henson
41
1195
0.649
7.45
6
Lefty
Driesell
41
1180
0.666
8.35
7
Eddie Sutton
37
1135
0.71
8.25
8
Dean Smith
36
1133
关键词: 排名 主成分分析法 因子分析法 灰色 GM (1,1) 综合实力
1
一、问题重述
1.1 第一题背景及问题
老师正在寻找在整个上个世纪的“史上最好的大学篮球教练” 。 建立数学模型选择在篮球项目中最好的教练。 并且考虑时间轴在你的分析 中是否会有影响: 比如 1913 年的教练和 2013 年的教练是否会有所不同。准备一 个 1 到 2 页的文章给体育杂志, 解释你的结果和包括一个体育迷都明白的数学模 型的非技术性解释。