数理统计
第一次课程论文
广州恒大队在2015赛季亚冠的进球数的多
元线性回归模型
学号: SY1527205
姓名:郭谢有
摘要
本赛季亚洲冠军联赛,来自中国的球队广州恒大淘宝队最终在决赛中力克阿联酋的迪拜阿赫利队,三年之内第二次夺得亚冠冠军。
为了研究恒大的夺冠过程,本文选取了恒大该赛季亚冠总共15场比赛中的进球数为因变量,对可能影响进球数的射门数、射正数等7个自变量进行统计,并进一步利用统计软件SPSS对以上数据进行了多元逐步线性回归。
最终确定了进球数与各因素之间关系的“最优”回归方程。
关键词:多元线性回归,逐步回归法,广州恒大,SPSS
目录
摘要 (11)
1.引言 (33)
2.符号说明 (33)
3.数据的采集和整理 (33)
3.1数据的采集 (33)
3.2建模 (44)
4.数据分析及计算 (44)
4.结论 (99)
参考文献 (1010)
致谢 (1010)
1.引言
一场足球比赛的进球数说明了一支球队攻击力的强弱,也是决定比赛胜负的至关因素,综合反映出这支球队的实际水平。
而作为竞技体育,足球场上影响进球数的因素很多,为了研究本赛季恒大在亚冠夺冠过程中的14场比赛中进球数与其他一些因素的关系,本论文从搜达足球和新浪体育数据库中查找了进球数和其他7个主要影响因素的数据,包括射门次数、射正次数、传球次数、传中次数、角球次数、抢断次数。
并进一步采用多元逐步回归分析方法对以上因素进行了显著性分析,从而确定了关于恒大在本赛季亚冠中进球数的最优多元线型回归方程。
2.符号说明
变量符号
进球数y
射门次数X1
射正次数X2
传球次数X3
传中次数X4
角球次数X5
抢断次数X6
3.数据的采集和整理
3.1数据的采集
本文统计数据时,查阅了搜达足球数据库,确定恒大在亚冠14场比赛中的进球数为因变量,并初步选取这14场比赛中的射门次数、射正次数、传球次数、传中次数、角球次数、抢断次数7因素为自变量,具体数据见下表1。
表1.恒大进球数与影响因素数据表
比赛轮次射门/
次
射正
数/次
传球数
/次
传中
数/次
角球
数/次
抢断/
次
控球
率/%
进球
数
1 15 7 376 19 4 16 46 1
2 9 5 328 15 5 16 41 3
3 1
4 8 372 1
5 3 1
6 53 4
4 14 6 311 2
5 5 20 42 1
5 9 1 429 21 3 22 50 0
6 15 0 351 38 13 12 56 0
7 15 3 336 22 9 18 50 1
8 5 2 327 18 5 14 45 2
9 8 2 358 9 1 10 39 3
10 17 3 391 14 5 9 47 1
11 27 9 505 31 11 15 52 2
12 9 1 610 16 3 14 68 0
13 9 3 351 19 6 16 52 0
14 8 3 534 21 5 5 62 1 3.2建模
本文选取了恒大在亚冠比赛中的进球数作为因变量y,并选取可能对进球数造成影响的因素为自变量,其中对应关系在符号说明中已经列举。
这里构建模型如下:
其中,其中为随机误差项,为常数项,为待估计的参数。
4.数据分析及计算
本文利用逐步回归法对该问题进行分析。
该方法是从一个自变量开始,视自变量对y的显著程度,从大到小地依次逐个引入回归方程,但当引入的自变量由于后面的引入而变得不显著时,要将其剔除掉。
引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步,对于每一步都要进行F值检验,以确保每次引入新的显著性自变量前回归方程中只包含对作用显著的变量。
这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。
本文运用统计软件SPSS的有关功能模块根据上述原理精选出一些配合较好
和方差贡献大的自变量组建回归方程。
为了从挑选因子中筛选出尽可能多的因子
建立模型,本系统可以自己给出F临界值,计算机默认的F
引=0.05,F
剔
=0.1,
如果入选的自变量因子数目不多,可通过人为提高F临界值的水平而筛选出更多的因子。
如此时入选的因子太多,可人为提高F临界值的水平而筛选出有代表性因子来组建模型。
如最后建立的模型的复相关系数不大,回归模型的拟合精度不太高,可根据这些入选因子来组建多元非线性模型。
该分析在默认的F
引=0.05,F
剔
=0.1时入选的自变量只有两个,因此提高F
值,因此设定F
引=0.45,F
剔
=0.55,进行多元线性回归分析,可得如下分析结果:
表2. 自变量引入和剔除表
上表2显示了自变量的引入和剔除,以及引入或剔除的方法与标准。
系统
在进行逐步回归过程中产生了4个模型,模型1是按照F检验的标准概率值,先将与y最密切的射正数(X
2
)引入模型,建立y与X2之间的一元线性回归模
型,然后再将传中数(X
4
)引入模型,建立y与X2,X4之间的二元线性模型,之后分别依次把传球数(X3),抢断数(X6)引入模型,分别建立了他们与y 之间的三元、四元线性模型,最后建立的是y与X2,X3,X4,X6之间的四元线性关系。
表3. 模型摘要
表4. 变量数分析
表5. 变量系数表
表6. 排除的变量表
图7.直方图和回归标准化残差的标准P-P图
4.结论
通过前面的SPSS逐步多元线性回归分析可以得到最优的回归方程为:
由以上回归方程可知,恒大在上赛季亚冠比赛中的进球数与射正数、传中数、传球数和抢断数呈线性相关性显著。
众多周知,一场足球比赛中的进球数与射正球门的次数有直接关系,并且传中数也能对球门造成很大的威胁,而传球数则代表一支球队在场上是否能控制住局面,抢断则有更多的反击机会,所以以上分析结果与现实情况相符合。
当然一场比赛的进球数综合了各方面的因素,甚至还受到一些偶然因素的影响,所以分析结果也存在着一些不足。
此外由于所查阅的数据不够多,只统计了恒大上赛季在亚冠的所有比赛(14场),场次不够多,并且有些变量难以统计和查找,再加之竞技体育的一些不确定性,所以上诉回归模型还有一定的漏洞和不足。
但是也从一定程度上反映了进球数这一因变量与自变量的线性关系,并能对因变量(进球数)做出近似的估计,综合来看,上述回归模型基本达到了预期的目的和效果。
参考文献
[1]孙海燕,周梦,李卫国,冯伟. 应用数理统计[M]. 北京:北京航空航天大学数
学系, 2015.
[2]搜达足球官方网站亚冠数据库.
[3]新浪网亚冠数据库.
致谢
感谢孙海燕老师上课时的严谨和认真,他严谨的教学态度、渊博的数学学识、开创性的思维、使我受益匪浅,这一学期上数理统计课学到的东西将对我今后的学习、科研产生深远的影响。
在此,再次向孙老师表示诚挚的感谢,此外也感谢数理统计各位助教老师平日作业的细心批改!另外,还感谢在撰写本次论文帮助过我的同学和舍友。