当前位置:文档之家› 统计学专业基础课与专业课之间的典型相关分析

统计学专业基础课与专业课之间的典型相关分析

统计学专业基础课与专业课之间的典型相关分析摘要本文基于统计学系0301-0302两个班的66名学生17门课程(包括专业基础课和专业课)的考试成绩,运用典型相关分析法研究了统计学系基础课和专业课的相关程度。

通过运用统计分析软件SAS运行得到变量间的相关系数以及标准化后的典型相关系数,进而求出典型相关变量。

最后结合分析结果和实际情况对教学提了一点小小的建议。

关键词:基础课;专业课;典型相关分析;典型相关系数Canonical Correlation Analysis Between The Major and BasicSubjects of The Statistics MajorAbstractWith the method of canonical correlation analysis,I study about the correlation between the major and basic subjects of the statistics major.The research is based on the examination scores of66students of classes0301and0302who are in the major of statistics,including only17 subjects,the major and basic subjects.The article then gives the standard canonical correlations between the variables from which we can know the canonical correlative variables.In the end,I give some suggestions about education,according to the output of the analysis and the matter of fact.Key word:basic subject,major,canonical correlation,canonical coefficients1引言对于统计学系的学生来说,对数学理论的理解和掌握要求比较高,而且更重要的是要做到融会贯通,举一反三,学会理论联系实际,并利用统计分析的方法来解决日常生产生活中的问题,因而专业基础课程(如数学分析和高等代数等)的学习无疑是相当重要的,因为它直接关系到后续专业课的学习效果。

本文通过对部分学生各个学科的成绩进行相关分析,来体现学科间的联系。

运用典型相关分析法来分析基础课(数学分析和高等代数等)和后续的专业课(如多元统计分析等)的相关程度,只希望由此能够对今后的教学提出有价值性的建议。

数据来源于统计学系03级学生的成绩,共66人17门课程(仅包括专业基础课和专业课)的成绩。

2理论背景知识2.1典型相关分析典型相关分析(Canonical Correlation Analysis)又称正则相关分析或典则分析,是研究两组指标(变量)之间相关关系的一种多元统计方法。

大家知道,两个随机变量间的相关关系通常是用相关系数来衡量的,而复相系数则被用来研究一个随机变量和多个随机变量的线性相关关系。

在实际研究问题时,也常常需要知道两个随机变量之间的相关关系。

例如:在研究组织结构对“职业满意度“的影响时,需要分析职业特性变量(用户反馈、任务重要性、任务多样性、任务特权、自主权)和职业满意度变量(主管满意度、事业前景满意度、财政满意度、工作强度满意度、公司地位满意度、工种满意度、总体满意度)的相关程度;医学上要研究(抑郁症、健康状况)与(性别、年龄、教育程度、收入)是否具有某种相关性等。

典型相关分析的目的是识别并量化两组变量之间的联系,其研究焦点是一组变量的线性组合和另一组变量的线性组合之间的相关关系。

基本思想是:首先在每组变量中找出变量的线性组合,使得两者之间的相关达到最大(即两组典型变量的相关达到最大值),这两组指标多半是相同研究对象有关系的两组不同指标。

这两组典型变量彼此之间的最大相关就是第一个典型相关,而线性组合的系数称为典型相关系数。

然后再在和最初挑选的这对线性组合不相关的线性组合配对中,选取相关系数最大的一对,如此反复迭代,直到两组变量之间的相关性被提取完毕(即配对的典型变量的个数等于两组原始变量中个数较少的那一个数)为止。

由于典型相关分析以对两组指标的每一组指标作为整体考虑,比一般相关分析仅考虑一个指标与一个指标间的关系或一个指标与多个指标间的关系,向前迈了一大步,更能反映现象的本质联系。

因此,典型相关分析广泛应用于变量群之间的相关分析研究,在经济学,生物学,医药卫生以及教育统计中都有广泛的应用。

2.2典型变量和典型相关系数计算设随机向量来代表第一组个变量,随机向量代表第二组的个变量。

对于()1X p ()2X q 随机向量,,令设随机向量来代表第一组p 个变量,随机向量代表第二()1X ()2X ()1X ()2X 组的q 个变量。

对于随机向量,,令()1X ()2X ()()()11E X µ=()()111COV X =Σ()()()22E X µ=()222)(∑=X COV ()()T X X COV 211221),(∑=∑=()()()()()1122X E X E X µµµ⎛⎞⎛⎞===⎜⎟⎜⎟⎜⎟⎜⎟⎝⎠⎝⎠()()()()()()()()111211221222p p p p q X X X X X X X X X +++⎛⎞⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎛⎞⎜⎟==⎜⎟⎜⎟⎜⎟⎝⎠⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎝⎠M M ⎟⎟⎠⎞⎜⎜⎝⎛∑∑∑∑=−−=∑22211211))((T X X E µµ协方差是第一组变量与第二组变量的协方差,个元素量度了两组变量之间的12∑p q ×联系。

当p 和q 较大时,整体地解释中的元素基本上是不可能的。

线性组合可以提12∑供对一组变量简单扼要的度量,为此,作两组变量的线性组合,设()1T U a X =()2T V b X =()111var()cov()T T U a X a a a==Σ()b b b X b V T T 222)cov()var(∑==()()ba b X X T 1221T ),cov(a V)cov(U, ∑==bb a a b a V U corr T T T 221112),(∑∑∑=第一对典型变量,或第一典型变量配对是具有单位方差的线性组合U 和V 的配对,11它使对应的相关系数最大化。

第二对典型变量,或第二对典型变量配对是具有单位方差的线性组合U 和V 的配对,22且在与第一对典型变量不相关的所有配对中,其对应的相关系数最大。

第K 对典型变量,或第K 对典型变量配对是具有单位方差的线性组合U 和V 的配k k 对,且在第K -1个典型变量配对都不相关的所有配对中,其相关系数最大。

易见:我们希望寻找使相关系数达到最大的向量a ,b ,由于随机向量乘以常数时并不改变它们的相关系数,所以,为防止结果的重复出现,令:,1)var(11=∑=a a U T ,1)var(22=∑=b b V T ba V U corr T 12),(∑=问题就成为在上述约束条件下,求使达到最大的系数向量a 和b 。

b a V U corr T 12),(∑=根据数学分析中极值的求法引入Lagrange 乘数,将问题转化为求的极大值。

由极值条件)1(2)1(2),(221112−∑−−∑−∑=b b a a b a b a T T T µλϕ(1)0022211112=∑−∑=∂∂=∑−∑=∂∂b a ba b a µϕλϕ求解得λ恰好是线性组合U ,V 之间的相关系数。

(2)002121112112222112212111=−∑∑∑∑=−∑∑∑∑−−−−b b a a λλ由式②求得:特征根,相应单位特征向量a ,a a ,b ,b b 222120p λλλ≥≥≥L ()1()2L ()p ()1()2L ()q P 对线性组合:,()()111T U a X =()()121;T V b X =,()()212T U a X =()()222;T V b X =M()()1,p T p U a X =()()2p T p V b X =3典型相关分析的应用通过编程运行SAS 统计软件得到以下结果:表1给出了各个学科成绩的均值和标准差,从表2表3表4则可以看出两组变量各门课程之间的相关系数,表5表6分给出了相关系数的假设检验结果,而表7-8和表9-10则分别给出了标准化前后的典型相关系数。

注:表1-表6见附录,表7-表10如下。

表7基础课变量的典型相关系数表8专业课变量的典型相关系数1V 2V 3V 4V 5V 6V 7V 1X 0.66270.464-0.333-0.4164-0.0755-0.2323-0.03912X 0.84810.0546-0.0479-0.05150.1162-0.42280.28383X 0.7422-0.0357-0.2141-0.34270.49980.0544-0.17814X 0.7301-0.071-0.2428-0.2424-0.24130.26670.46355X 0.75720.49760.12410.33020.12650.19620.00796X 0.6962-0.17660.4279-0.089-0.41370.0222-0.34857X 0.75450.0806-0.480.3501-0.1533-0.1916-0.10461W 2W 3W 4W 5W 6W 7W 8X 0.8574-0.0568-0.2073-0.2057-0.10010.0699-0.32139X 0.67720.31420.3828-0.0145-0.34060.01730.140810X 0.84320.1684-0.10230.20150.0131-0.05950.1342表9标准化后的基础课变量的典型相关系数表10标准化后的专业课变量的典型相关系数11X 0.77350.18030.35410.14120.37310.0559-0.246212X 0.80540.20290.09580.1498-0.17680.20140.190913X 0.50180.1677-0.01210.5371-0.16060.20530.012114X 0.77730.04190.18220.1684-0.0739-0.40210.029115X 0.41570.7321-0.22480.04360.0636-0.2993-0.203216X 0.27370.36450.204-0.24460.26830.20640.44917X 0.2650.1934-0.41070.29260.464-0.23720.11121V 2V 3V 4V 5V 6V 7V 1X -0.12311.0909-0.2719-0.8589-0.5215-0.3251-0.31492X 0.2671-0.28090.65060.13520.4047-1.25390.88013X 0.2706-0.5401-0.2659-0.32550.97620.4348-0.56034X 0.1988-0.3007-0.2989-0.2509-0.4230.84710.80275X 0.2160.88850.50230.52560.30310.60630.14276X 0.3112-0.33390.6141-0.1942-0.5679-0.0253-0.60247X 0.1708-0.4038-1.01240.8171-0.3281-0.1376-0.52541W 2W 3W 4W 5W 6W 7W 8X 0.4759-0.3968-0.6457-0.8505-0.07430.218-0.3906(1)由表9——标准化后的第一组变量的典型相关系数可以求出:专业基础课的第一对典型相关变量是:112345670.12310.26710.27060.19880.21600.31120.1708Z X X X X X X X =−++++++同样由表10——标准化后的第二组变量的典型相关系数求出专业课的典型相关变量是:18910111213141516170.47590.13170.30970.09790.12040.08010.17980.21280.06630.1495W X X X X X X X X X X =++++−+−++在第一基础课变量中,各个学科所起的作用大致相当,稍微显著一点的是数学分析常微分方程和运筹学。

相关主题