AB专业三门公共数学课期末成绩数据分析摘要针对问题一,我们首先对数据进行了处理,剔除异常值。
我们统计了A、B 专业每个同学的高等数学、线性代数、概率论与数理统计的成绩,按照专业和科目划分为六个子样本。
首先对各个子样本做K—S正态性检验,以判断样本总体的正态性。
使用SPSS软件对A专业的高等数学和B专业的高等数学,A专业线性代数和B专业的线性代数,A专业的概率论与数理统计和B专业的概率论和数理统计分别做两个平均值的t检验。
最终我们得出A、B两专业在三个科目上没有显著性差异的结论。
针对问题二,我们需要探究的是两个专业的学生的数学水平有无明显差异。
我们首先将每个同学的高等数学,线性代数,概率论与数理统计成绩按照一定权重计算出三科成绩的平均值,该平均值代表了每个同学的数学成绩。
按照A、B 专业划分为两个子样本。
我们使SPSS软件对各子样本做K—S正态性检验,得出样本总体正态性良好的结论。
然后对两个样本采用做两个平均值的t检验,得出P值,大于显著性水平0.05,拒绝原假设,即认为两组数据之间没有显著性差异。
我们得出A、B两专业数学水平没有差异的结论针对问题三,需要分析高等数学对线性代数和概率论与数理统计的影响。
我们我们统计了A、B专业每个同学的高数、线性代数、概率论与数理统计的成绩,分别看做样本一、二、三。
当给出一个同学的高数成绩就对应了该同学的线性代数成绩,也就是说,该同学的高数成绩、线性代数成绩,就构成了两个变量。
我们借助SPSS软件对两个样本之间数据做了双变量相关检验。
我们确定了高等数学成绩成绩和线性代数成绩具有很强的相关性。
进一步使用EXCEL画出散点图,对高等数学与线性代数之间的关系有初步的认识。
然后我们使用线性回归的方法确定高等数学成绩和线性代数成绩的回归模型。
接下来我们使用相关系数来检验模型的显著性。
使用同样的方法我们确定了高等数学成绩和概率论与数理统计的回归模型。
最终我们得出结论,高等数学成绩的优劣会影响线性代数、概率论与数理统计的成绩。
针对问题四,是紧扣上面三问的结果,对三门课程的分析,和对不同专业相同课程的不同成绩的分析,从学生学习的角度提出我们自己的看法。
关键词:K—S正态性检验 t检验显著性差异双变量相关检验线性回归相关系数附件一是某高校A专业和B专业的高等数学上册、高等数学下册、线性代数、概率论与数理统计三门公共数学课程的期末考试成绩数据,请根据数据分析并解决以下几个问题:(1)针对每门课程分析,两个专业学生的分数是否有明显差异?(2)针对专业分析,两个专业学生的数学水平有无明显差异?(3)通过数据分析说明:高等数学成绩的优劣,是否影响线性代数、概率论与数理统计的得分情况?(4)根据你所作出的以上分析,面向全校本科生同学,撰写一篇1000字左右的论文,阐述你对于大学数学课程学习方面的看法。
问题一要求针对每门课程分析,两个专业学生的分数是否有明显差异。
我们首先对数据进行了处理,剔除异常值。
我们统计了A、B专业每个同学的高数、线性代数、概率论与数理统计的成绩,按照专业和科目划分为六个子样本。
首先对各个子样本做K—S正态性检验,以判断样本总体的正态性。
使用SPSS软件对A专业的高等数学和B专业的高等数学,A专业线性代数和B专业的线性代数,A 专业的概率论与数理统计和B专业的概率论和数理统计分别做两个平均值的t 检验。
进而确定A、B两专业在三个科目上有无显著性差异。
问题二要求的是分析两个专业学生的数学水平有无明显差异,而供我们研究使用的数据是A、B两专业高等数学、线性代数及概率论与数理统计的成绩,于是我们将此类归结为显著性差异检验的问题。
我们首先将每个同学的高等数学,线性代数成绩,概率论与数理统计按照一定权重计算出三科成绩的平均值,该平均值代表了每个同学的数学成绩。
按照A、B专业划分为两个子样本。
我们使SPSS 软件对各子样本做K—S正态性检验。
在验证样本整体正态性后,进而对对两个样本采用做两个平均值的t检验,以确定两组数据之间是否有显著性差异。
最终得出确定两个专业学生的数学水平有无明显差异。
问题三要求是需要分析高等数学对线性代数和概率论与数理统计的影响。
我们我们统计了A、B专业每个同学的高数、线性代数、概率论与数理统计的成绩,分别看做样本一、二、三。
当给出一个同学的高数成绩就对应了该同学的线性代数成绩,也就是说,该同学的高数成绩、线性代数成绩,就构成了两个变量。
我们借助SPSS软件对两个样本之间数据做了双变量相关检验。
然后我们确定高等数学成绩和线性代数成绩的回归模型,我们使用相关系数来检验模型的显著性。
使用同样的方法我们确定了高等数学成绩和概率论与数理统计的回归模型。
问题四是对上面三问的总结,我们需要根据上述的建模结果提出我们的看法。
三、模型假设与符号说明3.1 模型假设(1)假设0分当缺考处理,有0分的那组数据没有处理意义。
(2)假设样本准确,处理做出的分析是接近实际,能够反映实际状况的。
(3)学生和学生之间,班级和班级之间的成绩是相互独立的,没有影响的。
(4)假设样本学生的成绩均来自于实际,成绩能真实的反应学生的数学水平由此做出的分析是接近实际。
3.2 符号说明四、模型建立与求解4.1问题一的模型建立与求解4.1.1 两个平均值的t 检验简介统计学指出:对于两个平均值的比较,设有两组试验数据:1(1)(1)(1)12,,,n x x x 与2(2)(2)(2)12,,,n x x x ,其中12,n n 分别是两组数据的个数,这两组数据都服从正态分布,根据两组数据的方差是否存在显著差异,分为以下两种情况进行分析。
① 如果两组数据的方差无显著差异时,则统计量t =服从自由度122df n n =+-的t 分布。
式中s 为合并标准差,其计算式为:s = ② 如果两组数据的精密度或方差有显著差异时,则统计量t =服从自由度为服从自由度df 的t 分布。
其中22211222222112212(//)(/)(/)(1)(1)s n s n df s n s n n n +=+++ 根据给定的显著性水平α,将所计算的t 值与临界值比较,做出检验结论。
双侧检验时,若2t t α<,则可判断两平均值无显著差异,否则就有显著差异。
单侧检验时,若0t <,且t t α<,则可判断平均值1较平均值2无显著减小,否则有显著减小,此为左侧检验;若0t >,且t t α<,则可判断平均值1较平均值2无显著增大,否则有显著增大,此为右侧检验。
4.1.2 F 检验法简介F 检验(F-test )适用于两组具有正态分布的实验数据之间的精密度的比较。
设有两组试验数据:1(1)(1)(1)12,,,n x x x 和2(2)(2)(2)12,,,n x x x ,两组数据都服从正态分布,样本方差分别为21s 和22s ,则2122s F s = 服从第一自由度为111df n =-,第二自由度为221df n =-的F 分布(F-distributon )对于给定的显著性水平α,将所计算的F 值与临界值比较,即可作出检验结论。
双侧检验时,若1212(1)22(,)(,)F df df F F df df αα-<<,则可判断方差1与方差2无显著差异,否则有显著差异。
单侧检验时,若1F <,且(1)12(,)F F df df α->,则判断方差1比方差2无显著减小,否则有显著减小,此为左侧检验;若1F >,且(1)12(,)F F df df α-<,则判断方差1比方差2无显著增大,否则有显著增大,此为右侧检验。
4.1.3 样本的确定剔除异常值:t 检验法要求样本总体满足正态分布,我们需要验证各个子样本的正态性,从而判断样本整体的正态性。
首先我们需要剔除异常值,我们将含有0分的学生所有科目的成绩予以剔除,另外A 专业的一位线性代数取得100分的同学的成绩使得A 专业的线性代数成绩不满足正态分布,所以也将其所有成绩剔除。
另外原数据中有一处成绩记为725,明显的是输入错误,我们将其修改为72.5,不做剔除处理。
在剔除异常值的基础上,我们首先将每个同学个高等数学1成绩和高等数学2成绩求平均值,记作该同学的高等数学成绩。
按照A 、B 专业划分为两个样本,分别别记作样本一和样本二,样本一、二构成了t 检验的两组数据。
同理将A 专业每个同学的线性代数成绩数据记作样本三,将B 专业每个同学的线性代数成绩数据记作样本四,同样样本三和样本四构成了t 检验的两组数据。
同理将A 专业每个同学的概率论和数理统计成绩数据记作样本五,将B 专业每个同学的概率论和数理统计数据记作样本六,同样样本五和样本六构成了t 检验的两组数据。
4.1.4 样本总体的K-S 正态性检验样本总体的正态性检验方法如下:以每个同学的高等数学,线性代数和概率论与数理统计的成绩为变量分析,利用SPSS 软件绘制A 、B 专业的高等数学,线性代数和概率论与数理统计的直方图和趋势图依次如下图所示:我们假设这六组数据都服从正态分布,利用SPSS 软件进行K-S 正态性检验的具体结果见附表 4.1-1。
组数据的近似相伴概率值P 分别为0.142,0.051,0.200,0.711,0.089和0.286均大于一般的显著水平0.05,则接受原来假设,即A、B专业高等数学,线性代数和概率论与数理统计的成绩数据符合近似正态分布。
4.1.5 A、B专业高等数学,线性代数和概率论与数理统计的平均成绩的t检验使用SPSS软件对A专业的高等数学和B专业的高等数学,A专业线性代数和B专业的线性代数,A专业的概率论与数理统计和B专业的概率论和数理统计分别做两个平均值的t检验,分析结果如图所示;α=),则拒绝零假设,即认统计学指出如果显著性概率P<显著性水平(0.05为两组样本的均值存在显著性差异;α=),则不拒绝零假设,即认为两组样本的均值不存若P>显著性水平(0.05在显著性差异。
根据SPSS得出的数据可知三组数据比较得出的P值分别为α=),则不拒绝零假设,即认为0.507,0.787,0.192,均大于显著性水平(0.05这三组样本的均值不存在显著性差异。
即我们认为A专业的高等数学成绩和B 专业的高等数学之间没有显著性差异,A专业的线性代数成绩和B专业的线性代数成绩没有显著性差异,C专业的概率论与数理统计和B专业的概率论与数理统计成绩没有显著性差异。
4.2问题二的模型建立与求解4.2.1 样本的确定在剔除异常值的基础上,我们首先将每个同学的高等数学1成绩和高等数学2成绩求平均值,记作该同学的高等数学成绩。
对A、B专业每个同学高等数学、线性代数、概率论与数理统计成绩按照11:2.5:2.5的权重计算其加权平均值,该平均值代表了每个同学的数学水平,我们称其为每个同学的数学平均成绩。