当前位置:
文档之家› 统计方法在大学英语四级成绩分析中的应用
统计方法在大学英语四级成绩分析中的应用
3
多元线性回归
本文采用多元回归分析对 CET - 4 的成绩与大学四学期英语成绩的关系进行线性回归分 析, 它是处理多个变量间相互依赖关系的一种数理统计方法 . 变量间的相互依赖关系在实际问 回归分析是研究这种相互依赖关系的有效数学方法 . 题中是大量存在的, 3. 1 多元线性回归模型的建立
x2 , …, x m ) 线性相关, x t1 , x t2 , …, x tm ) ( t = 1 , 假设因变量 Y 与( x1 , 收集到的 n 组数据 ( y t , …, n) 满足以下回归模型:
2
2. 1 Bootstrap 检验
检验
Bootstrap 方法中文译为 “自助法 ” , 自助法是一种重复抽样方法, 也是一种以观察数据为 它广泛地应用在参数估计、 假设检验、 回归分析等许多 依据的模拟方法. 随着计算机的高速化, 统计领域中. 我们考察假设检验问题 1 ) H01 : μ 农 = μ 城 vs H02 : μ 农 ≠ μ 城 Y 分别表示来自农村和城市的两组样本 , 记 X、 根据经验和相关常识,假设这两组样本相 互独立是合理的. 我们采用 Bootstrap 方法如下: 珔 珔 1. 由已知数据计算 X 、 Y 的均值 X 、 Y 之差的绝对值 T = 珔- 珔 X Y = 15. 2670.
表1
户籍 项目 农村 418 城市 458 大一大二英语平均 成绩 70 分以上 542 62. 51%
数据分布情况表
成绩等级 大一大二英语平均 成绩 70 分以下 334 37. 49% 文理科 文科 56 理科 73
人数
百分比 47. 72% 52. 28%
43. 41% 56. 59%
注: 由教务处提供学生四学期的英语成绩及 CET - 4 的首次考试成绩.
short ) via a research on the undergraduate students enrolled in 2005 in our university. It is found out by the Bootstrap method and the T - test that the CET - 4 performances have significant differences between the students from the urban and the rural areas,between the freshmen and the sophomores,and between the students of science and art. A multivariate linear regression model and a Logistic model are established for analysing the results of the CET - 4 and forecasting the passing rates. Key words CET - 4 Bootstrap test T test Multiple regression analysis Logistic model
基于表 1 中已经分组的学生, 我们采用 Bootstrap 方法和 t 检验两种方法检验了 1 ) H01 : μ 农 = μ 城 vs H02 : μ 农 ≠ μ 城 , 检验来自农村与来自城市的学生四级考试成绩是否有 差别; 2 ) H11 : μ 高 = μ 低 vs H12 : μ 高 ≠ μ 低 , 检验平时英语成绩水平不同的人的四级考试成绩是否 有差别; 3 ) H21 : μ 文 = μ 理 vs H22 : μ 文 ≠ μ 理 , 检验文理科学生的四级考试成绩是否有差别 , 这三个 假设检验问题. 在此基础上, 我们建立了 CET - 4 成绩和相关因素的回归方程, 并利用 logistic 模型预测了 学生的四 = β0 + β1 x t1 + … + β m x mt + ε t
2 ε t ~ N( 0 , σ ), 相互独立
( t = 1, 2, …, n)
回归模型的结果及分析
102
数学理论与应用 表2
项目 城市 农村 大一大二英语平均 ≥70 分 大一大二英语平均﹤ 70 分 文科 理科 总的
本文获得中央高校基本科研业务费的资助, 以及北京市大学生科学研究与创业行动计划,中国矿业大学( 北京) 大 “概率论与数理统计” 学生创新性计划,和中国矿业大学( 北京) 理科 课程建设的资助 收稿日期: 2012 年 1 月 30 日
*
100
数学理论与应用
的因素. 具体来说, 我们考察了本校 2005 级 876 名本科生, 将原始数据整理得到下表.
假设, 大一大二四学期英语水平不同的人 CET - 4 成绩存在显著差异.
* T[ 同理考虑第三个假设检验问题由程序得数据 T = 34. 5093 , B·( 1 - α ) ] = 21. 6370. 所以文 、
理科大学生 CET - 4 成绩也存在差异. 2. 2 T 检验
通过过去大量的抽样试验和研究表明 , 在一些大中小学学校的学生成绩分布符合正态分 在 σ1 , σ2 未知的情况下, 我们假设两个样本的方差 布. 由上一种检验法知两个样本相互独立 ,
1
引言
英语的重要性众所周知, 英语四级( CET - 4 ) 成绩是衡量大学生英语水平的一把尺子. 根 据现状以及对 CET - 4 的了解,主观认为推断影响 CET - 4 的因素可能有: 1 ) 学生高考英语 成绩; 2 ) 学生大一大二英语学习成绩. 本文以本校 2005 级本科生为调查对象,使用统计的方法来考察影响大学生 CET - 4 成绩
Y 组合得一新向量 Z , Z2 = X2 , …, Zm = Xm , Z m + 1 = Y1 , Z m + 2 = Y2 … , 2. 由 X 、 其中 Z1 = X1 , Z m +n = Y n
* 珔 3. 从 Z1 , Z2 , …, Z m +n 中抽取 Bootstrap 样本, 由得到的均值记为 X 的均值, 由得到的均值
Y 的均值, 记为 珔 两者之差的绝对值记为 T
*
*
=
* * 珔 珔 . X -Y
* 4. 重复第 3 步 B = 2000 次, b = 1, …, B, 得到 B 个 T b , 排序得到;
统计方法在大学英语四级成绩分析中的应用
* 5. 对给定显著性水平 α = 0 . 05 , 比较 T = 15 . 2670 与 T[B·( 1 - α) ] = 8 . 1238 的大小.
101
* 由于 T > T[B·( 1 - α) ], 则拒绝原假设, 即认为两者有差别; 由此得到的结论是: 来自城市和农
村的大学生 CET - 4 成绩存在差异.
* T[ 同理考虑第二个假设检验问题, 由程序得数据 T = 51. 6569 , B · ( 1 -α ) ] = 8. 6429. 故拒绝原
第 32 卷 第 1 期 2012 年 3 月
数学理论与应用 MATHEMATICAL THEORY AND APPLICATIONS
Vol. 32 No. 1 Mar. 2012
统计方法在大学英语四级成绩分析中的应用
李再兴 胡 杰 史小凯 赵颖旺 范文凤 黄 ( 中国矿业大学, 100083 ) 北京, 丹 景 平
2 2 2 建立如下假设: 相等即 σ1 = σ2 = σ ,
H0 : μ1 - μ2 = 0 vs H1 : μ1 - μ2 ≠ 0 t 检验统计量 t =
2 ( m - 1 ) s2 ( x - y) x + ( n - 1) sy ,其中 s2 = w m +n -2 1 1 + sw m n
回归结果
回归方程
y1 = - 89 . 27 + 1 . 011 x1 + 1 . 261 x2 + 1 . 189 x3 + 1 . 190 x4 + 2 . 232 x5 y2 = - 66 . 049 + 0 . 560 x1 + 0 . 933 x2 + 1 . 260 x3 + 1 . 688 x4 + 2 . 355 x5 y3 = - 179 . 587 + 0 . 911 x1 + 1 . 593 x2 + 1 . 425 x3 + 1 . 486 x4 + 2 . 643 x5 y4 = 72 . 836 + 0 . 684 x1 + 1 . 121 x2 + 0 . 827 x3 + 0 . 458 x4 + 1 . 470 x5 y5 = - 108 . 051 + 0 . 672 x1 + 1 . 754 x2 + 1 . 706 x3 + 0 . 481 x4 + 2 . 675 x5 y6 = - 48 . 616 + 1 . 009 x1 + 1 . 277 x2 + 0 . 291 x3 + 2 . 596 x4 + 1 . 199 x5 y = - 77 . 635 + 0 . 773 x1 + 1 . 094 x2 + 1 . 225 x3 + 1 . 430 x4 + 2 . 323 x5
槡
从而检验问题的拒绝域为
α ( m + n - 2) } W = { t ≥ t1 - 2
选定显著水平 α = 0. 05 , 对所做的问题进行检验, 结果如下: 来自城市和农村的大学生 CET - 4 成绩存在差异; 大一大二四学期英语水平不同的人 CET - 4 成绩存在显著差异; 文、 理科大学生 CET - 4 成绩也存在差异.