07第七讲定量数据分析
– 考虑使用统计图的目的,是为了描述数据,比较数据,还是为了 对数据信息进行推广和预测; – 考虑数据的类型。扇形图用来呈现比例信息和百分比信息比较合 适,柱状图用来表示离散数据比较合适,而折线图用来表示连续 的数据比较合适。
2014-8-31
by Yingkang WU(Math Dept ECNU)
2014-8-31
by Yingkang WU(Math Dept ECNU)
13
偏态分布
negatively skewed distribution
positively skewed distribution
Negatively skewed distribution: scores on a mastery test Positively skewed distribution: incomes
定量数据分析和SPSS的使用
主要内容
• Descriptive statistics • Inferential statistics
2014-8-31
by Yingkang WU(Math Dept ECNU)
2
Descriptive statistics
• • • • Measures of central tendency Measures of variability Shape of distribution Standard score
5
统计表
• 统计表用表格的形式 呈现统计事项的数量 特征。 • 例如,右表表示了某 班40名学生的数学考 试成绩的分布情况。
某班40名学生的数学考试成绩统计表 组别 人数 百分比(%)
90~100
80~89 70~79 60~69 0~59 合计
5
20 10 4 1 40
12.5
50 25 10 2.5 100
2014-8-31
by Yingkang WU(Math Dept ECNU)
7
统计图
• 统计图是对统计信息的图像化表示。常见的统计图有象形 图,柱状图,扇形图,折线图和直方图等。 • 不同的统计图由相同的结构要素构成:背景图(如果有的 话),框架(如坐标轴),示意图(在柱状图中指的是柱 状,在折线图中指的是折线),标题,和标签(如坐标轴 的文字说明)。 • 在选择使用何种统计图来呈现数据信息时,要从两方面进 行考虑。
High Score Dependent Variable
Low Score Group 1 Level 1 Group 2 Level 2
• 在教育研究中,正态分布占有重要地位。如,学生 测验成绩一般是分数高的和分数低的较少,而中间 成绩居多。 • 标准正态分布
(mean=0,SD=1)
标准正态变量 z 在-3到+3之间的可能性为99.7% 标准正态变量 z 在-1.96到+1.96之间的可能性为95% 标准正态变量 z 在-1到+1之间的可能性为68.3%
2014-8-31
by Yingkang WU(Math Dept ECNU)
9
集中量数
• 选择哪一个集中量数来概括一组数据取决于该组 数据的分布情况。 • 因为中位数只考虑数据的排列顺序,所以中位数 不受数据组中极端值的影响。而平均数受数据组 中极大值和极小值的影响很大。因此,当数据组 中大部分数据值比较接近而小部分数据值非常大 或非常小时,一般考虑使用中位数。当数据组没 有极端值时,尽可能的使用平均数。这是因为平 均数的计算比较简单,而且平均数在推断统计处 理中很有用处。
当 H0 为 真 假
拒绝 H0 第一类错误
没有拒绝 H0
2014-8-31
正确
第二类错误
20
正确
by Yingkang WU(Math Dept ECNU)
假设检验
• 统计显著性(statistical significance)
– p值越小,零假设为假的可能性就越大 – 在教育研究中,一般认为p值0.05就足以排除零假设了。 – 需要注意: 有些p值0.05的结果可能是偶然结果。因此, 在把从样本中得到的结果推广到总体时要谨慎。 – 但是,如果文献中报告的其他研究也有类似的结果, 即重复了研究结果,就无需太谨慎了。
• 注意:一个统计上具有显著性的结果只意味着它 可能在样本之外具有可推广性,换句话说,它不 是偶然结果。尽管具有可推广性,得到的结果可 能只反映了群体之间的很小差异,以至于几乎没 有实际显著性(practical significance)。
2014-8-31
by Yingkang WU(Math Dept ECNU)
by Yingkang WU(Math Dept ECNU)
22
t-检验和方差分析
主要内容
• t-检验 • 方差分析 one-way ANOVA two-way ANOVA
2014-8-31
by Yingkang WU(Math Dept ECNU)
24
讲解顺序
• • • • 适用范围 举例说明 SPSS实现过程 对结果的解释和汇报
21
实际显著性和效应量(effect size)
• 效应量是衡量实际显著性的指标。 • 常用的一种效应量指标是 Cohen’s d,它定 义为平均数的差值和标准差的比值,即
其中 s 为合并标准差 • 对Cohen’s d 来说,0.3、0.5、0.8 分别可 以算作小、中、大的效应量
2014-8-31
2014-8-31
by Yingkang WU(Math Dept ECNU)
15
标准分数
• T-分数: T=10z+50 z是标准分数
– 是以50为平均分,10为标准差的一个分数 – 如果原始成绩近似的满足正态分布,那么这些标准分 中的绝大多数都在20到80之间(99.7%) – T-分数不是一种独立的相对分数,它只是标准分数的 一个派生分数
2014-8-31
by Yingkang WU(Math Dept ECNU)
19
假设检验
• 两类错误 Generally, when a statistical test is computed, reducing the risk of one type of error increases the risk of the other type of error.
2014-8-31
by Yingkang WU(Math Dept ECNU)
4
描述统计处理
• 统计图表是呈现和概括统计数据的重要形 式。 • 统计资料的典型量数主要有:
– 反映集中趋势的集中量数:平均数、中位数、 众数 – 反映离散程度的差异量数:极差、方差、标准 差
2014-8-31
by Yingkang WU(Math Dept ECNU)
-0.25
0.75 -0.33
0.25
-0.25 0
47.5
57.5 46.7
52.5
47.5 50.0
总分
195
197
0.17
0
51.7
50.0
2014-8-31
by Yingkang WU(Math Dept ECNU)
17
Inferential statistics
• Basic ideas of hypotheses testing • Analyses
2014-8-31
by Yingkang WU(Math Dept ECNU)
10
离散量数
• 描述一组数据波动情况的量数称为离散(差异) 量数。 • 差异量数通常用来衡量集中量数的代表性程度。 差异量数越大,则集中量数的代表性就越小;差 异量数越小,则集中量数的代表性就越大。 • 方差(variance)和标准差(standard deviation) 是最为重要的差异量数(标准差是方差的平方 根)。它们反映了数据与集中量数平均数之间的 离散程度。
2014-8-31
by Yingkang WU(Math Dept ECNU)
3
描述统计处理
• 在教育研究中,通过各种数据收集的方法获得的 数据资料必须加以整理,通过去粗取精,化繁为 简,以及必要的概括,并且以恰当的形式呈现出 来,才能解释数据资料蕴含的精髓。 • 描述统计主要是“依据统计的方法对所搜集的数 据资料进行加工整理,通过图示,列表,求典型 量数等手段对数据资料进行分析和描述”(王景 英,2001,p. 5)。
2014-8-31
by Yingkang WU(Math Dept ECNU)
25
• t-检验和方差分析都是针对等距变量和比率 变量的参数检验方法。 • 运用t-检验和方差分析要满足的最重要假设 是:因变量服从正态分布。其他的假设可 以参照统计课本。 • 如果数据不服从正态分布,可以使用的其 他统计显著性检验有:Mann-Whittney U test或Wilcoxon signed-rank test。
2014-8-31
by Yingkang WU(Math Dept ECNU)
14
标准分数
• 在比较学生几门课程总成绩时,如果仅以总分的 高低来决定其优差是不科学的。 • 实际应用中常常将原始成绩转化为标准分数。 • z-分数: x z – 是以0为平均分,1为标准差的一个分数
– 既有正值又有负值 – 如果原始成绩近似的满足正态分布,那么这些标准分 中的绝大多数都在-3到+3之间(99.7%)
2014-8-31
by Yingkang WU(Math Dept ECNU)
11
探索性的数据分析
• 首先看一下数据的频率分布情况 • 通过统计图大致了解数据的分布情况 • 在使用百分比汇报数据的时候要特别当心。