当前位置：文档之家› 07第七讲定量数据分析

07第七讲定量数据分析

– 考虑使用统计图的目的，是为了描述数据，比较数据，还是为了对数据信息进行推广和预测； – 考虑数据的类型。扇形图用来呈现比例信息和百分比信息比较合适，柱状图用来表示离散数据比较合适，而折线图用来表示连续的数据比较合适。
2014-8-31
by Yingkang WU(Math Dept ECNU)
2014-8-31
by Yingkang WU(Math Dept ECNU)
13
偏态分布
negatively skewed distribution
positively skewed distribution
Negatively skewed distribution: scores on a mastery test Positively skewed distribution: incomes
定量数据分析和SPSS的使用
主要内容
• Descriptive statistics • Inferential statistics
2014-8-31
by Yingkang WU(Math Dept ECNU)
2
Descriptive statistics
• • • • Measures of central tendency Measures of variability Shape of distribution Standard score
5
统计表
• 统计表用表格的形式呈现统计事项的数量特征。 • 例如，右表表示了某班40名学生的数学考试成绩的分布情况。
某班40名学生的数学考试成绩统计表组别人数百分比（%）
90~100
80~89 70~79 60~69 0~59 合计
5
20 10 4 1 40
12.5
50 25 10 2.5 100
2014-8-31
by Yingkang WU(Math Dept ECNU)
7
统计图
• 统计图是对统计信息的图像化表示。常见的统计图有象形图，柱状图，扇形图，折线图和直方图等。 • 不同的统计图由相同的结构要素构成：背景图（如果有的话），框架（如坐标轴），示意图（在柱状图中指的是柱状，在折线图中指的是折线），标题，和标签（如坐标轴的文字说明）。 • 在选择使用何种统计图来呈现数据信息时，要从两方面进行考虑。
High Score Dependent Variable
Low Score Group 1 Level 1 Group 2 Level 2
• 在教育研究中，正态分布占有重要地位。如，学生测验成绩一般是分数高的和分数低的较少，而中间成绩居多。 • 标准正态分布
(mean=0,SD=1)
标准正态变量 z 在-3到+3之间的可能性为99.7% 标准正态变量 z 在-1.96到+1.96之间的可能性为95% 标准正态变量 z 在-1到+1之间的可能性为68.3%
2014-8-31
by Yingkang WU(Math Dept ECNU)
9
集中量数
• 选择哪一个集中量数来概括一组数据取决于该组数据的分布情况。 • 因为中位数只考虑数据的排列顺序，所以中位数不受数据组中极端值的影响。而平均数受数据组中极大值和极小值的影响很大。因此，当数据组中大部分数据值比较接近而小部分数据值非常大或非常小时，一般考虑使用中位数。当数据组没有极端值时，尽可能的使用平均数。这是因为平均数的计算比较简单，而且平均数在推断统计处理中很有用处。
当 H0 为真假
拒绝 H0 第一类错误
没有拒绝 H0
2014-8-31
正确
第二类错误
20
正确
by Yingkang WU(Math Dept ECNU)
假设检验
• 统计显著性（statistical significance）
– p值越小，零假设为假的可能性就越大 – 在教育研究中，一般认为p值0.05就足以排除零假设了。 – 需要注意: 有些p值0.05的结果可能是偶然结果。因此，在把从样本中得到的结果推广到总体时要谨慎。 – 但是，如果文献中报告的其他研究也有类似的结果，即重复了研究结果，就无需太谨慎了。
• 注意：一个统计上具有显著性的结果只意味着它可能在样本之外具有可推广性，换句话说，它不是偶然结果。尽管具有可推广性，得到的结果可能只反映了群体之间的很小差异，以至于几乎没有实际显著性（practical significance）。
2014-8-31
by Yingkang WU(Math Dept ECNU)
by Yingkang WU(Math Dept ECNU)
22
t-检验和方差分析
主要内容
• t-检验 • 方差分析 one-way ANOVA two-way ANOVA
2014-8-31
by Yingkang WU(Math Dept ECNU)
24
讲解顺序
• • • • 适用范围举例说明 SPSS实现过程对结果的解释和汇报
21
实际显著性和效应量（effect size）
• 效应量是衡量实际显著性的指标。 • 常用的一种效应量指标是 Cohen’s d，它定义为平均数的差值和标准差的比值，即
其中 s 为合并标准差 • 对Cohen’s d 来说，0.3、0.5、0.8 分别可以算作小、中、大的效应量
2014-8-31
2014-8-31
by Yingkang WU(Math Dept ECNU)
15
标准分数
• T-分数: T=10z+50 z是标准分数
– 是以50为平均分，10为标准差的一个分数 – 如果原始成绩近似的满足正态分布，那么这些标准分中的绝大多数都在20到80之间（99.7%） – T-分数不是一种独立的相对分数，它只是标准分数的一个派生分数
2014-8-31
by Yingkang WU(Math Dept ECNU)
19
假设检验
• 两类错误 Generally, when a statistical test is computed, reducing the risk of one type of error increases the risk of the other type of error.
2014-8-31
by Yingkang WU(Math Dept ECNU)
4
描述统计处理
• 统计图表是呈现和概括统计数据的重要形式。 • 统计资料的典型量数主要有：
– 反映集中趋势的集中量数：平均数、中位数、众数 – 反映离散程度的差异量数：极差、方差、标准差
2014-8-31
by Yingkang WU(Math Dept ECNU)
-0.25
0.75 -0.33
0.25
-0.25 0
47.5
57.5 46.7
52.5
47.5 50.0
总分
195
197
0.17
0
51.7
50.0
2014-8-31
by Yingkang WU(Math Dept ECNU)
17
Inferential statistics
• Basic ideas of hypotheses testing • Analyses
2014-8-31
by Yingkang WU(Math Dept ECNU)
10
离散量数
• 描述一组数据波动情况的量数称为离散（差异）量数。 • 差异量数通常用来衡量集中量数的代表性程度。差异量数越大，则集中量数的代表性就越小；差异量数越小，则集中量数的代表性就越大。 • 方差（variance）和标准差（standard deviation）是最为重要的差异量数（标准差是方差的平方根）。它们反映了数据与集中量数平均数之间的离散程度。
2014-8-31
by Yingkang WU(Math Dept ECNU)
3
描述统计处理
• 在教育研究中，通过各种数据收集的方法获得的数据资料必须加以整理，通过去粗取精，化繁为简，以及必要的概括，并且以恰当的形式呈现出来，才能解释数据资料蕴含的精髓。 • 描述统计主要是“依据统计的方法对所搜集的数据资料进行加工整理，通过图示，列表，求典型量数等手段对数据资料进行分析和描述”（王景英，2001，p. 5）。
2014-8-31
by Yingkang WU(Math Dept ECNU)
25
• t-检验和方差分析都是针对等距变量和比率变量的参数检验方法。 • 运用t-检验和方差分析要满足的最重要假设是：因变量服从正态分布。其他的假设可以参照统计课本。 • 如果数据不服从正态分布，可以使用的其他统计显著性检验有：Mann-Whittney U test或Wilcoxon signed-rank test。
2014-8-31
by Yingkang WU(Math Dept ECNU)
14
标准分数
• 在比较学生几门课程总成绩时，如果仅以总分的高低来决定其优差是不科学的。 • 实际应用中常常将原始成绩转化为标准分数。 • z-分数: x z – 是以0为平均分，1为标准差的一个分数
– 既有正值又有负值 – 如果原始成绩近似的满足正态分布，那么这些标准分中的绝大多数都在-3到+3之间（99.7%）
2014-8-31
by Yingkang WU(Math Dept ECNU)
11
探索性的数据分析
• 首先看一下数据的频率分布情况 • 通过统计图大致了解数据的分布情况 • 在使用百分比汇报数据的时候要特别当心。

e商务文档

07第七讲定量数据分析

相关文档推荐：