描述性统计
使用:用一个圆的面积来表示总数,用 圆内扇形的大小来表示占总数的百分比,可以清 楚地表示出各个部分与总体的关系。
巩固一下:
据调查,2000年我国汽车市场上一些轿车销售情 况如下表所示:
车
型
销售量/辆 222 224
桑塔纳
捷
别 奥
达
克 迪
95 073
30 543 16 030
将表中4个数据相加,可以知道,4种品牌汽车在2000 年的总销售量为363 870辆,有人据此画出扇形统计图, 称桑塔纳的市场占有率为,其余三种车型市场占有率依次 为26.1%、8.4%和4.4%,你同意吗?
T 分 数
T分数 = z分数 *10 + 50
相关程度(Correlation)
散点图( scatterplots )
相关系数(Correlation Coefficient
相关程度
散点图
相关程度
散点图
正相关
极端值
相关程度
散点图与相关系数
皮尔逊系数 r
Eta系
相关程度
散点图与相关系数
皮尔逊系数 r
相关程度
相关系数比较
皮尔逊系数 r Eta系数
η
同 值越大,相关程度越高
-1.00<r<+1.00 直线相关 适用于等距或比率数据 0<η <+1.00 曲线相关
异
描述数值数据的方法
频数多边形
平均值 分散度 正态曲线 相关程度
描 述 类 别 数 据 的 方 法
主要内容:
★ 类别数据(Categorical data) ★ 频数表(the Frequency table )
描述性统计≠文字描述
相关术语
数据(Data) 数据分析(Data Analysis) 描述性统计&推断性统计 (Descriptive Statistics & Inferential Statistics) 数字数据(Numerical Data)
数值数据&类别数据 (Quantitative Data & Categorical Data)
数据
• 数据(Data),是指研究者从其研究被试那里 所获得的各种信息。 • 数据的形式: 文 字 数 字 图形或图表
数字数据
• 数值数据(Quantitative Data) • 类别数据(Categorical Data)
某区不同学校每学期的运动设备开支; 某化学班上男生和女生的人数; 某学校使用讲授法和小组讨论法教学的教师人数;
300
女性
30(50)
270(250)
300
总计
100
500
600
白人
非白人
合计
男性
200(185)
100(115)
300
女性
170(185)
130(115)
300
总计
370
230
600
结论:如果一个人是男性,其获得管理 职位的机会就显得相当大,而如果他还是白 人,这种机会还会稍微有所增加。
总结
实际数据:
男性 女性 合计
初中教师
40
60
100
高中教师 总计
60 100
40 100
100 200
实际(预期)数据:
男性 女性 合计
初中教师
40(50)
60(50)
100
高中教师
60(50)
40(50)
100
总计
100
100
200
比较预期的和实际的频数将会使我们更 清楚地理解相关的程度和方向。
预期频数如何计算?
管理者
教师
合计
白人
70(62)
300(308)
370
非白人
30(38)
200(192)
230
总计
100
500
600
由例可知:总人数为600人,管理者 为100人,故管理者的预期频数为1/6。就 可以预期出白人和非白人管理者的人数。
管理者
教师
合计
男性
70(50)
230(250)
可靠
使用 情况
不常用
不常用
最常使用
正态曲线 正态分布的标准差
各有50%的数落在平均数两边
正态曲线 正态分布的标准差
“68-95-99.7”原则
正态曲线 正态曲线和标准分数
用正态量表,反映某一群体 中一个人与其他人相比较的 情况
Z T
分数 分数
正态曲线
正态曲线和标准分数
Z 分数
最简单的标准分数,以SD为单位描 述原始分数距离平均数的距离
离散度
盒形
图
适用于比较两组或多组数据分布
最低分
Q1
中位数
Q3
最高分
离散度
极差
最高分 — 最低分
极差值越大(小),数值离散度大(小)
离散度
标准差
SD
=
Σ (X—X)²
————— n
SD值越大(小),数值离散度大(小)
离散度
比较
“四分五数”
适用于比较两组 或多组数据分布 迅速
极差
粗略 迅速
标准差
离散度
“四分五数”
百分点(percentile)
一个数值,表示有某一百分比的数字落在它之 四分点(quartiles) 下,其余的在它之上
五数
第一个四分点Q1:百分点是25 第三个四分点Q3:百分点是75
最小数、第一个四分点Q1、中位数、 IQR 第三个四分点Q3、最大数 IQR=Q3-Q1 盒形图(boxplots)
答案
不同意.因为除了这4种品牌的汽车之外, 市场上还有其他品牌的汽车,所以,我们不能用 这4种品牌汽车的总销量代替所有品牌汽车的总 销量来计算市场占有率、做扇形统计图.最恰当 的是用条形统计图对这4种品牌的汽车销量情况 加以比较.
交叉表(The crossbreak table)
交叉表是以图形的方式来报告两个或多 个类别变量之间的相关,其中一组列在数据表 的左侧,另一组列在数据表的上部。行和列的 交叉处可以对数据进行多种汇总计算。
平均值
平均数
公式:平均数=所有分数总和/总个数
平均值
比较
众数 中位数 平均数
可靠 使用 情况 提供的信息量少 一般不使用 偏斜分布
(如:计算某公司 所付的年均工资)
易受极值影响
最常使用
平均值
局限性
分布A:19,20,25,32,39 分布B: 2, 3, 25,30,75
平均数:27 中 数:25
How to Design and Evaluate Research in Education
Chapter 10, Part 3
数据分析 之 描述性统计
小组成员:胡娟 印吴培 杨琳
主要内容
相关术语
描述数值数据的方法
描述类别数据的方法
• • • • • • •
研究问题 变量和假设 文献综述 抽样 研究的实施 信度和效度 内部效度
and more…
研究者用于概括类别数据的图形方法 有多种,其中包括频数表,条形图和饼形 图。
频数表(the Frequency table )
将一组计量资料按观察值大小分为不同组 段,然后将各观察值归纳到各组段中,最后清 点各组段的观察值个数(称频数),以表格形式 表示之,称为频数分布表又称“频次分布表”, 简称“频数表”。
某班期末考试成绩。
数据分析
• 数据分析(Data Analysis),是指用适当的统计 方法对收集来的第一手资料和第二手资料进行 分析,以求最大化地开发数据的功能,发挥数 据的作用。
• 数据分析的方法: 描述性统计 推断性统计
描述性统计&推断性统计
• 描述性统计(Descriptive Statistics),是对收 集的数据的整理、描述、汇总和解释。 • 用少量关键指标来刻画总体分布特征。 • 推断性统计(Inferential Statistics),是利用观 测数据来支持统计假设。
★ 条形统计图(Bar graphs)
★ 饼形统计图(Pie charts)
★ 交叉表(The crossbreak table)
还 记 得 什 么 是 类 别 数 据 吗 ?
类别数据(Categorical data)
类别数据仅仅表明研究者在某一类别中所 发现的物体、个体或事件的总数。
性别
用途 职业
众数(mode) 中位数(median) 平均数(mean)
平均值
众数
在一组数据中出现次数最多的数值
25,20, 19,17, 16,16,16,14,14, 9 众数是16
平均值
中位数
奇数个数:最中间的那个数值
偶数个数:最中间两个数的平均值
5,4,3,2,1 中位数是3 70,74,82,86,88,90 中位数
正态曲线 正态曲线和标准分数
Z 分数
正态曲线
正态曲线和标准分数
Z 分数
最大优点:比较同一个体不同测验的分数
Z分数 =(原始分数-平均数)/标准差
正态曲线 正态曲线和标准分数
Z 分数和概率
以小数形式来表达百分比,反 映一件事情发生的可能性
正态曲线 正态曲线和标准分数
Z 分数和概率
正态曲线
正态曲线和标准分数
使用:频数表可以揭示资料分布类型 和分布特征,以便选取适当的统计方法; 便于进一步计算指标和统计处理;便于发 现某些特大或特小的可疑值。
条形统计图(Bar graphs)
使用:用一个单位长度表示一定的数量,用 直条的长短来表示数量的多少。用于表示各个数 量的多少,对比鲜明。