统计分析方法简介
计算方法:
直接法:X 加权法:
X f1 X1 f 2 X 2 f k X k f1 f 2 f k fX f
X1 X 2 X n n
X n
某年某市120名5岁女孩身高频数分布
组段/cm (1) 95~ 98~ 101~ 104~ 107~ 110~ 113~ 116~ 119~ 122~125 合计 频数 f) (2) 1 7 10 18 25 21 15 15 7 1 120 频率/% (3) 0.83 5.83 8.33 15.00 20.83 17.50 12.50 12.50 5.83 0.83 100.00 累计频数 (4) 1 8 18 36 61 82 97 112 119 120 累计频率/% (5) 0.83 6.67 15.00 30.00 50.83 68.33 80.83 93.33 99.17 100.00 -
5. 变异系数(coefficient of variation)
符号简记为CV 适用条件:常用于比较度量单位不同或均 数相差悬殊的两组(或多组)资料的变异度。 计算公式:
CV s X 100%
练习1:
例1女孩身高 习1统计描述
51
分析 描述统计 频率
52
分析 描述Leabharlann 计 描述集中趋势的度量:
平均数(average):描述一组同质观察
值的平均水平或集中位置的统计指标。包 括均数、中位数、众数等。
1. 均数(mean)
适用条件:单峰对称分布,特别是正态或 近似正态分布的定量资料。
符号:希腊字母表示总体均数,X 表示样 本均数。
总体
随机抽样
统计推断
样本 X
13
界面设置:
下拉菜单 快捷工具栏 数据输入栏/二维数据表 “数据视图”与“变量视图”转换按钮
常用的几大功能:
数据管理 统计分析 制图
15
请打开“习1统计描述.sav” 对资料类型作进一步了解
16
I. 统计描述
统计描述
统计指标 统计表 统计图
参数估计
统计分析
53
练习1:
例1女孩身高 习1统计描述
54
分析 描述统计 探索
55
最大值
上四分位数 四分位数间距 均数 下四分位数
最小值
箱式图
56
正态分布及其应用
Normal distribution
and its applications
随机变量及其概率分布
连续型随机变量:正态分布 对数正态分布 Weibull分布 离散型随机变量:二项分布 Poisson分布 超几何分布
统计分析方法简介
设计
收集资料
数据管理
报告撰写
SPSS
统计分析
2
统计分析(statistical analysis)
运用数理统计、概率论等基本原理,对
数据进行统计指标的选择和计算、统计 图表的绘制、统计方法的选用与统计软 件的应用等。
旨在表达数据特征的基础上,阐明事物
的内在联系和规律性。
统计描述
应用百分位数时,样本含量要足够大,否则,不 宜取靠近两端的百分位数。
中位数、百分位数的应用
中位数可用于各种分布的资料。对于正态分布资 料,中位数等于均数;对于对数正态分布资料, 中位数等于几何均数。 中位数不受极端值的影响,因此,实际工作中主 要用于偏态分布资料、两端无确切值或分布不明 确的资料。
计算方法:
直接法
频数表法
P 100 50
Px L
i fx
( n x % f L )
25 63
(361 50% 170)
中位数、百分位数的应用
百分位数用于描述一组数据某一百分位的位置, 最常用的百分位数是P50,即中位数;
也可用多个百分位数的结合来描述一组观察值的 分布特征,如P25和P75合用时,反映中间50%观察 值的分布情况;
例2. 三组同性别、同年龄儿童的体重(kg) 如下
甲组
26 28 30 32 34
乙组
丙组
24 27 30 33 36
22 25 30 35 38
X 30kg
不全面 !
离散程度的描述
变异在现实工作生活中无处不在;
离散度指标反映一组同质观察值的变
异度;
常用的指标有全距、四分位数间距、
例3 某地调查110名18岁男大学生,其身高均数 为172.73cm,标准差为4.09cm;其体重均数 为55.04kg,标准差为4.10kg,试比较两者变 异度。 例4 某年某市城区120名5岁女孩体重均数为 17.71(kg),标准差为1.44(kg),同年该地120 名5个月女孩体重均数为7.37(kg),标准差为 0.77(kg),比较其离散程度。
( X ) 0
( X )
( X ) N
2
2
2 =
s
2
( X X ) n 1
2
自由度
随机变量能够自由取值的个数 符号为 ,读作niu
4. 标准差(standard deviation)
因方差的度量单位是原度量单位的平方, 故将方差开方,恢复成原度量单位,得总 体标准差 和样本标准差 s
频数 (2) 39 67 64 63 45 30 17 9 7 6 5 3 6
累计频数 (3) 39 106 170 233 278 308 325 334 341 347 352 355 361
累计频率% (4) 10.8 29.4 47.1 64.5 77.0 85.3 90.0 92.5 94.5 96.1 97.5 98.3 100.0
11
统计分析的工具
SAS SPSS STATA … EXCEL
12
SPSS简介
Statistical Program for Social Sciences Statistical Product and Service Solutions 统计产品与服务解决方案 界面友好、使用方便,功能齐全 《SPSS11统计分析教程》(基础篇/高级篇) 张文彤
只考虑最大值与最小值之差异,不能反映组内
其它观察值的变异度;
样本含量越大,抽到较大或较小观察值的可能
性越大,则全距可能越大,因此样本含量悬殊 时不宜用全距比较。
2. 四分位数间距(quartile,简记为Q)
涵义:为上四分位数QU(即P75)与下四分位数QL( 即P25)之差。其间包括了一组观察值的一半,故 四分位数间距可看成是中间50%观察值的极差。 其数值越大,变异度越大,反之,变异度越小。
( X X ) ( X a)
2
2
30
频数
20 10 0 96.599.5 103 106 109 112 115 118 121 124 身高(cm) 图2.1 某年某市城区120名5岁女孩身高频数分布
百分位数(percentile) ——是一种位置指标,用Px 表示。一个百分位 数Px将一组观察值分为两部分,理论上有x%的 观察值比它小,有(100-x)%的观察值比它大。
计算:Q = QU - QL
适用条件:常用于描述偏态分布、分布的一端 或两端无确切数值以及分布不明确资料的离散 程度。 优缺点:四分位数间距较全距稳定,但仍未考 虑全部观察值的变异度。
3. 方差(variance)
——为了克服全距和四分位数间距的缺点,
全面考虑每个观察值的变异情况而引入
X
110.4 105.7 118.2 117.0 112.3 116.5 113.2 107.9 104.8 109.6 95.3 104.4 102.7 101.0 112.1 118.7
100.2 102.1 114.5 110.4 115.0 120.5 115.5 112.7 103.5 114.4 100.7 116.3 105.1 112.8 118.5 113.3 107.9 114.6 121.4 110.7 108.8 114.7 110.6 110.7 116.6 106.9 105.5 107.4 118.4 115.3 119.7 113.9 116.5 112.9 112.9 110.0 99.5 112.7 106.7 119.1 109.6 110.7 102.8 111.3 105.2 117.0 114.9 120.0 103.4 109.3 108.8 105.7 109.0 108.8 108.1 116.4 108.3 111.0 113.0 101.4 108.7 119.1 106.2 115.2 124.0 98.7 106.0 114.7 111.9 107.3 104.1 109.1 108.8 111.0 106.8 120.2 105.8 103.1 105.0 115.0
统计推断
假设检验
常用统计指标:
定量资料
定性资料
集中趋势 离散程度
率
构成比
相对比
定量资料的描述指标
集中趋势
离散程度
例1. 某年某市抽样调查的120名5岁女孩身高(cm)资料如下
105.5 118.6 110.5 104.2 110.9 107.9 108.1 109.1 108.1 109.4 118.2 103.9 116.0 110.1 108.6 100.6 108.8 103.8 99.1 104.8 116.5 99.6 109.3 107.5