变量统计描述分析
单变量统计描述分析
第一节、统计表与统计图 第二节、集中趋势测量法 第三节、离散趋势测量法 第四节、偏态及峰度
第一节 统计表与统计图
什么是分布? 用统计表和统计图来表示分布。
统计表 百分比分布表 ) (频数分布表、 (频数分布表、百分比分布表 百分比分布表)
变量取值要注意的问题: 1、取值要穷尽。 2、取值要互斥。
多于一个众数 原始数据: 25 28 28 28 28 36 42 42 42 42
中位值( 概念要点)
1. 2.
中位值 (位置的确定)
集中趋势的测度值之一 排序后处于中间位置上的值
50% 50%
3. 3. 4. 4.
50% 50%
未分组数据:
中位值 位置 =
M Me e 不受极端值的影响 主要用于定序变量,也可用定距变量,但不能用于定类 变量
离散趋势
1. 1.
数据分布的另一个重要特征 离散趋势的各测度值是对数据离散程度所作的描述 反映各变量值远离其中心值的程度 ,因此也称为离中趋势 从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值
第三节 离散趋势测量法
2. 2. 3. 3. 4. 4. 5. 5.
离散趋势测量法
方差的计算公式
未分组数据: 未分组数据:
N
标准差的计算公式
未分组数据: 未分组数据:
N
σ2 =
∑(X
i =1
i
− X )2
σ =
(Xi − X ) ∑ i
=1
2
N
K
N
K
组距分组数据: 组距分组数据:
组距分组数据: 组距分组数据:
2
∑(Xi − X )
σ2 = ̇
i =1 K
ni
∑(Xi − X )
σ = ̇
异众比率 四分位差 方差和标准差
峰 度
为了简化资料,用众值、中位值、均值来代表变量分布的集中趋势; 但为了说明它们的所能代表集中趋势的可靠程度,还需用变量的离散程 度加以补充。
(形状 )
一般情况下: 1. 定类 变量:异众比率 2. 定序 变量:四分位差 3. 定距 变量:方差及标准差 (重点是未分组数据的求法 )
异众比率
异众比率
� � �
1. 离散程度的测度值之一 2. 非众数组的频数占总频数的比率 3. 计算公式
四分位差
4. 用于衡量众数的代表性
四分位差
四分位值:排序后处于25%和75%位置上的值
25% 25%
Q Q25 25
四分位差
� � � � �
25% 25%
25% 25%
25% 25%
Q Q75 75
Q Q50 50
方差和标准差
1. 上四分位数与下四分位数之差 Q = Q75 – Q 25 2. 离散程度的测度值之一 3. 反映了中间 50% 数据的离散程度 4. 不受极端值的影响 5. 用于衡量中位数的代表性
什么是变量? 变量就是随时可以变化的量;变量意味着可以取不同的值。 变量对应的是常量; 具体到调查中,可以把变量理解为问卷中的一道题目所获得 的数据,如果是常量的话,我们有没有必要去调查呢?
制作统计表的要求? 1、要有表号、表头、标识行、主体行、 表尾 2、表的两端不封口 3、简单明了,中间不画线 4、百分比分布表要有样本总数 一般用得比较多的是百分比分布表, 因为百分比分布表可以还原成频数分 布表
5.
众数(概念要点) 集中趋势的测度值之一 出现次数最多的变量值 不受极端值的影响 可能没有众数或有几个众数 主要用于定类变量,也可用于定序变量和 定距变量
1. 2.
众数
3. 4. 5.
众数
(众数的不唯一性)
无众数 原始数据: 一个众数 原始数据:
10
5
9 12
6
8
中位值
6 5 5
9
8 5 5
5 5
N +1 2 N 2
组距分组数据: 中位值 位置 =
中位值的计算公式(计算公式) 未分组数据的计算公式 ⎧ X ⎛ N +1 ⎞ ⎟ ⎪ ⎜ ⎝ 2 ⎠ ⎪ Me = ⎨ ⎛ ⎞ ⎪1 ⎜ X N + X N ⎟ ⎜ +1 ⎟ ⎪ 2 ⎠ ⎩2 ⎝ 2 分组数据的计算公式 当N 为奇数时 当N 为偶数时
均值
均值 (概念要点)
1. 集中趋势的测度值之一 2. 最常用的测度值 3. 一组数据的均衡点所在 4. 易受极端值的影响 5. 用于定距变量,不能用于定类变量和定 序变量
均值(计算公式)
设一组数据为:X1 1 ,X2 2 ,… ,XN N 简单均值的计算公式为
� � � � �
N
Xi X + X2 + ⋯+ X N ∑ X= 1 = i =1 N N
偏态与峰度的测度
偏态 峰度
第四节 偏态 和 分布
左偏分布
扁平分布
与标准正态 与标准正态 分布比较! 分布比较!
右偏分布
尖峰分布
P103 、104
变量的测度
变量的测度
集中趋势
变量分布的特征
集中趋势
众 数 中位数 均 值
离散程度
分布的形状
偏 态
((集中程度 )) 离散趋势 ((分散程度 )) 偏态和峰度
均值 均值 中位数 中位数 众数 众数 均值 均值 = = 中位数 中位数 = = 众数 众数 众数 众数 中位数 中位数 均值 均值
变量类型和所适用的集中趋势测度值
定类变量 ※ 众数 — 定序变量 ※中位数 众数 定距变量 ※均值 众数 中位数
� �
左偏分布
对称分布
右偏分布
高层次变量可以用低层次变量的测量方法 但统计分析中,更多的是用均值 。 � 对于偏态的分布,应使用中位值作为集中趋势。 � 只有单峰和基本对称的图形,用均值作为集中趋势才是合理 的。 P47
方差和标准差 (概念要点)
1. 离散程度的测度值之一 2. 最常用的测度值 3. 反映了数据的分布 4. 反映了各变量值与均值的平均差异 5. 根据总体数据计算的,称为总体方差或标准 差;根据样本数据计算的,称为样本方差或 标准差.
总体方差和标准差 ( 计算公式)
方差是观察值与其均值之差的平方和除以全部观察总数 N。
i =1 K
2
ni
∑ ni
i =1
∑ niห้องสมุดไป่ตู้
i =1
变量类型与离散趋势测度值
表 变量类型和所适用的离散趋势测度值
定类变量 ※异众比率 — — 定序变量 ※四分位差 异众比率 — 定距变量 ※方差或 标准差 异众比率 四分位差
异众比率、四分位差和方差 /标准差的比较
变量类型 适 用 的 测 度 值
高层次变量可以用低层次变量的测量方法
均值 (数学性质)
1. 各变量值与均值的离差之和等于零
n
(Xi − X ) = 0 ∑ i
=1
众数、中位数和均值的比较
2. 各变量值与均值的离差平方和最小
n i=1
∑(Xi − X)
2
= min
变量类型与集中趋势测度值
表
变量类型 适 用 的 测 度 值 — —
分布的形状与 众数、中位数和均值的关系
设分组后的数据为:X1 1 ,X2 2 ,… ,XK K 相应的频数为: n1 1 , n2 2,… ,nii 分组均值的计算公式为
((组中值) 组中值)
K
X 1n 1 + X 2 n 2 + ⋯ + X N n N = ̇ X= n1 + n2 +⋯+ n N
∑X
i =1 K i =1
i
ni
i
∑n
第二节 集中趋势测量法
集中趋势
1. 2. 3. 4.
集中趋势测量法
一般情况下: 定类变量:众数Mo 1. 2. 定序变量:中位值 Md 定距变量:平均值 3.
一组数据向其中心值靠拢的倾向和程度 测度集中趋势就是寻找数据一般水平的代表值或中心值 不同类型的变量用不同的集中趋势测度值 低层次数据的集中趋势测度值适用于高层次的测量数据 , 反过来,高层次数据的集中趋势测度值并不适用于低层次 的测量数据 选用哪一个测度值来反映数据的集中趋势,要根据所掌握 的数据的类型来确定
统计表 (频数分布表、 百分比分布表 ) (频数分布表、百分比分布表 百分比分布表)
怎么样制作统计表? 1. 定类变量 定序变量 2. 定距变量 3.
统计图
怎么样制作统计图?用 EXCEL 1. 定类变量:饼图(圆瓣图),条形图 定序变量:条形图 2. 定距变量:直方图、折线图 3.
分布图的分析
对一个分布图,我们应该关注哪些呢? 峰点 1. 2. 对称性:是否是正态分布 3. U形曲线和J形曲线