当前位置:文档之家› 定性数据分析-王静龙-第一章

定性数据分析-王静龙-第一章


G − S (ζ ) = 1 − ∑ pi2
i =1
k
G-S指数越大,说明变量ξ分布越离散 指数越大,说明变量 分布越离散 指数越大 原理:如果对 进行两次独立的抽样 当变量ξ的值分 进行两次独立的抽样, 原理:如果对ξ进行两次独立的抽样,当变量 的值分 布比较集中时,两次抽到同一个值xi的概率 i2就大, 布比较集中时,两次抽到同一个值 的概率p 就大, 的概率 ∑ pi2就大,因而 就大,因而G-S布中心
第P百分位数的求法 百分位数的求法
将数据由小到大排序 计算第P百分位数的所在位置 计算第 百分位数的所在位置 p i=( )( n + 1) 100 确定第P百分位数 确定第 百分位数
是整数, 位的数; 不是整数 不是整数, 若i是整数,位于第 位的数;若i不是整数, 是整数 位于第i位的数 向上取整。 将i向上取整。 向上取整
数值法-离散程度 数值法 离散程度

随机变量ξ的熵 随机变量 的熵
H (ζ ) = − ∑ pi ln pi
i =1
k
熵越大,说明变量ξ分布越离散 熵越大,说明变量 分布越离散 原理: 原理:
均匀分布时,所有 均相等 都为1/k. 均相等, 均匀分布时,所有Pi均相等,都为
1 H (ζ ) = − ln( ) k
第一章 定性数据的 数据的描述性统计方法 定性数据的描述性统计方法
定性数据的概念 单个变量的描述统计方法
定性数据
数据的尺度
定类—名义( ):只能计次 定类 名义(Category Scale):只能计次 名义 ): 定序—有序(Ordinal Scale):计次、排序 ):计次 定序 有序( 有序 ):计次、 定距—计数( ):计次 定距 计数(Interval Scale):计次、排序、 计数 ):计次、排序、 加减 定比—计量( ):计次 定比 计量(Ratio Scale):计次、排序、加 计量 ):计次、排序、 减、乘除
则取值的越多,分布越离散,此时熵值也越大。 则取值的越多,分布越离散,此时熵值也越大。
作业
自己运用所给数据, 自己运用所给数据,对定性数据进行描述统 计分析
用表、图和数值法 用表、 对不同的定性数据的分布情况进行比较
图示法
条形图(与直方图的区别) 条形图(与直方图的区别) 圆形图(饼形图 圆形图(饼形图) 排列图(Pareto图) 排列图( 图
绘制 应用
数值法
代表性数值
分布中心 离散程度
数值法-分布中心 数值法 分布中心
名义数据: 名义数据:众数 有序数据: 有序数据:
众数、中位数(更好) 众数、中位数(更好) 百分位数:衡量数据位置,表示相对高低。 百分位数:衡量数据位置,表示相对高低。第 相对高低 50百分位数就是中位数,P百分位数表示至少 百分位数就是中位数, 百分位数表示 百分位数表示至少 百分位数就是中位数 的数据项数小于或等于该数据, 有P%的数据项数小于或等于该数据,且至少 的数据项数小于或等于该数据 有(1-P)%的数据项数大于或等于这个值 。 ) 的数据项数大于或等于这个值
数值法-离散程度 数值法 离散程度
异众比率
众数个数) (n-众数个数)/n 众数个数
从随机变量的角度描述定性数据的离散程度
Gini-Simpson指数 指数 熵(entropy)
数值法-离散程度 数值法 离散程度
Gini-Simpson指数:G-S指数 指数: 指数 指数
随机变量ξ的 随机变量 的G-S指数 指数
数值法-离散程度 数值法 离散程度

随机变量ξ的熵 随机变量 的熵
H (ζ ) = − ∑ pi ln pi
i =1
k
熵越大,说明变量ξ分布越离散 熵越大,说明变量 分布越离散 原理:它给出了∑ pi=1的约束前提下,衡量 原理:它给出了 的约束前提下, 的约束前提下 给定的分布与均匀分布的接近程度。 给定的分布与均匀分布的接近程度。均匀分 布最离散,如果给定分布接近均匀分布, 布最离散,如果给定分布接近均匀分布,则 给定分布越离散,此时熵值也越大。 给定分布越离散,此时熵值也越大。
变量与数据
单个定性数据的描述统计
表格法 大致的分布形状(画像) 大致的分布形状(画像) 图示法 数值法: 数值法:用代表性的数值描述分布特征
原则 低层次数据的描述方法适合高层次数据, 低层次数据的描述方法适合高层次数据, 反之不行
表格法
名义数据
频数频率分布表
有序数据
频数频率分布、 频数频率分布、累积频数频率表
相关主题