当前位置：文档之家› 定性数据分析-王静龙-第一章

定性数据分析-王静龙-第一章

G − S (ζ ) = 1 − ∑ pi2
i =1
k
G-S指数越大，说明变量ξ分布越离散指数越大，说明变量分布越离散指数越大原理：如果对进行两次独立的抽样当变量ξ的值分进行两次独立的抽样，原理：如果对ξ进行两次独立的抽样，当变量的值分布比较集中时，两次抽到同一个值xi的概率 i2就大，布比较集中时，两次抽到同一个值的概率p 就大，的概率 ∑ pi2就大，因而就大，因而G-S布中心
第P百分位数的求法百分位数的求法
将数据由小到大排序计算第P百分位数的所在位置计算第百分位数的所在位置 p i=( )( n + 1) 100 确定第P百分位数确定第百分位数
是整数，位的数；不是整数不是整数，若i是整数，位于第位的数；若i不是整数，是整数位于第i位的数向上取整。将i向上取整。向上取整
数值法-离散程度数值法离散程度
熵
随机变量ξ的熵随机变量的熵
H (ζ ) = − ∑ pi ln pi
i =1
k
熵越大，说明变量ξ分布越离散熵越大，说明变量分布越离散原理：原理：
均匀分布时，所有均相等都为1/k. 均相等，均匀分布时，所有Pi均相等，都为
1 H (ζ ) = − ln( ) k
第一章定性数据的数据的描述性统计方法定性数据的描述性统计方法
定性数据的概念单个变量的描述统计方法
定性数据
数据的尺度
定类—名义（）：只能计次定类名义（Category Scale）：只能计次名义）：定序—有序（Ordinal Scale）：计次、排序）：计次定序有序（有序）：计次、定距—计数（）：计次定距计数（Interval Scale）：计次、排序、计数）：计次、排序、加减定比—计量（）：计次定比计量（Ratio Scale）：计次、排序、加计量）：计次、排序、减、乘除
则取值的越多，分布越离散，此时熵值也越大。则取值的越多，分布越离散，此时熵值也越大。
作业
自己运用所给数据，自己运用所给数据，对定性数据进行描述统计分析
用表、图和数值法用表、对不同的定性数据的分布情况进行比较
图示法
条形图（与直方图的区别）条形图（与直方图的区别）圆形图（饼形图圆形图（饼形图) 排列图（Pareto图) 排列图（图
绘制应用
数值法
代表性数值
分布中心离散程度
数值法-分布中心数值法分布中心
名义数据：名义数据：众数有序数据：有序数据：
众数、中位数（更好）众数、中位数（更好）百分位数：衡量数据位置，表示相对高低。百分位数：衡量数据位置，表示相对高低。第相对高低 50百分位数就是中位数，P百分位数表示至少百分位数就是中位数，百分位数表示百分位数表示至少百分位数就是中位数的数据项数小于或等于该数据，有P%的数据项数小于或等于该数据，且至少的数据项数小于或等于该数据有（1-P）%的数据项数大于或等于这个值。）的数据项数大于或等于这个值
数值法-离散程度数值法离散程度
异众比率
众数个数）（n-众数个数）/n 众数个数
从随机变量的角度描述定性数据的离散程度
Gini-Simpson指数指数熵（entropy)
数值法-离散程度数值法离散程度
Gini-Simpson指数：G-S指数指数：指数指数
随机变量ξ的随机变量的G-S指数指数
数值法-离散程度数值法离散程度
熵
随机变量ξ的熵随机变量的熵
H (ζ ) = − ∑ pi ln pi
i =1
k
熵越大，说明变量ξ分布越离散熵越大，说明变量分布越离散原理：它给出了∑ pi=1的约束前提下，衡量原理：它给出了的约束前提下，的约束前提下给定的分布与均匀分布的接近程度。给定的分布与均匀分布的接近程度。均匀分布最离散，如果给定分布接近均匀分布，布最离散，如果给定分布接近均匀分布，则给定分布越离散，此时熵值也越大。给定分布越离散，此时熵值也越大。
变量与数据
单个定性数据的描述统计
表格法大致的分布形状（画像）大致的分布形状（画像）图示法数值法：数值法：用代表性的数值描述分布特征
原则低层次数据的描述方法适合高层次数据，低层次数据的描述方法适合高层次数据，反之不行
表格法
名义数据
频数频率分布表
有序数据
频数频率分布、频数频率分布、累积频数频率表

e商务文档

定性数据分析-王静龙-第一章

相关文档推荐：