第三章描述性统计分析
3.1 3.2
3.4相关概念
集中趋势的数据描述表示分布形状的统计量
3.3离散趋势的数据描述
3.1 描述性统计的相关概念
统计学是通过样本数据研究总体数据的一门学科。
•总体(population)是指所研究对象的全体组成的集合。
•样本(sample)是指从总体中抽取部分对象(个体)组
成的集合。
–要通过对样本的研究达到了解总体的目的,必须要求样本具有代表性。
–保证样本具有代表性的一种常用方法是简单随机抽样。
指总体的每个个体有同样的可能被抽到成为样本的一个观测值。
总体
样本
总体和样本
统计量和参数
•统计量(statistics):用来描述样本特征的概括性值,如样本均值(x)等。
•参数(parameter):用来描述总体特征的概括性值,如总体均值(μ)等。
均值方差标准差
总体参数μσ2σ
样本统计量x s2s
总体均值又称为期望(Expectation);总体参数通常是未知的。
统计量可由样本数据计算得到。
样本统计量能否概括总体的特征?——推断性统计
什么是描述性统计
目的
获得对数据的总体感觉以及评估数据质量。
定义
对数据进行频数统计、计算特征统计量和将数据图形化的过程称为描述统计。
实现方式
1.用表格工具或图形化方法来反映样本数据总体分布情况。
2.用数据特征统计量来反映数据的集中趋势、离散趋势、分布形状。
•偏度、峰度
表示数据分布形状的统计量03
•极差、半极差、方差、标准差、变异系数
表示数据离散程度的统计量
02•均值、中位数、众数、百分位数
表示数据集中趋势的统计量
01样本统计量
第三章描述性统计分析
3.1 3.2
3.4相关概念
集中趋势的数据描述表示分布形状的统计量
3.3离散趋势的数据描述
3.3.1 表示离散趋势的统计量
表示数据离散程度的统计量
极差(range )和四分位差(Qrange )
四分位差Q=Q 3-Q 1
Q 越大意味着数据间的离散程度越大
●四分位差就是上、下四分位数之差,又称为四分位数间距。
描述的是中间半数观测值的分布情况。
•极差=max{x i }-min{x i }
●极差就是数据中最大值和最小值之差。