第一章导论●统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。
其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。
1.2 数据统计的类型1.按计量尺度划分:定类尺度(分类数据)、定序尺度(顺序数据)、定居尺度&定比尺度(数值型数据)【品质数据(定性数据):分类数据、顺序数据;数量数据(定量数据):数值型数据】2. 按搜集方法划分:观测数据、实验数据3. 按时间状况划分:截面数据、时序数据变量:说明现象某种特征的概念,从一次观察到下一次观察,结果会呈现出变化。
变量值:变量的具体取值分类变量顺序变量数值型变量(离散型变量&连续型变量)例:一项调查表明,消费者每月在网上购物的平均花费是200元,他们选择在网上购物的主要原因是“价格便宜”。
要求:(1)这一研究的总体是什么?(2)“消费者在网上购物的原因”是分类变量、顺序变量还是数值型变量?(3)研究者所关心的参数是什么?(4)“消费者每月在网上购物的平均花费是200元”是参数还是统计量?(5)研究者所使用的主要是描述统计方法还是推断统计方法?第二章数据的搜集——一手资料调查——>调查数据实验——>实验数据调查的方式:普查、抽样调查、统计报表……——二手资料(统计公报、统计年鉴、网上资料、期刊、杂志、报纸……)2.2 抽样调查——概率抽样、非概率抽样概率抽样:也称随机抽样,指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样。
特点:★以随机原则抽取样本★每个单位被抽中的概率是已知的★用样本估计总体时,要考虑入样概率(概率抽样≠等概率抽样)1)简单随机抽样:从包括总体N个单位的抽样框中随机地、一个一个地抽取n个单位作为样本,每个单位入样的概率是相等的。
2)分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。
3)整群抽样:将总体中若干个单位合并为组,这样的组称为群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。
4)系统抽样:将总体中的所有单位按一定顺序排列,按照拟抽样数,将其划分成相同的段,然后在每一段中的固定位置抽取一个调查单位。
5)多阶段抽样:先按整群抽样的方法,抽取群,再从选中的群中随机抽取若干单位进行调查,这是二阶段抽样。
多阶段抽样以此类推。
数据的误差:(1)抽样误差:由于抽样的随机性引起的样本结果与总体真值之间的误差只在概率抽样中(2)非抽样误差:除抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异。
存在于任何抽样或调查中第三章数据的图标展示3.1 数据的预处理:是在队数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。
1. 数据审核(发现数据中的错误)2. 数据筛选(找出符合条件的数据)3. 数据排序(发现数据基本特征、升序和降序)分类数据的排序:字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分数值型数据的排序:(1)递增排序:设一组数据为X1,X2,…,X N,递增排序后可表示为:X(1)<X(2)<…<X(N)(2)递减排序可表示为:X(1)>X(2)>…>X(N)数据透视表功能:简化数据分析人员的工作量,使其能快速准确地从各个角度查看数据。
※在利用数据透视表时,数据表的首行必须有列标题。
3.2 品质数据的整理与展示3.2.1 分类数据的整理与图示1. 列出各类别2. 计算各类别的频数3. 制作频数分布表4. 用图形展示分类数据中需要计算的指标1频数:落在各类别中的数据个数频数分布:把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来。
2.比例:某一类别数据占全部数据的比值3.百分比:将对比的基数作为100而计算的比值4.比率:不同类别数值的比值如何利用Excel计算频数(插入——函数—— countif)分类数据的图示条形图:条形图是用宽度相同的条形的高度或长短来表示数据多少的图形★各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图★对比条形图——显示分类变量在不同时间或不同空间上的差异或变化饼图:用圆形及圆内扇形的面积来表示数值大小的图形。
主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用,在绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的3.2.2 顺序数据的整理与图示1. 累积频数:将各有序类别的频数逐级累加起来得到的频数。
向上累积:从类别顺序的开始一方,向类别顺序的最后一方累加频数;向下累积:从类别顺序的最后一方,向类别顺序的开始一方累加频数。
2. 累积频率:将各类别的百分比逐级累加3.3 数值型数据的整理与显示3.3.1 数据的分组:单变量值分组&组距分组(等距分组&异距分组)单变量值分组(要点)★适合于离散变量★适合于变量值较少的情况组距分组(要点):1.适合于连续变量,适合于变量值较多的情况;2.将变量值的一个区间作为一组;3.必须遵循“不重不漏”的原则;4.可采用等距分组,也可采用不等距分组1. 下 限:一个组的最小值2. 上 限:一个组的最大值3. 组 距:上限与下限之差4. 组中值:下限与上限之间的中点值组距分组(步骤)第1步:排序,确定组数(K )5≤K ≤15能够显示数据的分布特征和规律第2步:确定组距 组距=(最大值-最小值)÷组数 ★ 组距宜取5或10的倍数 第3步:根据分组整理成频数分布表 等距分组与不等距分组1. 等距分组 各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征和规律2. 不等距分组 各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况分组数据—直方图1. 用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布2. 在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)直方图与条形图的区别1. 条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的。
2. 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。
3. 直方图的各矩形通常是连续排列,条形图则是分开排列。
第4章 数据的概括性度量数据分布特征的测度◆集中趋势的度量—— 反映数据向其中心值靠拢或聚集的程度 ◆离散程度的度量—— 反映数据远离其中心值的趋势 ◆分布的形状—— 反映数据分布的偏态和峰态4.1 集中趋势: 是指一组数据向其中心值靠拢的倾向和程度,它反映了一组数据中心点的位置所在。
*测度集中趋势就是寻找数据一般水平的代表值或中心值; *不同类型的数据用不同的集中趋势测度值 分类数据—— 众数 顺序数据—— 中位数和分位数 数值型数据 —— 平均数 4.1.1 分类数据:众数 众数(MODE ):一组数据中出现次数最多的变量值,用Mo 表示;(1)主要用于测度分类数据的集中趋势,也可用于顺序数据和数值型数据; (2)众数是位置代表值,不受极端值影响;(3)可能没有众数、有一个众数或几个众数 ●数值型分组数据的众数1. 众数的值与相邻两组频数的分布有关2. 相邻两组的频数相等时,众数组的组中值即为众数3. 相邻两组的频数不相等时,众数采用下列近似公式计算i f f f f f f L M ⨯-+--+=+--)()(1110 (L 为众数组的下限值,i 为众数组的组距,f 为众数组的频数,f-1为众数组前一组的频数,f+1为众数组 2 组中值=下限值+上限值4.1.2 顺序数据:中位数和分位数中位数:是一组数据排序后处于中间位置上的变量值,用Me 表示★排序后处于中间位置上的变量值★不受极端值的影响★主要用于顺序数据,也可用数值型数据,但不能用于分类数据计算中位数的步骤 1. 排序 2. 确定中位数的位置: (N 为数据的个数)●数值型分组数据的中位数1. 计算累积频数2. 确定中位数所在组3. 采用下列近似公式计算: i f S NL M mm e⨯-+=-12 (L 为中位数所在组的下限值,N 为数据的个数;Sm-1为中位数所在组以前各组的累积频数,fm 为中位数所在组的频数,i 为中位数所在组的组距)四分位数:也称四分位点,他是一组数据排序后处于25%和75%位置上的值。
(1)排序后处于25%和75%位置上的值 (2)不受极端值的影响(3)主要用于顺序数据,也可用于数值型数据,但不能用于分类数据 四分位数的计算 1. 排序2. 确定四分位数的位置下四分位数为QL ,上四分位数为QU ,公式为:QL 位置 =n/4 QU 位置 =3n/4 *如果位置是整数,四分位数就是该位置对应的值; *如果是在0.5位置上,则取该位置两侧值的平均数;*如果是在0.25或0.75的位置上,则取该位置的下侧值加上按比例分摊位置两侧数值的差值 4.1.3 数值型数据:平均数 平均数(均值):它是一组数据相加后除以数据的个数得到的结果。
1. 平均数是一组数据相加后除以数据个数得到的结果。
2. 集中趋势的最主要测度值 3. 易受极端值的影响4. 用于数值型数据,不能用于分类数据和顺序数据。
简单平均数(对未分组数据计算的平均数)公式为:NXNX X X X Ni iN∑==+++=121加权平均数:对分组数据计算的平均数,设原始数据被分成k 组,各组的组中值为M1,M2,…,Mk ,各组频数为f1,f2, …,fk ,则加权平均数为,★ 简单平均数,其数值的大小只与变量值的大小有关;★ 加权平均数,其数值的大小不仅受各组变量值大小的影响,而且受各组变量值出现的频数即权数(fi )大小的影响。
如果某一组的权数较大,说明该组的数据较多,那么该组数据的大小对均值的影响就越大,反之则越21+=N 中位数位置21+=N 中位数位置⎺X几何平均数: N 个变量值乘积的 N 次方根,用GM 表示其计算公式为:N Ni i N N M X X X X G ∏==⨯⨯⨯=1212. 主要用于计算平均比率和平均发展速度●众数、中位数和平均数的比较p94 1.众数、中位数和平均数的关系1. 如果数据分布是对称的,则Mo = Me = x2. 如果数据是左偏分布,则x < Me < Mo3. 如果数据是右偏分布,则Mo < Me < x4.2 离散程度的测度离散程度:它反映的是各变量值远离其中心值的程度。