第八章 数据处理
回答类别描述 口味好/喜欢味 道 低/较低价格
回答 编 码
1,2,3,4 5,6
1 2
不会引起头痛 ,胃痛
长期喝,习惯 朋友喝/受朋友 影响 不知道
7,8
9,10 11,12 13,14,15
3
4 5 6
4.数据文档的转换
数据文档的初始形态 统计分析软件:如SAS、SPSS、MINITAB、SYSTAT、EVIEWS 数据库管理软件:如:Microsoft Excel、Lotus1-2-3和Quatro Pro
对方差进行开方,即可得到标准差。
二、单变量描述统计
4.离散趋势的常用测度指标
四分位差 把调查数据按照从小到大的顺序排列后,用三 个四分位数点( Q1 , Q2 , Q3 )将其分为四个相等部分,高四分 位数点 Q3与低四分位数点 Q1 之间的距离即为四分位差 。
QD Q3 Q1
变异系数 指调查数据的标准差与其算术平均数的比值, 也称为离散系数,主要用于比较不同类别数据的离散程度。
在实际操作中,建立回归模型的过程非常复杂,应用时必 须结合具体情况进行探讨和分析 。
例题
下表是一份数据,其中的y是保险公司职员一周平均 加班时数,x是一周新签保单数,这里希望能确立一个模 型来研究新签保单和员工加班时数之间的关系。 实例数 据
周序号 新签保单(X) 加班时数(Y)
1
2
825
215
(1)单项选择题录入----根据题项附值,题内若有其 他选项则转化为开放式问题模式录入。 (2)多项选择题录入 A多选项二分法----每个变量只有0或1取值; B多选项分类法----为多个答案分设变量。 (3)开放式问题录入 A列出答案;B合并答案;C设置编码;D选定编码。
•
你为什么喜欢喝A品牌的啤酒?
3.数据处理的前期准备
选择高效率的数据处理人员。 建立完善的工作制度。 制定科学的工作标准。
§8.2 一般数据处理流程
一、数据审核 二、后编码 三、数据录入 四、数据文档的转换 五、数据库清理 六、数据库储存
一般数据处理流程图
(1)数据审核 否
剔除或返还纠错
数据是否可 用 是 (2)后编码 (3)数 据录 入 (4)数据文档转换 (5)数据库清理
2.后编码 编码指将问卷(或调查表)中的文字信息转化为 计算机能识别的数字符号的过程,即给问卷或调 查表的每一个题目的每一个备选答案分配一个符 码,符码通常是一个数字 。 3.数据录入 指将问卷或编码表中的每一题目或变量对应的代 码读到磁盘等储存介质上,或通过键盘直接敲入 计算机中 。
数据编码与录入的处理方式:
3.5
1
3
4 5 6 7 8 9
1070
550 480 920 1350 352 670
4
2 1 3 4.5 1.5 3
10
1215
5
表
周序号 1 2 3 4 5 6 7 8 9 10 新签保单(X) 825 215 1070 550 480 920 1350 352 670 1215
计算一元回归的中间变量
众数 指数据中出现次数最多的变量值,记为 M 0 。 计算分组数据的众数: 1 M0 L i 1 2 1和 2 分别为众 L 为众数所在组的下限 , i 为众数所在组组距, 数所在组变量值的次数与下一组和上一组变量值的次数之差。
二、单变量描述统计
4.离散趋势的常用测度指标
加班时数(Y) 3.5 1 4 2 1 3 4.5 1.5 3 5 X2 680625 46225 1144900 302500 230400 846400 1822500 123904 448900 1476225 Y2 12.25 1 16 4 1 9 20.25 2.25 9 25 XY 2887.5 215 4280 1100 480 2760 6075 528 2010 6075
一、频数分布和统计图表
1.频数分布
指把总体按某一标志分组,并按一定顺序列出每个组的单位 数,所形成的总体单位在各组间的分布;也称为次数分布或 分布数列。
2.频数分布表
把总体中各个类别及其相应的频数、频率及累计频率等指标 用汇总表格的形式展示出来所形成表格。
3.编制频数分布表的一般步骤
找出数据的变动范围; 确定组数和组距; 确定组限(上限、下限)和组中值; 计算调查数据落入各组的频数和频率。
标准差 指调查数据中各变量值与其算术平均数离差平方 的算术平均数的平方根,记为 s 。 方差 指标准差的平方,记为 s 2 。 依据原始数据计算方差:
s2
x
n i 1
i
x
2
n 1
依据分组数据计算方差:
s2
x x
k i i 1
2
fi
f
i 1
k
i
1
编制频数分布表时,需要注意组数、组距及组限的确定 问题;
不同的统计图一般都有其特定的适用范围,在实际应用 时,应根据数据性质及所反映问题的需要选择适宜的统 计图。
二、单变量描述统计
1.集中趋势
指调查数据的频数分布从两边向中间集中的趋势,也称作 趋中性 。
2.离散趋势
指调查数据远离其分布中心值的程度。
注:不同处理方式分析结果将有所不同。
6.数据库储存
是否需要给数据库加入新的变量。
数据库文档通常储存在磁盘等储存介质上,另外再 用一张磁盘或其他储存介质作为备份以保证安全 。
第9章
数据分析方法
§9.1 统计分析方法Ⅰ—描述统计 §9.2 统计分析方法Ⅱ—推断统计
§9.1 统计分析方法Ⅰ—描述统计
一、频数分布和统计图表
4.统计图
是一种以点、线条、面积等方法描述和显示数据的形式,具 有直观、醒目、易于理解等特点,一般由坐标系、图形和图 例三部分组成。
5.常用的统计图有:
条形图、直方图、饼图、折线图、趋势图、态度对比图、轮 廓形象图等。
编制频数分布表及绘制统计图时应注意的问题
编制频数分布表和绘制统计图只是对调查数据进行处理 的初级阶段;
x1 x2 xn x n
x
i 1
n
i
n
加权算术平均数——根据分组数据计算
x1 f1 x2 f 2 xk f k x f1 f 2 f k
x f
i 1 k
k
i i
k
1
i
二、单变量描述统计
3.集中趋势的常用测度指标
中位数 指把一组数据按照从小到大的顺序排列后,位置 居中的变量值,记为 M e 。 计算原始数据的中位数: M e xn1 2 当 n 为奇数时: 当 n 为偶数时: M e xn 2 xn 21 2
集中趋势指标反映调查数据的共性和集中性,离散趋 势指标反映调查数据的个性和分散性。调查数据的离 散程度越高,用于描述数据集中趋势指标的代表性越 差,使用这些代表性指标进行统计分析的效果越差。
二、单变量描述统计
3.集中趋势的常用测度指标
平均数 又称均值,主要有算术平均数、调和平均数和几 何平均数等计算方法,其中以算术平均数最为常用。 简单算术平均数——根据原始数据计算
多元线性回归 非线性回归
yi 0 1 x1 2 x2 n xn i
三、多变量描述统计
应用相关与回归分析方法时应注意的问题
相关分析的目的是测定变量之间相关关系的方向和程度, 回归分析的目的是利用回归模型进行预测和控制。
进行相关分析时,不能仅凭相关系数的大小来解释变量之 间的相关程度,否则有可能会得出不切实际的结论。
5.数据库清理
目的:不让有错误的数据进入统计分析过程。 数据库清理是对数据库文件做以下检查: 编码检查 一致性检查 缺失值检查 一致性检查---为了找出超出正常范围、逻辑上不合理或极端 的数值。如一般备选答案1~5,9为缺失值,若出现8则错。 缺失值检查---是存在明显错误、不合理数据、漏填数据项。 处理方式:均值代替、 估计值代替、问卷删除、 结对删除。
i 1 i 1
三、多变量描述统计
4.回归分析
是研究因变量对自变量依赖关系的一种统计分析方法,目的 是通过自变量的给定值来估计或预测因变量的均值。 一元线性回归
y 0 1 x
一般实现步骤 绘出散点图→建立一般模型→估计方程参数→检验回 归方程的拟合优度→检验参数的显著性→检验回归方 程的显著性→分析回归方程的残差→预测
一、频数分布表和统计图法 二、单变量描述统计 三、多变量描述统计
统计分析方法的选择:
• 1、调研问题的性质 • 描述性问题----如对某电视广告接触状况的反应;对 某产品性能的评价;不同人对某品牌偏好差异等。 采用频数分析和描述统计。 • 关系性问题----如相关关系和因果关系。采用相关分 析、回归分析、方差分析等。 • 2、数据资料的性质 • 品质变量----如性别、职业等。采用列联分析、非参 数检验等。 • 数量变量----如年龄、收入、销售量、知名度等,即 等距、等比量表,或次序量表进行数学转换后。可 采用各种方法。
加入新变量
是
是否需要加入新变量 否 (6)数据库储存
一般数据处理流程图
1.数据审核
数据资料的审核是数据资料处理的第一步工作。 审核方式
资料收集过程中的审核。
资料回收后的审核。 审核的一般方法
文字资料的审核方法。 数字资料的审核方法。
常见需审核的问题:
• 问卷的某些部分填写不完整或记录字迹不清楚; • 调查对象回答差异不大; • 返回的调查问卷本身丢失几页; • 问卷的回收超过时限; • 问卷的填写人员不符合调查要求; • 问卷存在明显不一致的答案; 处理方式: • 对于样本量较少而调查对象又比较容易确认的不合 格问卷,通常采用退回现场重新调查的方式; • 对于无法退回现场,缺失值较少且缺失值不是关键 变量的少数问卷,进行填补确实值的处理; • 其他情况采用丢弃不合格问卷。