当前位置：文档之家› 第八章数据处理

第八章数据处理

回答类别描述口味好/喜欢味道低/较低价格
回答编码
1,2,3,4 5,6
1 2
不会引起头痛，胃痛
长期喝，习惯朋友喝/受朋友影响不知道
7,8
9,10 11,12 13,14,15
3
4 5 6
4.数据文档的转换
数据文档的初始形态统计分析软件：如SAS、SPSS、MINITAB、SYSTAT、EVIEWS 数据库管理软件：如：Microsoft Excel、Lotus1-2-3和Quatro Pro
对方差进行开方，即可得到标准差。
二、单变量描述统计
4.离散趋势的常用测度指标
四分位差把调查数据按照从小到大的顺序排列后，用三个四分位数点（ Q1 , Q2 , Q3 ）将其分为四个相等部分，高四分位数点 Q3与低四分位数点 Q1 之间的距离即为四分位差。
QD Q3 Q1
变异系数指调查数据的标准差与其算术平均数的比值，也称为离散系数，主要用于比较不同类别数据的离散程度。
在实际操作中，建立回归模型的过程非常复杂，应用时必须结合具体情况进行探讨和分析。
例题
下表是一份数据，其中的y是保险公司职员一周平均加班时数，x是一周新签保单数，这里希望能确立一个模型来研究新签保单和员工加班时数之间的关系。实例数据
周序号新签保单(X) 加班时数(Y)
1
2
825
215
（1）单项选择题录入----根据题项附值，题内若有其他选项则转化为开放式问题模式录入。（2）多项选择题录入 A多选项二分法----每个变量只有0或1取值； B多选项分类法----为多个答案分设变量。（3）开放式问题录入 A列出答案；B合并答案；C设置编码；D选定编码。
•
你为什么喜欢喝A品牌的啤酒？
3.数据处理的前期准备
选择高效率的数据处理人员。建立完善的工作制度。制定科学的工作标准。
§8.2 一般数据处理流程
一、数据审核二、后编码三、数据录入四、数据文档的转换五、数据库清理六、数据库储存
一般数据处理流程图
（1）数据审核否
剔除或返还纠错
数据是否可用是（2）后编码（3）数据录入（4）数据文档转换（5）数据库清理
2.后编码编码指将问卷（或调查表）中的文字信息转化为计算机能识别的数字符号的过程，即给问卷或调查表的每一个题目的每一个备选答案分配一个符码，符码通常是一个数字。 3.数据录入指将问卷或编码表中的每一题目或变量对应的代码读到磁盘等储存介质上，或通过键盘直接敲入计算机中。
数据编码与录入的处理方式：
3.5
1
3
4 5 6 7 8 9
1070
550 480 920 1350 352 670
4
2 1 3 4.5 1.5 3
10
1215
5
表
周序号 1 2 3 4 5 6 7 8 9 10 新签保单(X) 825 215 1070 550 480 920 1350 352 670 1215
计算一元回归的中间变量

众数指数据中出现次数最多的变量值，记为 M 0 。计算分组数据的众数： 1 M0 L i 1 2 1和 2 分别为众 L 为众数所在组的下限， i 为众数所在组组距，数所在组变量值的次数与下一组和上一组变量值的次数之差。
二、单变量描述统计
4.离散趋势的常用测度指标
加班时数(Y) 3.5 1 4 2 1 3 4.5 1.5 3 5 X2 680625 46225 1144900 302500 230400 846400 1822500 123904 448900 1476225 Y2 12.25 1 16 4 1 9 20.25 2.25 9 25 XY 2887.5 215 4280 1100 480 2760 6075 528 2010 6075
一、频数分布和统计图表
1.频数分布
指把总体按某一标志分组，并按一定顺序列出每个组的单位数，所形成的总体单位在各组间的分布；也称为次数分布或分布数列。
2.频数分布表
把总体中各个类别及其相应的频数、频率及累计频率等指标用汇总表格的形式展示出来所形成表格。
3.编制频数分布表的一般步骤
找出数据的变动范围；确定组数和组距；确定组限（上限、下限）和组中值；计算调查数据落入各组的频数和频率。
标准差指调查数据中各变量值与其算术平均数离差平方的算术平均数的平方根，记为 s 。方差指标准差的平方，记为 s 2 。依据原始数据计算方差：
s2
x
n i 1
i
x

2
n 1
依据分组数据计算方差：
s2
x x
k i i 1
2
fi
f
i 1
k
i
1
编制频数分布表时，需要注意组数、组距及组限的确定问题；
不同的统计图一般都有其特定的适用范围，在实际应用时，应根据数据性质及所反映问题的需要选择适宜的统计图。
二、单变量描述统计
1.集中趋势
指调查数据的频数分布从两边向中间集中的趋势，也称作趋中性。
2.离散趋势
指调查数据远离其分布中心值的程度。
注：不同处理方式分析结果将有所不同。
6.数据库储存
是否需要给数据库加入新的变量。
数据库文档通常储存在磁盘等储存介质上，另外再用一张磁盘或其他储存介质作为备份以保证安全。
第9章
数据分析方法
§9.1 统计分析方法Ⅰ—描述统计 §9.2 统计分析方法Ⅱ—推断统计
§9.1 统计分析方法Ⅰ—描述统计
一、频数分布和统计图表
4.统计图
是一种以点、线条、面积等方法描述和显示数据的形式，具有直观、醒目、易于理解等特点，一般由坐标系、图形和图例三部分组成。
5.常用的统计图有：
条形图、直方图、饼图、折线图、趋势图、态度对比图、轮廓形象图等。
编制频数分布表及绘制统计图时应注意的问题
编制频数分布表和绘制统计图只是对调查数据进行处理的初级阶段；
x1 x2 xn x n
x
i 1
n
i
n
加权算术平均数——根据分组数据计算
x1 f1 x2 f 2 xk f k x f1 f 2 f k
x f
i 1 k
k
i i
k
1
i
二、单变量描述统计
3.集中趋势的常用测度指标
中位数指把一组数据按照从小到大的顺序排列后，位置居中的变量值，记为 M e 。计算原始数据的中位数： M e xn1 2 当 n 为奇数时：当 n 为偶数时： M e xn 2 xn 21 2
集中趋势指标反映调查数据的共性和集中性，离散趋势指标反映调查数据的个性和分散性。调查数据的离散程度越高，用于描述数据集中趋势指标的代表性越差，使用这些代表性指标进行统计分析的效果越差。
二、单变量描述统计
3.集中趋势的常用测度指标
平均数又称均值，主要有算术平均数、调和平均数和几何平均数等计算方法，其中以算术平均数最为常用。简单算术平均数——根据原始数据计算
多元线性回归非线性回归
yi 0 1 x1 2 x2 n xn i
三、多变量描述统计
应用相关与回归分析方法时应注意的问题
相关分析的目的是测定变量之间相关关系的方向和程度，回归分析的目的是利用回归模型进行预测和控制。
进行相关分析时，不能仅凭相关系数的大小来解释变量之间的相关程度，否则有可能会得出不切实际的结论。
5.数据库清理
目的：不让有错误的数据进入统计分析过程。数据库清理是对数据库文件做以下检查：编码检查一致性检查缺失值检查一致性检查---为了找出超出正常范围、逻辑上不合理或极端的数值。如一般备选答案1～5，9为缺失值，若出现8则错。缺失值检查---是存在明显错误、不合理数据、漏填数据项。处理方式：均值代替、估计值代替、问卷删除、结对删除。
i 1 i 1
三、多变量描述统计
4.回归分析
是研究因变量对自变量依赖关系的一种统计分析方法，目的是通过自变量的给定值来估计或预测因变量的均值。一元线性回归
y 0 1 x
一般实现步骤绘出散点图→建立一般模型→估计方程参数→检验回归方程的拟合优度→检验参数的显著性→检验回归方程的显著性→分析回归方程的残差→预测
一、频数分布表和统计图法二、单变量描述统计三、多变量描述统计
统计分析方法的选择：
• 1、调研问题的性质 • 描述性问题----如对某电视广告接触状况的反应；对某产品性能的评价；不同人对某品牌偏好差异等。采用频数分析和描述统计。 • 关系性问题----如相关关系和因果关系。采用相关分析、回归分析、方差分析等。 • 2、数据资料的性质 • 品质变量----如性别、职业等。采用列联分析、非参数检验等。 • 数量变量----如年龄、收入、销售量、知名度等，即等距、等比量表，或次序量表进行数学转换后。可采用各种方法。
加入新变量
是
是否需要加入新变量否（6）数据库储存
一般数据处理流程图
1.数据审核
数据资料的审核是数据资料处理的第一步工作。审核方式
资料收集过程中的审核。
资料回收后的审核。审核的一般方法
文字资料的审核方法。数字资料的审核方法。
常见需审核的问题：
• 问卷的某些部分填写不完整或记录字迹不清楚； • 调查对象回答差异不大； • 返回的调查问卷本身丢失几页； • 问卷的回收超过时限； • 问卷的填写人员不符合调查要求； • 问卷存在明显不一致的答案；处理方式： • 对于样本量较少而调查对象又比较容易确认的不合格问卷，通常采用退回现场重新调查的方式； • 对于无法退回现场，缺失值较少且缺失值不是关键变量的少数问卷，进行填补确实值的处理； • 其他情况采用丢弃不合格问卷。

e商务文档

第八章数据处理

相关文档推荐：

e商务文档

第八章 数据处理

相关文档推荐：

第八章数据处理