当前位置:
文档之家› 数据分析与软件应用第一讲数据分析概述.ppt
数据分析与软件应用第一讲数据分析概述.ppt
某支股票的波动受到了哪些影响?
国家:08年奥运会能带给我们什么?
2010年上海世博会… …
2019/11/30
3
数据分析与处理
数学建模的例子
大学生数学建模
艾滋病疗法的评价及疗效的预测
同时服用3种药物(zidovudine, lamivudine,indinavir)的300多名病人每隔几周测试的 CD4和HIV的浓度。
2019/11/30
9
数据分析与处理
课程相关资料
书籍:
应用多元统计分析 朱建平 科学出版社
应用统计
葛新泉 社会科学出版社
基于spss的数据分析 薛薇 中国人民大学出版
统计学实验
冯力 东北财大出版
2019/11/30
10
数据分析与处理
相关软件
Spss Excel
数据分析与处理
王明芳 南京农业大学工学院
数据分析与处理
主要内容
When ?
Why?
Who ?
数据分析与处理
How?
2019/11/30
2
What?
数据分析与处理
开场白
为什么要学这门课?
看几个例子
个人:这一个月的钱都花到哪里去了?(谁动了
我的钱?)
集体:一个公司的利润是从哪里得来的?
Q04
Q05 Q06 Q07 Q08001
变量名称 问卷编号 性别 民族 家庭所在地
专业
变量类型 数字 数字 数字 数字
数字
家庭总人口
数字
家庭月总收入
数字
月花费占家庭总收入的比 例
数字
最大的一次性花费
字符
变量值位数 编码说明
3 001-292
1
以选项序号为编码值。9=无回答。
2
1=汉族;2=满族;3=回族;4=蒙古族; 5=朝鲜族;99=无回答。
按文化程度分类
小学及以码
1.编码原则
第一,不重。 第二,不漏。 第三,对于无回答和不适用也应给予编码。
2.具体方法:填空题、单选题和多选题
数据分析与处理
5. 您的文化程度是:
(1) 小学及以下 (2) 初中 (3) 高中或中专 (4) 大专 (5) 本科及以上
2019/11/30
7
数据分析与处理
课程内容
第一讲 数据分析概论 第二讲 SPSS统计软件基本操作 第三讲 数据文件整理 第四讲 统计分析概述 第五讲 均值比较分析
2019/11/30
8
数据分析与处理
第六讲 方差分析 第七讲 数据相关分析 第八讲 时间序列分析 第九讲 多变量分析
1
以选项序号为编码值。9=无回答。
01=交通土建;02=建筑学;03=汽车与内
2
燃机;04=机械电子;05=计算机;06=管 理工程;07=市场营销;08=工业外贸。
99=无回答
2
以填写的实际数值为编码值。99=无回答 。
5
以填写的实际数值为编码值。-0001=无回 答。
1
以选项序号为编码值。9=无回答。
6. 您的年龄:____周岁
数据分析与处理
6. 您个人拥有下列哪些物品(可选多项)?
(1) 个人电脑 (2) 手机 (3)呼机 (4) 相机 (5)收录机(500元以上) (6)首饰珠宝(500元以上) (7)名牌服装鞋帽(500元以上) (8)名牌自行车(500元以上)
数据分析与处理
7. 您业余时间主要从事哪些活动:(依经常程度选择三项)
数据分析与处理
四、数据清理
2.列联式检查
培 训 费 用 * 有 无 参 加 培 训 Cross tabu lation
Co un t
培训 费用 T otal
有无 参加培 训
500元 以 下 500元 以 上
有 33 19
没有 2 1
52
3
T otal 35 20 55
数据分析与处理
第二步,资料分析?
第1列是病人编号,第2列是测试CD4的时刻(周),第3列是测得的CD4(乘以0.2个 /ml),第4列是测试HIV的时刻(周),第5列是测得的HIV(单位不详)。
PtID 23424 23424 23424 23424 23424 23425 23425 23425 23425
2019/11/30
CD4Date CD4Count
2 2 150 2 160 2 2500 2
50 2
2800 2
2 _0001
2
数据分析与处理
三、录入
1.使用编码表(code sheet) 2.直接输入数据 3.在调查的同时输入资料 4.使用光学扫描仪
数据分析与处理
四、数据清理
1.编码幅度检查
家 庭所 在地
Va li d
M issin g T o ta l
5 500
3 1000 3 1100
Q07 Q08001 1 学费
Q08002 Q09 2450 2
3 _0001 3 学费
2400 2 3000 2
1 学费
3500 2
1 学费
3500 2
2 随身听
450 2
1 一根雪糕
12
2 _0001
2 _0001
3 _0001
2 _0001 2 学费 9 买衣服 3 学费
数据清洗是指消除数据中所存在的噪声以及纠正其不一致
的错误;
数据集成是指将来自多个数据源的数据合并到一起构成一
个完整的数据集;
数据转换是指将一种格式的数据转换为另一种格式的数据
;
数据消减是指通过删除冗余特征或聚类消除多余数据。
数据分析与处理
数据清洗
遗漏数据处理:
忽略该条记录 手工填补遗漏值 利用缺省值填补遗漏值 利用均值填补遗漏值 利用同类别均值填补遗漏值 利用最可能的值填补遗漏值
1 城镇 2 农村 3 4 T o ta l 9
Frequency 265 28 1 1 295 1 296
Percent 89.5 9.5 .3 .3 99.7 .3
100.0
Va li d Percent
89.8 9.5 .3 .3
100.0
Cu mu l ati v e Percent
89.8 99.3 99.7 100.0
0
178
4
228
8
126
25
171
40
99
0
14
4
62
9
110
23
122
4
RNADate VLoad
0
5.5
4
3.9
8
4.7
25
4
40
5
0
5.3
4
2.4
9
3.7
23
2.6
数据分析与处理
研究生数学建模的例子 2008-第五届全国研究生数学建模竞赛试题
A题:汶川地震唐家山堰塞湖泄洪问题 B题:城市道路交通信号实时控制问题 C题:货运列车的编组调度问题 D题:中央空调系统节能设计问题
数据预处理 初步知识介绍
2019/11/30
34
数据分析与处理
数据清洗 数据集成 数据转换 数据消减
数据分析与处理
噪声数据是指数据中存在着错误、或异常(偏离期望值)
的数据;
不完整数据是指感兴趣的属性没有值; 不一致数据则是指数据内涵出现不一致情况(如:作为
关键字的同一部门编码出现不同值)。
(1)看书籍报刊
□
(2)看电视
□
(3)再学习
□
(4)做家务
(5)逛街、购物
(6)聊天
(7)休闲健身
(8)其他______
数据分析与处理
二、编码
3.制作编码手册
数据分析与处理
北京工业大学98级本科生消费状况调查 变量定义及编码手册
问题号码 1 2 3
4
5 6 7 8
变量 Num Q01 Q02 Q03
2019/11/30
5
数据分析与处理
工欲善其事,必先厉其器
教学目的:通过本课程的学习,让学生会应用多
种统计分析方法进行数据分析,通过和不同的学 科知识相结合,对所考虑具体问题给出合理的推 断。
2019/11/30
6
数据分析与处理
这门课都讲什么? 问题一
信息、数据、知识的差别是什么?
4 11
5 11
6 11
7 11 8 11 9 11 10 1 1 11 9 1 12 1 1
13 2 1
14 1 2 15 2 1
Q03 Q04 11 11 11
11
21
11
11 11 21 11 21 11
21
22 11
Q05 Q06 3 1500 3 1500 3
3
4
3 1000
3 5 2000 3 1000 3 1000 4 1000 3 2500
2019/11/30
11
数据分析与处理
开始实干!
2019/11/30
12
数据分析与处理
社会研究的四个阶段 准备阶段
调查阶段 研究阶段 总结阶段
定性分析 资 料 分 析
定量分析
社会统计分析与SPSS应
数据用 分析与处理
第一步,数据从哪里来?
获取数据 初步知识介绍
2019/11/30
14
数据分析与处理
数据分析与处理
统计分析