当前位置:文档之家› 北京大学软件与微电子学院-莫同-数据挖掘全部课后题整理-呕心之作

北京大学软件与微电子学院-莫同-数据挖掘全部课后题整理-呕心之作

(4)顾客分类,数据挖掘能够告诉我们什么样的顾客买什么产品(聚类或分类)
识别顾客需求,对不同的顾客识别最好的产品,使用预测发现什么因素影响新顾客。汽车保险检测假造事故骗取保险赔偿的人。检测电话欺骗,通话距离、通话时间,每天或每周通话次数
–数据挖掘方法过程是什么?
数据库-->数据清理-->数据仓库-->任务相关数据-->数据挖掘-->模式评估-->知识
–什么是ETL,ETL包括哪些主要步骤?
–数据的抽取(Extract)、转换(Transform)、装载(Load)的过程
目标:
–数据优化。以最小代价(包括对日常操作的影响和对技能的要求)将针对日常业务操作的数据转化为针对数据仓库而存储的决策支持型数据
–执行ETL需要考虑哪些原则?
–应尽量利用数据中转区对运营数据进行预处理。保证数据的安全性、集成与加载的高效性。
前提不同:统计学要求有数据分布模型的先验假设;数据挖掘没有上述要求
处理数据规模不同
相互促进:数据挖掘可以作为统计分析的初步分析阶段
统计理论方法和技术可以应用于数据挖掘
–数据挖掘与数据管理的区别与联系?
数据库:演绎推理(deductive)
先定义好模式,按照模式查询数据(SQL)
数据挖掘:归纳推理(inductive)
具体在PPT上有一个流程图
书上的:数据清理(消除噪声、不一致数据)-->数据集成(多种数据源可以组合在一起)-->数据选择(从数据库中检索与分析任务相关的数据)-->数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作)-->数据挖掘(基本步骤,使用智能方法提取数据模式)-->模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式)-->知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)
变异指标反映总体各单位标志值的分布趋势
标志变异越大,平均数的代表性越小;标志变异越小,平均数的代表性越大
–基本统计描述该如何使用?
使用简单统计方法:总数、平均数、中位数、占比、标准差、方差等
环比、同比、超过阈值的变化、跟以前若干统计期的平均数相比
相关分析
•找到两个变量之间的关联关系
回归分析
•对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确立一个相应的数学表达式,以便从一个一直量来推测另一个未知量
(2)聚类,给对象归类使得同组对象尽可能相似,不同组对象尽可能不相似,无指导学习。把相关文档归并方便浏览;市场分割,细分为不同的客户群;获取价格波动相似的股票有助于决策;相关案件放在一起寻找嫌疑人的特征。
(3)关联分析,给定一组记录,分析项目之间的依赖关系。购物分析,用于促销、货价管理存货管理;医疗信息发现与某种疾病与症状的关联以便通过症状诊断病症
可以比较,但是无法表达差异大小
众数、中位数等有含义,但是均值没有含义
可用于连续数值的离散化
标称、二元和序数属性都是定性的
(4)数值属性
定量的
区间标度属性
比例标度属性
–如何对属性的区间标度变量和二元变量进行相似度度量?
区间标度变量:最简单的计算——求差
区间标度变量距离:欧几里得距离、曼哈顿距离
二元变量的相似度度量分对称、非对称两种
–ETL的过程应是主动“拉取”,而不是从内部“推送”,其可控性将大为增强。
–流程化的配置管理和标准协议
–数据质量的保证
–数据质量问题包括哪些,由什么原因导致?
–正确性(Accuracy):数据是否正确体现在现实或可证实的来源
–完整性(Integrity):数据之间的参照完整性是否存在或一致
–基本统计描述有哪些?
1)总量描述:总量、总数
2)中心趋势描述:均值、中位数、众数、中列数
3)相对描述
结构相对指标:部分比总体
比例相对指标:总体中的A比总体中的B
比较相对指标:不同对象同属性比较
强度相对指标:有关系的两个总量指标对比
动态相对指标:统计期比基期
4)变异描述
又称标志变动度,综合反映各个单位标志值差异的程度例Fra bibliotek:颜色、婚姻状况等
(2)二元属性
布尔属性,一个二元属性只有两种状态,0或1。
对称的二元属性指属性的两个状态具有同等价值,相同权重,如性别。
不对称的二元属性中,属性的两个状态的重要性是不同的,如HIV阳性和HIV阴性。
天生的分类属性,无计算含义,类似标称变量
对称性有特殊含义和作用
(3)序数属性
序数型属性的值之间是有顺序关系的,如讲师、副教授、教授
第1讲数据挖掘概述
–数据与知识的区别与联系?
数据:对象(被描述的单元)+属性(描述对象某一方面的特征)
数据是将不同类型的属性经数据处理数据化得到的结果
知识能保障我们达成既定目标
数据是挖掘的基础。数据记录了现象,通过现象总结出知识。
–列举几项你所知道的数据挖掘应用,并论述数据挖掘在其中的作用?
(1)分类,根据特征判断对象属于哪个类别,有指导学习。预测肿瘤细胞是良性还是恶性;识别信用卡交易是否合法还是欺诈;电信客户流失分析;图片、音频、视频标签;蛋白质结构功能分类等。
给定特定数据,归纳一般模式;数据挖掘是数据库功能的延伸
–数据属性有哪些类别,不同类别的属性有哪些作用?
属性:数据的字段/维度,说明数据内容含义
数据属性有:数据说明、取值说明、单位/量纲
属性分类:标称属性、二元属性、序数属性、数值属性
(1)标称属性
与名称相关,用于描述,取值常为字符串,每个值代表某种类别、编码或状态,枚举型,不具备有意义的序,可被用于分类,数值计算无实际意义,但可以用来寻找众数
–数据挖掘与机器学习的区别与联系?
机器学习为数据挖掘提供理论方法:分类、聚类
所处理的数据在量上的差距:机器学习数据规模相对小;数据挖掘数据规模相对大
数据挖掘目标适中,自动化繁琐的挖掘工作,而非达到人的智能行为;辅助用户决策,而非代替用户决策
–数据挖掘与统计的区别与联系?
目标类似:统计也是希望从数据中发现令人感兴趣的信息
•通过定性分析来确定哪个是自变量,哪个是因变量
–为什么要进行数据可视化?
可以借助图形化手段,清晰有效的传达和沟通信息。可以帮助人们理解分析数据。
–数据可视化的七个阶段是什么?
获取、分析、过滤、挖掘、表达、修饰、交互
–数据可视化的解决的重点问题是什么?
可视化的七个重点问题:数据来源、数据结构、关注信息、分析处理、视觉模型、清晰易读、操作控制
相关主题