什么是数据挖掘?什么是数据仓库?并简述数据挖掘的步骤。
数据挖掘是从大量数据中提取和发现(挖掘)知识的过程。
具体地说,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据仓库是面向主题的、集成、稳定的、不同时间的数据集合,用于支持经营管理中的决策制定过程
步骤:
1)数据清理(消除噪声或不一致数据)
2)数据集成(多种数据源可以组合在一起)
3)数据选择(从数据库中检索与分析任务相关的数据)
4)数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作)
5)数据挖掘(基本步骤,通过智能方法提取数据模式)
6)模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式)
7)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)
什么是数据可视化?
数据可视化旨在通过图形表示清晰有效地表达数据。
基于像素的可视化技术
几何投影可视化技术
基于图符的可视化技术
层次可视化技术
数据的基本形式有数据库数据、数据仓库数据和事务数据
数据流、有序/序列数据、图或网络数据、空间数据、文本数据、多媒体数据和万维网
数据对象和属性类型数据集由数据对象组成,一个数据对象代表一个实体。
属性是一个数据字段,表示数据对象的一个特征。
标称属性(与名称相关)
二元属性(布尔属性)
序数属性
数值属性(区间标度属性和比率标度属性)
离散属性和连续属性
什么是数据清理?数据清洗过程
填写缺失值,平滑噪声数据,识别、删除离群点,解决不一致性
噪声是被测量的变量的随机误差或方差
数据清洗一般包括数据分析,定义和执行清洗规则,清洗结果验证等步骤
1.数据分析
根据相关的业务知识,应用相应的技术,如统计学,数据挖掘的方法,分析出数据源中数据的特点,为定义数据清洗规则奠定基础。
除手工测查数据或数据样本之外,还可以用专门的分析程序来分析数据源。
数据分析的结果是数据源一些数据质量问题的描述,被保存到元数据库中。
2.定义清洗规则
主要的清洗规则包括:
*空值的检查和处理
*非法值的检测和处理
*不一致数据的检测和处理
*相似重复记录的检测和处理
3.执行数据清洗规则检查拼写错误
去掉重复的(duplicate )记录
补上不完全的(incomplete)记录
解决不一致的(inconsistent)记录
用测试查询来验证数据
生成数据清晰报告
4.清洗结果验证
对定义的清洗转换规则的正确性和效率进行验证和评估,当不满足清洗要求时要对清洗规则或系统参数进行调整和改进。
数据清洗过程中往往需要多次迭代的进行分析,设计和验证。
什么是分类?有哪些方法?
分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。
决策树归纳
贝叶斯分类
什么是聚类?有哪些方法?
聚类分析,简称聚类,是把一个数据对象(或观测)划分成子集的过程。
每个子集是一个簇,使得簇中的对象彼此相似,但与其他簇中的对象不相似。
由聚类分析产生的簇的集合称作一个聚类。
基本聚类方法:
划分方法(k-均值、k-中心点)
层次方法()
基于密度的方法(DBSCAN)
基于网格的方法
聚类和分类的区别
分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。
聚类是指事先没有“标签”而通过某种成因分析找出事物之间存在聚集性原因的过程。
区别是,分类是事先定义好类别,类别数不变。
分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。
聚类则没有事先预定的类别,类别数不确定。
聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成。
分类适合类别或分类体系已经确定的场合,比如按照国图分类法分类图书;聚类则适合不存在分类体系、类别数不确定的场合,一般作为某些应用的前端,比如多文档文摘、搜索引擎结果后聚类(元搜索)等。
数据预处理方法和内容
数据的预处理包括数据的规范化(即变换后可使数据在任一属性下,性能越优,属性值越
大,从而便于比较)非量化、归一化。
常见的数据预处理方法有:数据清洗、数据集成、数据变换和数据归约。
1.数据清洗:数据清洗的目的不只是要消除错误、冗余和数据噪音,还要能将按不
同的、不兼容的规则所得的各种数据集一致起来。
2.数据集成:将多个数据源中的数据合并,并存放到一个一致的数据存储(如数据
仓库)中。
这些数据源可能包括多个数据库、数据立方体或一般文件。
3.数据变换:找到数据的特征表示,用维度变换来减少有效变量的数目或找到数据
的不变式,包括规格化、规约、切换和投影等操作。
4.数据归约:是在对发现任务和数据本身内容理解的基础上,寻找依赖于发现目标的表达数据的有用特征,以缩减数据模型,从而在尽可能保持数据原貌的前提下最大限度的精简数据量,主要有两个途径:属性选择和数据抽样,分别针对数据库中的属性和记录。
分箱离散化分箱是一种基于指定的箱个数的自顶向下的分裂技术。
通过使用等宽或等频分箱,然后用箱均值或中位数替换箱中的每个值,可以将属性值离散化,就像用箱的均值或箱的中位数光滑一样。
这些技术可以递归地作用于结果划分,产生概念分层。
分箱并不使用类信息,因此是一种非监督的离散化技术。
它对用户指定的箱个数很敏感,也容易受离群点的影响。
分箱的方法主要有:
①统一权重法(又称等深分箱法)
②统一区间法(又称等宽分箱法)
③最小熵法
④自定义区间法
数据平滑的方法主要有:平均值法、边界值法和中值法。
频繁项集:指满足最小支持度的项集,是挖掘关联规则的基本条件之一。
支持度:规则A-B的支持度指的是所有事件中A与B同地发生的的概率,即P(AUB),
是AB同时发生的次数与事件总次数之比。
支持度是对关联规则重要性的衡量。
可信度:规则A-B的可信度指的是包含A项集的同时也包含B项集的条件概率
P(B|A),是AB同时发生的次数与A发生的所有次数之比。
可信度是对关联规则的准
确度的衡量。
DBSCAN算法
一种基于高密度连通区域的基于密度的聚类
算法过程:
1、将所有点标记为核心点、边界点和噪声点
2、删除噪声点
3、为距离在Eps之内的所有核心点之间赋予一条边
4、每组联通的核心点形成一个簇
5、将每个边界点指派到一个与之关联的核心点的簇中
DBSCAN算法的优点是耐噪声、能够处理任意大小和形状的簇
DBSCAN算法的缺点是处理高维数据、变密度的数据效果不好
K-均值算法(每个簇的中心都用簇中所有对象的均值来表示)
K - means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为
两个对象的距离越近,其相似度就越大。
该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。
输入:
K:簇的数目
D:包含n个对象的数据集
输出:k个簇的集合
方法:
(1 )从D中任意选择k个对象作为初始簇中心
(2 ) Repeat
(3 )根据簇中对象的均值,将每个对象分配到最相似的簇
(4 )更新簇均值,即重新计算每个簇中对象的均值
(5 ) Until不再发生变化
决策树
是用样本的属性作为结点,用属性的取值作为分支的树结构。
它是分类规则挖掘的典型方法,可用于对新样本进行分类。
决策树构建的基本步骤如下:
1.开始,所有记录看作一个节点
2.遍历每个变量的每一种分割方式,找到最好的分割点
3.分割成两个节点N1和N2
4.对N1和N2分别继续执行2-3步,直到每个节点足够“纯”为止
特点:
决策树分类器的构造不需要任何领域知识或参数设置因此适合于探测式知识发现;可以处理高维度数据;学习和分类步骤是简单和快速的;具有很好的准确率。
贝叶斯算法
贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法。