通信与信息工程学院数据仓库与数据挖掘分析课程设计班级:XXXXXX:XXX学号:XXXXXX指导教师:XXXXX设计时间:XXXXX成绩:评通信与信息工程学院二〇一X年工作完成统计表:教师签名:目录1.绪论11.1项目背景11.2提出问题12.数据仓库与数据集市的概念介绍12.1数据仓库介绍12.2数据集市介绍23.数据仓库33.1数据仓库的设计33.1.1数据仓库的概念模型设计43.1.2数据仓库的逻辑模型设计53.2 数据仓库的建立53.2.1数据仓库数据集成53.2.2建立维表84.OLAP操作105.数据预处理125.1描述性数据汇总125.2数据清理与变换136.数据挖掘操作136.1关联规则挖掘136.2 分类和预测176.3决策树的建立186.4聚类分析227.总结258.任务分配261、绪论1.1项目背景在现在大数据时代,各行各业需要对商品及相关关节的数据进行收集处理,尤其零售行业,于企业对产品的市场需求进行科学合理的分析,从而预测出将来的市场,制定出高效的决策,给企业带来经济收益。
1.2 提出问题对于超市的商品的购买时期和购买数量的如何决定,才可以使销售量最大,不积压商品,不缺货,对不同时期季节和不同人群制定不同方案,使企业收益最大,通过数据挖掘对数据进行决策树分析,关联分析,顺序分析与决策分析等可以制定出最佳方案。
2、数据库仓库与数据集的概念介绍2.1数据仓库数据仓库介绍:数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。
它是单个数据存储,出于分析性报告和决策支持的目的而创建。
为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。
数据仓库是决策系统支持(dss)和联机分析应用数据源的结构化数据环境。
数据仓库研究和解决从数据库中获取信息的问题。
数据仓库的特征在于面向主题、集成性、稳定性和时变性。
数据集介绍:数据集是指一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。
每一列代表一个特定变量。
每一行都对应于某一成员的数据集的问题。
它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。
每个数值被称为数据资料。
对应于行数,该数据集的数据可能包括一个或多个成员。
3、数据仓库3.1 数据仓库的设计3.1.1数据仓库的概念模型设计概念模型的设计是整个概念模型开发过程的三阶段。
设计阶段依据概念模型分析以及分析过程中收集的任何数据,完成星型模型和雪花型模型的设计。
如果仅依赖ERD,那只能对商品、销售、客户主题设计成如图所示的概念模型。
这种模型适合于传统的数据库设计,但不适合于数据仓库的设计。
3.1.2数据仓库的逻辑模型设计逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出各个业务的需求,同时对系统的物理实施有着重要的指导作用,它的作用在于可以通过实体和关系勾勒出企业的数据蓝图,数据仓库的逻辑模型设计任务主要有:分析主题域,确定要装载到数据仓库的主题、确认粒度层次划分、确认数据分割策略、关系模式的定义和记录系统定义、确认数据抽取模型等。
逻辑模型最终设计成果包括每个主题的逻辑定义,并将相关内容记录在数据仓库的元数据中、粒度划分、数据分割策略、表划分和数据来源等。
3.2 数据仓库的建立3.2.1数据仓库数据集一般说来,一个数据集市是按照某一特定部门的决策支持需求而组织起来的、针对一组主题的应用系统。
例如,财务部拥有自己的数据集市,用来进行财务方面的报表和分析,市场推广部、销售部等也拥有各自专用的数据集市,用来为本部门的决策支持提供辅助手段。
数据集市大都采用多维数据库技术,这种技术对数据的分析而言也许是最优的,但肯定不适合于大量数据的存储,因为多维数据库的数据冗余度很高。
为了提高速度,对数据集市中的数据一般都建立大量的索引。
换言之,数据集市中往往靠对数据的预处理来换取运行时的高速度,当业务部门提出新的问题时,如果不在原来设计的X围内,则需要数据库管理员对数据库作许多调整和优化处理。
3.2.2建立维表维是分析问题的角度,度量是要分析的问题。
多维视图:用包含度量和维的表的数据结构可以创建一个多维视图,用试题和维创建的多维模型称为星型模型,星型模型生成的主要表格被称为事实表。
事实表的属性值几乎都有连续值。
事实表是规X化的。
与维表不同不是随时间的推移变化,而是不断变大。
维表:星型模型也具有非常小的表,用来装载描述信息。
维表是逆规X化的。
如果把维表置于第二X式中,这样的表称为雪花模型。
维表包括主键,通常对应事实表的外部键。
如果维表的主键不在实事表中,这个主键字便被称作退化的维。
维表的分类:(1)结构维:表示在层内组成中的信息量度。
如客户地理位置维、时间维、产品维等。
结构维包含一组相关的成员,组成结构维的属性之间有一对多的关系。
加法度量:可以相加的属性值(2)信息维:计算字段如利润额、平均值等(每个商品的利润)。
(3) 分区维:以同一结构生成两个或多个维。
如:按时间分区,预测额度、实际额度等。
(4)分类维:通过对一个维的属性值分组而创建。
如果工资收入500-2000;200-4000;5000-7000;等创建维表:有3种方法:星型模型、雪花模型和星暴模型。
星暴模型含有两X以上的事实表。
基本有些充当维事实表。
星型模型:所有信息维都放在同一个维表中。
维表信息包含一个唯一的标识符(ID)和通过这个维表建立的所有维所需的属性。
星型模型由小的维表与大的事实表组成,多称为“小表和大表”。
事实表一般是标准表。
雪花模型:把信息分为3种标准格式。
产品表、类别表、子类别表。
把这些信息放到一起需要一定数据的连接。
雪花模型比星型模型效率低,占空间少。
所有的事实表都有一个与之相关的时间维表。
4.OLAP操作联机分析处理(OLAP)系统是数据仓库系统最主要的应用,专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。
OLAP展现在用户面前的是一幅幅多维视图。
维(Dimension):是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。
维的层次(Level):人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。
维的成员(Member):维的一个取值,是数据项在某维中位置的描述。
(“某年某月某日”是在时间维上位置的描述)。
度量(Measure):多维数组的取值。
OLAP的基本多维分析操作有钻取(Drill-up和Drill-down)、切片(Slice)和切块(Dice)、以及旋转(Pivot)等。
钻取:是改变维的层次,变换分析的粒度。
它包括向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)。
Drill-up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而Drill-down则相反,它从汇总数据深入到细节数据进行观察或增加新维。
切片和切块:是在一部分维上选定值后,关心度量数据在剩余维上的分布。
如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。
旋转:是变换维的方向,即在表格中重新安排维的放置(例如行列互换)5.数据预处理5.1描述性数据汇总对于许多数据预处理任务,希望知道关于数据的中心趋势和离中趋势特征。
中心趋势度量包括均值(mean)、中位数(median)、众数(mode)和中列数(midrange),而数据离中趋势度量包括四分位数(quartiles)、四分位数极差(interquartile range, IQR)和方差(variance)。
这些描述性统计量有助于理解数据的分布。
5.2数据清理与变换数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。
主要是达到如下目标:格式标准化,异常数据清除,错误纠正,重复数据的清除。
通过平滑聚集,数据概化,规X化等方式将数据转换成适用于数据挖掘的形式。
6.数据挖掘操作个人的两个作业:6.1关联规则挖掘1)需求分析关联规则挖掘是数据挖掘和知识发现中的一个重要问题,自提出以来得到了广泛的研究.目前关联规则挖掘算法可以分为广度优先算法和深度优先算法两大类,每类都有经典高效的算法提出.但是,这些算法大都是从其自身的角度来描述的,缺乏系统的分类和比较.文章从关联规则挖掘的形式化定义出发,给出频集挖掘的解空间,对两大类算法中的几种经典算法进行了概述,并分析了它们的优缺点. 2)概要设计关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。
关联规则挖掘的第一阶段必须从chaoshi集合中,找出所有高频项目组。
高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。
一项目组出现的频率称为支持度,以一个包含A与B两个项目的2-itemset为例,我们可以经由公式求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则{A,B}称为高频项目组。
一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般表示为Large k或Frequent k。
算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。
3)详细设计在准备用于关联规则模型的数据时,应理解特定算法的要求,其中包括所需要的数据量以及使用数据的方式。
关联规则模型的要求如下:•单个key列每个模型都必须包含一个数值或文本列,用于唯一标识每个记录。
不允许复合键。
•单个可预测列一个关联模型只能有一个可预测列。
通常它是嵌套表的键列,例如列出已购买的产品的字段。
这些值必须是离散或离散化值。
•输入列输入列必须为离散列。
关联模型的输入数据通常包含在两个表中。
例如,一个表可能包含客户信息,而另一个表可能包含客户购物情况。
您可以使用嵌套表将该数据输入到模型中。
有关嵌套表的详细信息,请参阅嵌套表(Analysis Services –数据挖掘)。
支持”(有时候将其称为“频率”)表示包含目标项目或项目组合的事例的数目。
只有至少具有指定支持量的项目才可包含在模型中。
“常用项集”指满足以下条件的项目集合:该项目集合所具有的支持超过由MINIMUM_SUPPORT 参数定义的阈值。