数据挖掘决策树上机内容.
因子分析
• 因子分析:是设法将原来众多具有一定 相关性( 比如P 个指标) , 重新组合成一组 新的互相无关的综合指标来代替原来的 指标。通常数学上的处理就是将原来P 个指标作线性组合, 作为新的综合指标。
读取文本数据与查看数据
读取文本数据与查看数据
实例
关联分析
• 例1 对商场中的数据进行分析 数据集有:18个属性,1000个记录; Cardid--age描述的是客户的基本信息; 后面是客户购买商品的数据;
首先,要明白我们是对什么样的数据进行分析的? 在这里我们是对顾客购买信息做关联分析,一种 商品和另外一种商品之间是否有一定的关联性
Clementine可以读取的数据格式
• 文本格式数据 ������ • SPSS/SAS数据 ������ • Excel,Access,dBase,Foxpro,Oracle, SQL Server,DB2等数据库 • 用户输入数据
Clementine数据分析步骤
读取数据 数据整理 字段和记录 数据理解 建模 模型评估 结果发布
• Clementine的结果非常直观,它并不是告 诉你谁跟谁之间的关联度有多大;它是站 在商业的角度告诉你,哪些物品应该放在 一起,哪些物品同时出现的几率大,
• 接入web图 • 用科学的方式来改变销售策略
决策树
• 例1 对商场中的数据进行分析 数据集有:18个属性,1000个记录; Cardid--age描述的是客户的基本信息; 后面是客户购买商品的数据;
• 针对数据BASKETS1n建立一棵决策树; • 目标:那些顾客是健康食品购买者 分析的目标群已从商品信息转到客户基本信息;
• • • • • •
什么是健康食品购买着? 找出健康食品购买者, 健康食品购买者=fruitveg+fish True:购买 F:没购erive:增加一个或多个属性集;
• • • • • •
1.7 通过双击来增加和连接节点 1.8 手工连接节点 1.9 在数据列中绕过节点 2.0 绕开一个节点 2.1 在当前的连接中增加节点 2.2 删除节点间的连接
2 读取数据文件
• 目的 ������ 掌握Clementine如何读取文本格式数据 了解Clementine可以读取的数据格式 ������ 掌握Clementine中的字段类型和方 向
Clementine 面板
•
Clementine 可视化程序使用基础
• • • • • • 鼠标应用 ������ 三键与双键鼠标 ������ 左键 选择节点或图标置于流区域 ������ 右键 激活Context菜单 ������ 中键 连接或断开两个节点 ������ 帮助
节点操作
• 1.3 节点选项板 在clementine系统窗口底部的选项板 (palette)中装有用来建立数据流的所有可能的 节点。 1、收藏夹(Favorites):用于存放最常用的节点 2、数据源(sources):用来将数据读clementine 系统的节点
• 练习1 • 读入数据文件BASKETS1n • 针对某商场的购物资料对数据进行分析。使用关 联分析方法找出商品在出售时是否存在某种联系; • 为了得到购买某种商品的顾客特征,采用决策树 方法对顾客分类。 • 练习2 • Newschan数据文件进行决策树分析
因子分析
• 也称主分量分析 • 由霍特林(Hotelling)于1933年首先提出; • 利用降维思想,在损失很少信息的前提下 把多个指标转化为几个综合指标的多元统 计方法; • 每个主成分都是原始变量的线性组合; • 各个主成分之间是互不相关的;
3、记录选项(record ops):用来在数据记录上 进行操作的节点,例如选择、合并和增加。 4、字段选项(Field ops):用来在数据字段上进 行操作的节点,例如过滤、导出新字段和确 定给出字段的数据类型。 5、图(Graphs):在建模之前和之后用来可视化 数据的节点。图包括点图、直方图、web节 点和评估图表。
读取数据文件
• • • • • • • • 内容及节点: ������ 2.1 Clementine可以读取的数据格式 ������ 2.2 读取文本数据与查看数据 ������ 2.3 读取SPSS数据 ������ 2.4 读取数据库数据 ������ 2.5 Clementine中的字段类型 ������ 2.6 Clementine中的字段方向 ������ 2.7 保存Clementine流
• 1.4 向数据流中增加数据流节点 从节点选项板中向数据流增加节点有三种 方式: 1、在选项板上双击一个节点 2、将一个节点从选项板上拖放到数据流区 域中 3、在选项板上点击一个节点,双击这个节 点来显示它的对话框。
• 1.5 删除节点 单击鼠标右键从菜单中选择删除 1.6 在数据流中连接节点 数据流区域的节点只有被连接在一起才能形 成一个数据流。节点之间的连接表明数据的 流向,就如数据从一个操作流向另一个。通 过双击鼠标左键操作
构建数据流
构建数据流
• 1.1 概述 使用clementine系统进行数据挖掘时, 应着重关注通过一系列节点来执行数据 的过程,这个过程被称作一个数据流 (stream).这一系列的节点代表了将对数 据进行的操作,而这些节点之间的联系 表明了数据流(stream)的方向。
• 1.2 建立数据流 Clementine系统独特的接口让用户可 以通过数据流的图表以可视化方式 挖掘数据。最基本的,用户可以使 用下列步骤建立一个数据流: ●向数据流区域中增加节点 ●连接节点形成一个数据流 ●指明任一节点或数据流的选项 ●执行这个数据流
6、建模(Modeling):在clementine系统中可 用的代表有效建模算法的节点,例如神经 网络、决策树、聚类算法和数据排序。 7、输出(output):用来给出clementine数据 的各种输出、图表和模型结果。 8、导出(export):以其他格式保存数据
在节点选项板(palette)上的Favorites 项目能够存入用户对clementine系统的习 惯用法。