当前位置:文档之家› 第六章 数据挖掘复习阶段

第六章 数据挖掘复习阶段

神经网络的最主要任务是学习现实世界中内嵌神 经网络的模型,并保持模型同真实世界的高度一 致性,以便能够实现相关应用程序的特定目标。 学习过程是基于真实世界的数据样本进行的,这 是设计神经网络通信息分类处理系统的最根本的 不同。
29
2.6 神经网络的多层感知机
多层感知机有3个显著的特征: 神经网络中的每个神经元模型通常包含一个非线 性的函数,曲线或者双曲线函数。 神经网络包含神经元的一个或多个隐层,不是神 经网络的输入或者输出的一部分。这些隐藏节点 使得神经网络从输入模式中不断获取有意义 的特 性来学会复杂和高度非线性的高度。 神经网络中的层与层之间高度的连接性。
统计学方法必须有前提假设。而数据挖掘是在没有明确假 设的前提下去挖掘信息、发现知识。数据挖掘所得到的信 息应具有先未知、有效和可实用三个特征。
13
11.原始数据的表述
数据样本是数据挖掘过程的基本组成部分。
每个样本都用几个特征来描述,每个特征有 不同类型的值。
2013-11-19
14
常见的数据类型有:数值型和分类型。 数值型包括实型变量和整型变量 注:具有数值型值的特征有两个重要的属 性:其值有顺序关系和距离关系。
5
6.关联规则的分类
1.基于规则中处理的变量的类别,关联规则可以 分为布尔型和数值型。
2.基于规则中数据的抽象层次,可以分为单层关 联规则和多层关联规则。
3.基于规则中涉及到的数据的维数,关联规则可 以分为单维的和多维的。
6
布尔型关联规则处理的值都是离散的、种类化的,它显示 了这些变量之间的关系;而数值型关联规则可以和多维关 联或多层关联规则结合起来,对数值型字段进行处理,将 其进行动态的分割,或者直接对原始的数据进行处理,当 然数值型关联规则中也可以包含种类变量。例如:性别 =“女”=>职业=“秘书”,是布尔型关联规则;性别 =“女”=>avg(收入)=2300,涉及的收入是数值类型, 所以是一个数值型关联规则。
2013-11-19
12
10.统计学与数据挖掘的关系
统计学和数据挖掘有着共同的目标。
– 统计学和数据挖掘有着共同的目标:发现数据中的结 构或模式。
统计学在数据挖掘中起着重要的作用。
– 传统的统计学方法是数据挖掘的经典方法,统计学思 想在整个数据挖掘过程都有重要的体现,担负着不可 忽视的重任。
数据挖掘技术与统计学集成是必然趋势。统计学 是数据挖掘的核心。
30
2.7 竞争网络和竞争学习
竞争神经网络属于一种循环网络,它们是以无指导学习算法 为基础的。为了构建竞争学习规则的网络,此类人工神经 网络的标准技术有3个基本元素是必需的:
具有相同结构,且与初始随机选择的权重连接的一组神经 。因此,神经可以不同地响应一组被给定的输入样本。
决定每根神经强度的极限值。 允许神经争取响应一组给定的输入子集权利的机制,这样 每次只有一个输出神经被激活,赢得竞争的神经被称为胜 者全获神经。
7
在单层的关联规则中,所有的变量都没有考虑到 现实的数据是具有多个不同的层次的;而在多层 数据挖掘的关联规则中,对数据的多层性已经进 行了充分的考虑。 例如:IBM台式机=>Sony打印机,是一个细节数 据上的单层关联规则;台式机=>Sony打印机,是 一个较高层次和细节层次之间的多层关联规则。
24
2.2 使用神经网络可以提供几种有用的属性和能力: 非线性——作为基本单元的神经网络可以使线性的或者非 线性的处理元素,但是整个神经网络是高度非线性的。 从样本进行学习的能力——神经网络通过对样本数据进行 一系列的训练和学习,可以改变它的联接权重。 自适应——神经网络有内臵的随外部环境改变联接权重的 能力。特别是在某个特定的环境下训练好的神经网络在外 部环境改变的时候稍加训练就可以适应新的环境。 响应验证——在对数据进行分类的环境中,神经网络可以 设计成不仅仅从给定的样本中提供有关分类的信息,还可 以提供分类的臵信度。
2013-11-19 10
8.聚类
聚类是在要划分的类未知的情况下,将数据库中 的记录划分为多个类或簇,使得同类内的对象之 间具有较高的相似度,不同类间的差异较大。它 是概念描述和偏差分析的先决条件。 数据挖掘中的聚类方法有划分方法、层次的方法、 基于密度的方法、基于网格的方法以及基于模型 的方法等。
19
二、数据挖掘技术和功能
1.决策树和决策规则:
决策树是用二叉树形图来表示处理逻辑的一种工具,是对 数据进行分类的方法。决策树的目标是针对类别因变量加 以预测或解释反应结果。 决策树和决策规则是解决实际应用中分类问题的数据挖掘 方法。 一个典型的决策树学习系统采用的是自顶向下的方法,在 部分搜索空间中搜索解决方案。它可以确保求出一个简单 的决策树,但未必是最简单的。决策树包括属性已被检验 的节点,一个节点的输出分枝和该节点的所有可能的检验 结果相对应。
17
13.数据质量
数据质量的指标: 数据应当准确; 应该根据数据类型存储数据; 数据要有完整性; 数据要有一致性; 数据不要冗余; 数据应当及时;
数据应当很好地被理解;
数据集应当是完整的。
18
14.数据仓库
数据仓库是一个集成的,面向主题的、设计用于 决策支持功能的数据库的集合,数据中的每一个 数据单元在时间上都是和某个时刻相关的。 数据集市是指一个组织可能有几个局部或部门的 数据仓库,有大有小,其规模主要依赖于其主题 的范围。
31
3.遗传算法(Genetic Algorithm)
3.1遗传算法的基本原理
遗传算法是一类借鉴生物界的进化规律(适者生存, 优胜劣汰遗传机制)演化而来的随机化搜索方法,是近几 年发展起来的一种崭新的全局优化算法,它借 用了生物遗 传学的观点,通过自然选择、遗传、变异等作用机制,实 现各个个体的适应性的提高。这一点体现了自然界中"物 竞天择、适者生存"进化过程。
25
容错性——神经网络有固有的潜在容错能力,或者说是计 算的健壮性。它的执行效率在某些不利情形下并不会显著 地降低,比如说神经元的断开、干扰或者数据的丢失。
统一的分析和设计:基本上,人工神经网络和信息处理器 一样具有良好的通用性。在所有有关人工神经网络的应用 领域,使用了相同的原理、符号以及方法上使用了相同的 步骤。
物流实务与管理
华连连
1
知识发现(KDD)过程 2.数据挖掘是知识发现的核
心步骤
Pattern Evaluation
Data Mining Task-relevant Data Data Warehouse Data Cleaning Data Integration
2013-11-19 Databases 2
8
在单维的关联规则中,我们只涉及到数据的一个 维,如用户购买的物品;而在多维的关联规则中 ,要处理的数据将会涉及多个维。换成另一句话 ,单维关联规则是处理单个属性中的一些关系; 多维关联规则是处理各个属性之间的某些关系。 例如:啤酒=>尿布,这条规则只涉及到用户的购 买的物品;性别=“女”=>职业=“秘书”,这条 规则就涉及到两个字段的信息,是两个维上的一 条关联规则。
2013-11-19 16
12.数据挖掘的步骤
数据挖掘是通过分析每个数据,从大量数据中寻 找其规律的技术,主要有数据准备、规律寻找和 规律表示3个步骤。 数据准备是从相关的数据源中选取所需的数据并 整合成用于数据挖掘的数据集;
规律寻找是用某种方法将数据集所含的规律找出 来;
规律表示是尽可能以用户可理解的方式(如可视 化)将找出的规律表示出来。
9
7.分类和预测
分类是对一个类别进行描述及概括相关特征,并 提取出描述重要数据类的模型。 数据挖掘中的分类方法很多,主要有决策树和决 策规则、贝叶斯信念网络、神经网络以及遗传算 法等。 预测是通过建立连续值函数模型达到预测未来的 数据趋势。预测的方法主要有回归分析、时间序 列分析等。各种分类模型也可以预测,但主要是 预测分类标号。
26
2.3人工神经元的模型
一个人工神经元就是一个信息处理单元,它是一 个神经网络运转的基础。神经元由3个基本元素组 成:一组连接线、加法器、激活函数f,限制神经 元输出值y的幅度。
27
2.ห้องสมุดไป่ตู้人工神经网络结构
人工神经网络的结构是通过节点的特性以及网络中节点连 接的特性来定义的。网络结构可以用网络的输入数目、输 出数目、基本节点的总数以及节点间的组织和连接方式来 表示。 按照连接的类型,神经网络通常分为两类:前向型和回馈 型。
前向型:处理过程的传播方向是从输入端传向输出端且没 有任何的回环或反馈。在一个分层的前向型神经网络中, 同一层上的节点之间是没有相互连接的,在某一特定的层 上节点的输出总是作为下一层节点的输入。
反馈型:有反馈连接组成网络中的封闭回路(通常有一个 延迟单元作为同步组件。)
28
2.5 神经网络学习过程
Selection
3. 数据库类型: 关系数据库是表的集合,每个表都赋予一个 唯一的名字。 事务数据库由一个文件组成,其中每个记录 代表一个事务。 数据仓库是从多个数据源收集的信息存储,存 放在一个一致的模式下,并通过数据清理、变换 、集成等来构造。
3
4.数据挖掘的功能
关联分析: 分类和预测 聚类
23
2.1神经网络的定义
神经网络是一个由很多节点通过方向性链接组成的一个网 络结构。每一个节点代表一个处理单元,并且节点之间的 连接表明了所连接的节点之间的因果关系。所有的节点都 是自适应的,这就意味着这些节点的输出同这些节点的可 修改的参数值有关。 定义:人工神经网络是由大量并行分布式处理单元组成的 简单处理单元。它有通过调整连接强度而从经验知识进行 学习的能力,并可以将这些知识进行运用。
数据挖掘与决策系统
相关主题