当前位置：文档之家› 第六章数据挖掘复习阶段

第六章数据挖掘复习阶段

神经网络的最主要任务是学习现实世界中内嵌神经网络的模型，并保持模型同真实世界的高度一致性，以便能够实现相关应用程序的特定目标。学习过程是基于真实世界的数据样本进行的，这是设计神经网络通信息分类处理系统的最根本的不同。
29
2.6 神经网络的多层感知机
多层感知机有3个显著的特征：神经网络中的每个神经元模型通常包含一个非线性的函数，曲线或者双曲线函数。神经网络包含神经元的一个或多个隐层，不是神经网络的输入或者输出的一部分。这些隐藏节点使得神经网络从输入模式中不断获取有意义的特性来学会复杂和高度非线性的高度。神经网络中的层与层之间高度的连接性。
统计学方法必须有前提假设。而数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知、有效和可实用三个特征。
13
11.原始数据的表述
数据样本是数据挖掘过程的基本组成部分。
每个样本都用几个特征来描述，每个特征有不同类型的值。
2013-11-19
14
常见的数据类型有：数值型和分类型。数值型包括实型变量和整型变量注：具有数值型值的特征有两个重要的属性：其值有顺序关系和距离关系。
5
6.关联规则的分类
1.基于规则中处理的变量的类别，关联规则可以分为布尔型和数值型。
2.基于规则中数据的抽象层次，可以分为单层关联规则和多层关联规则。
3.基于规则中涉及到的数据的维数，关联规则可以分为单维的和多维的。
6
布尔型关联规则处理的值都是离散的、种类化的，它显示了这些变量之间的关系；而数值型关联规则可以和多维关联或多层关联规则结合起来，对数值型字段进行处理，将其进行动态的分割，或者直接对原始的数据进行处理，当然数值型关联规则中也可以包含种类变量。例如：性别 =“女”=>职业=“秘书”，是布尔型关联规则；性别 =“女”=>avg（收入）=2300，涉及的收入是数值类型，所以是一个数值型关联规则。
2013-11-19
12
10.统计学与数据挖掘的关系
统计学和数据挖掘有着共同的目标。
– 统计学和数据挖掘有着共同的目标：发现数据中的结构或模式。
统计学在数据挖掘中起着重要的作用。
– 传统的统计学方法是数据挖掘的经典方法，统计学思想在整个数据挖掘过程都有重要的体现，担负着不可忽视的重任。
数据挖掘技术与统计学集成是必然趋势。统计学是数据挖掘的核心。
30
2.7 竞争网络和竞争学习
竞争神经网络属于一种循环网络，它们是以无指导学习算法为基础的。为了构建竞争学习规则的网络，此类人工神经网络的标准技术有3个基本元素是必需的：
具有相同结构，且与初始随机选择的权重连接的一组神经。因此，神经可以不同地响应一组被给定的输入样本。
决定每根神经强度的极限值。允许神经争取响应一组给定的输入子集权利的机制，这样每次只有一个输出神经被激活，赢得竞争的神经被称为胜者全获神经。
7
在单层的关联规则中，所有的变量都没有考虑到现实的数据是具有多个不同的层次的；而在多层数据挖掘的关联规则中，对数据的多层性已经进行了充分的考虑。例如：IBM台式机=>Sony打印机，是一个细节数据上的单层关联规则；台式机=>Sony打印机，是一个较高层次和细节层次之间的多层关联规则。
24
2.2 使用神经网络可以提供几种有用的属性和能力：非线性——作为基本单元的神经网络可以使线性的或者非线性的处理元素，但是整个神经网络是高度非线性的。从样本进行学习的能力——神经网络通过对样本数据进行一系列的训练和学习，可以改变它的联接权重。自适应——神经网络有内臵的随外部环境改变联接权重的能力。特别是在某个特定的环境下训练好的神经网络在外部环境改变的时候稍加训练就可以适应新的环境。响应验证——在对数据进行分类的环境中，神经网络可以设计成不仅仅从给定的样本中提供有关分类的信息，还可以提供分类的臵信度。
2013-11-19 10
8.聚类
聚类是在要划分的类未知的情况下，将数据库中的记录划分为多个类或簇，使得同类内的对象之间具有较高的相似度，不同类间的差异较大。它是概念描述和偏差分析的先决条件。数据挖掘中的聚类方法有划分方法、层次的方法、基于密度的方法、基于网格的方法以及基于模型的方法等。
19
二、数据挖掘技术和功能
1.决策树和决策规则：
决策树是用二叉树形图来表示处理逻辑的一种工具，是对数据进行分类的方法。决策树的目标是针对类别因变量加以预测或解释反应结果。决策树和决策规则是解决实际应用中分类问题的数据挖掘方法。一个典型的决策树学习系统采用的是自顶向下的方法，在部分搜索空间中搜索解决方案。它可以确保求出一个简单的决策树，但未必是最简单的。决策树包括属性已被检验的节点，一个节点的输出分枝和该节点的所有可能的检验结果相对应。
17
13.数据质量
数据质量的指标：数据应当准确；应该根据数据类型存储数据；数据要有完整性；数据要有一致性；数据不要冗余；数据应当及时；
数据应当很好地被理解；
数据集应当是完整的。
18
14.数据仓库
数据仓库是一个集成的，面向主题的、设计用于决策支持功能的数据库的集合，数据中的每一个数据单元在时间上都是和某个时刻相关的。数据集市是指一个组织可能有几个局部或部门的数据仓库，有大有小，其规模主要依赖于其主题的范围。
31
3.遗传算法（Genetic Algorithm）
3.1遗传算法的基本原理
遗传算法是一类借鉴生物界的进化规律（适者生存，优胜劣汰遗传机制）演化而来的随机化搜索方法，是近几年发展起来的一种崭新的全局优化算法，它借用了生物遗传学的观点，通过自然选择、遗传、变异等作用机制，实现各个个体的适应性的提高。这一点体现了自然界中"物竞天择、适者生存"进化过程。
25
容错性——神经网络有固有的潜在容错能力，或者说是计算的健壮性。它的执行效率在某些不利情形下并不会显著地降低，比如说神经元的断开、干扰或者数据的丢失。
统一的分析和设计：基本上，人工神经网络和信息处理器一样具有良好的通用性。在所有有关人工神经网络的应用领域，使用了相同的原理、符号以及方法上使用了相同的步骤。
物流实务与管理
华连连
1
知识发现(KDD)过程 2.数据挖掘是知识发现的核
心步骤
Pattern Evaluation
Data Mining Task-relevant Data Data Warehouse Data Cleaning Data Integration
2013-11-19 Databases 2
8
在单维的关联规则中，我们只涉及到数据的一个维，如用户购买的物品；而在多维的关联规则中，要处理的数据将会涉及多个维。换成另一句话，单维关联规则是处理单个属性中的一些关系；多维关联规则是处理各个属性之间的某些关系。例如：啤酒=>尿布，这条规则只涉及到用户的购买的物品；性别=“女”=>职业=“秘书”，这条规则就涉及到两个字段的信息，是两个维上的一条关联规则。
2013-11-19 16
12.数据挖掘的步骤
数据挖掘是通过分析每个数据，从大量数据中寻找其规律的技术，主要有数据准备、规律寻找和规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集；
规律寻找是用某种方法将数据集所含的规律找出来；
规律表示是尽可能以用户可理解的方式（如可视化）将找出的规律表示出来。
9
7.分类和预测
分类是对一个类别进行描述及概括相关特征，并提取出描述重要数据类的模型。数据挖掘中的分类方法很多，主要有决策树和决策规则、贝叶斯信念网络、神经网络以及遗传算法等。预测是通过建立连续值函数模型达到预测未来的数据趋势。预测的方法主要有回归分析、时间序列分析等。各种分类模型也可以预测，但主要是预测分类标号。
26
2.3人工神经元的模型
一个人工神经元就是一个信息处理单元，它是一个神经网络运转的基础。神经元由3个基本元素组成：一组连接线、加法器、激活函数f，限制神经元输出值y的幅度。
27
2.ห้องสมุดไป่ตู้人工神经网络结构
人工神经网络的结构是通过节点的特性以及网络中节点连接的特性来定义的。网络结构可以用网络的输入数目、输出数目、基本节点的总数以及节点间的组织和连接方式来表示。按照连接的类型，神经网络通常分为两类：前向型和回馈型。
前向型：处理过程的传播方向是从输入端传向输出端且没有任何的回环或反馈。在一个分层的前向型神经网络中，同一层上的节点之间是没有相互连接的，在某一特定的层上节点的输出总是作为下一层节点的输入。
反馈型：有反馈连接组成网络中的封闭回路（通常有一个延迟单元作为同步组件。）
28
2.5 神经网络学习过程
Selection
3. 数据库类型：关系数据库是表的集合，每个表都赋予一个唯一的名字。事务数据库由一个文件组成，其中每个记录代表一个事务。数据仓库是从多个数据源收集的信息存储，存放在一个一致的模式下，并通过数据清理、变换、集成等来构造。
3
4.数据挖掘的功能
关联分析：分类和预测聚类
23
2.1神经网络的定义
神经网络是一个由很多节点通过方向性链接组成的一个网络结构。每一个节点代表一个处理单元，并且节点之间的连接表明了所连接的节点之间的因果关系。所有的节点都是自适应的，这就意味着这些节点的输出同这些节点的可修改的参数值有关。定义：人工神经网络是由大量并行分布式处理单元组成的简单处理单元。它有通过调整连接强度而从经验知识进行学习的能力，并可以将这些知识进行运用。
数据挖掘与决策系统

e商务文档

第六章数据挖掘复习阶段

相关文档推荐：

e商务文档

第六章 数据挖掘复习阶段

相关文档推荐：

第六章数据挖掘复习阶段