当前位置:文档之家› 人工智能的文本分类方法简述

人工智能的文本分类方法简述

人工智能的文本分类方法简述摘要:本文阐述了一些基本的文本分类的方法,以及一些改进的文本文类的方法,并包含了一些文本分类的实际应用。

其中着重阐述了贝叶斯分类以及一些其他的的文本分类方法。

最后提出了现在文本分类方法中存在的一些问题。

关键词:文本分类;贝叶斯方法;数据挖掘;分类算法。

0 引言文本分类是指在给定分类体系下, 根据文本内容(自动) 确定文本类别的过程。

20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法, 即由专业人员手工进行分类。

目前在国内也已经开始对中文文本分类方法进行研究, 相比于英文文本分类, 中文文本分类的一个重要的差别在于预处理阶段: 中文文本的读取需要分词, 不像英文文本的单词那样有空格来区分。

从简单的查词典的方法, 到后来的基于统计语言模型的分词方法, 中文分词的技术已趋于成熟。

并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。

人工智能的基本方法就是对人类智能活动的仿真。

小样本数据可以看作是一种先验知识不完全的数据集。

人类在处理类似的决策问题时,通常采用的策略为: 1,利用多专家决策来提高决策的可信度; 2,专家的决策技能在决策的过程中可以得到不断的增强,即专家具有学习功能; 3,在专家的技能得到增强的基础上,再进行决策可以提高决策的正确性。

这种方法同样适用于小样本数据的分类识别。

通过对上述方法的仿真,本文提出了智能分类器,它不仅可以对未知样本进行分类,同时它还具有多专家决策、预分类和学习功能。

1 分类的基本概念分类就是根据数据集的特点找出类别的概念描述, 这个概念描述代表了这类数据的整体信息,也就是该类的内涵描述,并使用这种类的描述对未来的测试数据进行分类。

分类的过程一般分为两个步骤:第一步, 通过已知数据集建立概念描述模型; 第二步, 就是利用所获得的模型进行分类操作。

对各种分类方法的评估可以根据以下几条标准进行: 1)预测准确率,指模型能够正确预测未知数据类别的能力; 2)速度,指构造和使用模型时的计算效率; 3) 鲁棒性,指在数据带有噪声或有数据遗失的情况下,模型仍能进行正确预测的能力; 4) 可扩展性, 指对处理大量数据并构造相应有效模型的能力; 5) 易理解性, 指所获模型提供的可理解程度。

2 常用的分类算法2.1基于决策树的分类所谓决策树就是一个类似流程图的树型结构,其中树的每个节点对应一个非类别属性,每条边对应这个属性的每种可能值,而树的每个叶结点代表一个类别( 如图1)。

生成决策树的一个著名的算法是Quinlan 提出的ID3算法, ID3 算法从树的根节点处的所有训练样本开始, 选取一个属性来区分这些样本, 属性的每一个值产生一个分支。

将分支属性值的相应样本子集移到新生成的子节点上。

这个算法递归地应用于每个子节点, 直到一个节点上的所有样本都分区到某个类中。

属性选择采用信息增益的方法来确定。

选择具有最高信息增益( 熵减少的程度最大) 的属性作为当前结点的测试属性, 这样保证所产生的决策树最为简单,工作量最小。

设S 为一个包含了S 个数据样本的集合,且类别属性可以取m 个不同的值{ C 1, C 2……, Cm }。

假设Si 为类别Ci 中的样本个数; 则对一个给定数据对象进行分类所需要的信息量为:其中p i= s i/ s。

设一个属性A 取v 个不同的值{ a1 , a2……, av} , 利用属性A 将S 划分为v 个子集{ S 1, S 2 ……, Sv } , 设S i j 为子集Sj中属于Ci 类别的样本数。

那么利用属性A 划分当前样本集合所需要的信息(熵)可以按如下公式计算:这样利用属性A 对当前分支结点进行相应样本集合划分所获得的信息增益就是:通过以上公式计算每个属性的信息增益。

选择具有最高信息增益的属性作为给定集合S 的测试属性, 创建一个节点,并以该属性标记, 对属性的每个值创建分支,进行样本划分。

ID3 算法在选择属性时利用了信息增益的概念,算法的基础理论清晰;决策树的每个分支都对应一个分类规则, 因此产生的分类规则易于理解;同时, 分类速度较快,准确率较高。

但是ID3 算法也存在着许多不足: 1) 不能够处理连续值属性; 2) 计算信息增益时偏向于选择取值较多的属性; 3)对噪声较为敏感; 4) 在构造树的过程中, 需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效; 5) 只适合于能够驻留于内存的数据集使用,当训练集大得无法在内存容纳时程序无法运行。

ID3 的改进算法有C4. 5, C4. 5 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择属性值多的属性的不足。

此外,在树构造过程中或构造完成后进行剪枝, 提高了抗噪声能力;能够对连续值属性进行离散化处理; 能够对不完整数据进行处理。

常用的决策树算法还有SLIQ 算法。

SLIQ 算法对C4. 5分类算法的实现方法进行了改进,在决策树的构造过程中采用了预排序与广度优先增长策略,使得该算法能够处理更大的训练集,因此在一定程度上具有良好的随记录个数和属性个数增长的可扩展性。

但是它仍然存在着一些不足; 1) 由于需要将类别列表存放于内存,在一定程度上限制了可以处理的数据集的大小; 2) 由于采用了预排序技术, 而排序算法的复杂度本身并不是与记录个数成线性关系, 因此使得SLIQ 算法不可能达到随记数目增长的线性可扩展性。

2.2 贝叶斯分类贝叶斯分类是统计学分类在方法,它可以预测一个给定样本属于某一类别的概率。

贝叶斯分类是基于贝叶斯定理而构造出来的。

基本贝叶斯分类( Naive Bayes) 首先假设一个属性值对给定类的影响独立于其它属性的值, 即类条件独立, 它可以帮助有效减少在构造贝叶斯分类器时所需要的计算量。

基本贝叶斯分类的工作过程如下:给定一个没有类标号的数据样本X ,用X = { x 1, x 2 ……,x n}表示,分别描述X 在n 个属性{ A 1 , A 2 ……, An }上的属性值。

设有m 个类{ C1 , C2 ……, Cm} ,那么, 将样本X 分配给类Ci 的条件就是:根据贝叶斯定理:其中, P ( X )对于所有类来说为常数, P ( Ci) = si/ s。

假定各属性值相互条件独立(类条件独立) , 这样P ( X | Ci )的计算可使用公式:概率P( x k | Ci)可以由训练样本估算: 1) 如果Ak 是分类属性, 则P ( x k | Ci) = s ik / si。

2) 如果Ak 是连续值属性,则通常假定该属性服从高斯分布, 用高斯密度的数计算。

因而, 对未知样本X 分类,样本X 被分类到类Ci,而且仅当基本贝叶斯分类假定类条件独立, 简化了计算。

当假定成立时, 与其它分类算法相比,基本贝叶斯分类是最精确的。

但实际上变量间的相互依赖情况是较为常见的。

为解决这个问题, 可使用贝叶斯信念网络描述这种相互关联的概率分布。

该网络能够描述各属性子集之间有条件的相互独立, 它提供了一个图形模型来描述其中的因果关系。

贝叶斯分类在处理大规模数据库时, 表现出了较高的分类准确性和运算性能。

它还可为其它分类算法提供理论判定。

但是, 该算法没有直接的分类规则输出。

2.3 神经网络神经网络就是一组相互连接的输入输出单元( 又称神经元) , 单元之间的每个连接都与一个权重相关联。

在网络学习阶段, 网络通过调整权重来实现输入样本与其相应类别的对应。

神经网络训练完毕后, 只要把数据输入到已训练好的神经网络输入端, 就可以从输出端直接得到分类结果。

神经网络分类过程可以分为训练和分类两个阶段。

在训练阶段,首先定义网络的拓扑结构, 再对训练样本中的每个属性的值进行规范化预处理, 然后用神经网络对已预处理的输入进行学习。

训练完毕后, 用训练好的神经网络对标识样本进行分类。

目前的神经网络模型很多, 而反向传播模型( BP模型)是使用最多的典型神经网络。

反向传播算法在多层前馈神经网络上学习, 如图2。

其中的输入对应每个训练样本的各个属性取值; 输入赋给输入层单元,这些单元的输出结合相应的权重馈给第二层( 隐藏层) 单元;隐藏层的带权输出又作为输入再馈给另一隐层等等,最后的隐层结点带权输出馈给输出层单元, 输出层单元最终给出相应样本的预测输出。

反向传播通过迭代的处理一组训练样本, 将每个样本的网络预测与实际知道的类标号进行比较、学习,通过修改权,使网络预测与实际类之间的均方误差最小。

这种修改是向后进行的, 即由输出层, 经过每个隐藏层,到第一个隐藏层。

当权最终收敛时, 学习过程停止。

神经网络法的优点是有较强的抗噪能力,对未经训练的数据也具有较好的预测分类能力。

神经网络的主要缺点是它的知识表示问题,也就是说用加权链连结单元的网络所表示的知识很难被人理解。

此外, 神经网络法的学习时间较长,仅适用于时间容许的应用场合; 对于如网络结构等关键参数,通常需要经验方能有效确定。

3 智能文本处理策略由于文本本身的复杂性、不规律性的特征,文本自动分类系统是一个涉及多方面综合的系统,想获得良好的文本分类效果,不仅仅是单纯的分类处理算法的问题,必须运用多种手段加以解决,特别是文档分类系统作为一个有指导的学习系统,与其它控制系统具有类似的特性,可以借鉴其它的智能控制技术加以解决。

为此,根据文本自动分类处理的特点,我们给出一种文本分类系统的多策略智能解决方案,从影响分类处理的几个主要环节入手,来优化处理分类系统的流程,从而从效果上大大提高分类处理效果,为文本分类处理提供综合的解决方法。

处理上主要从以下几方面对分类系统进行了改善·训练文档的优化从整个系统的入口环节入手,对系统进行学习的样本进行控制,提高学习样本的质量,从而为分类模型的建立提供较好的保证。

·分类模型的运用策略从具体分类模式的运用上,进一步增强系统的分类效果。

·分类系统的反债学习实现系统在使用过程中不断的自我学习、自我完善,从而达到其分类性能不断提高的目的。

·模糊分类处理提高分类处理的智能化,使分类处理结果更能反应文本类别的真实特征,从而达到减小误分类、提高分类精度的目的。

3.1 多模型处理技术对于信息分类技术的研究,长期以来形成了各种各样的方法,如Rule-based、Naive Bayesian、kNN、Decision Tree、SVM、Boosting 等,不同的方法都有各自不同的特点,是从不同的方面实现了对分类问题的描述,并且,一些简单的分类方法往往也可以达到一个较好的效果就目前的研究来看,SMV方法作为性能较好的分类处理方法,比其它的分类方法具有一定的优越性。

相关主题