当前位置:文档之家› 报告

报告

《面向对象分析设计与UML》课程设计题目:文本分类器指导老师:白清源小组组长:杨轩小组成员:苏巧娟、王净楣程晓雨、连俊强郭其滨2014年1月9日目录前言 (3)项目介绍 (4)一、文本分类 (5)二、文本分类算法 (11)项目运行结果说明 (13)前言九十年代以来,Internet 以惊人的速度发展起来,而伴随这计算机技术和通讯技术的迅猛发展,人们可从中获得越来越多的数字化信息,然而同时也需要投入更多的时间对信息进行妥善保存和管理。

这些信息数据通常都来自某领域或系统的各种类型的海量原始信息的积累,其中包括文本信息、声音信息、图像信息等等。

若能有效分析这些信息数据,获取该领域数据分布的规律,便可以知道未来决策。

然而,存放在大量数据库中的海量信息数据,没有强有力的工具,理解它们已经远远超出了人的能力,如何从这些数据中挖掘出有效的信息,这种挖掘信息的需要带来了对强有力的数据分析工具的需求,数据挖掘技术在这种背景下应运而生。

对数据挖掘的相关领域的研究,例如数据分类、聚类、函数模拟和规则抽取等技术,逐渐成为当前计算机基础技术研究的重心之一。

数据挖掘一词首次出现是在1989年8月所举行的第11届国际联合人工智能学术会议上。

近年来,其研究重点已逐步从发现方法向系统应用转变,并且注重多种学科之间的相互渗透。

在之后的各种内容的专题会议也常把数据挖掘列为议题之一,成为当前计算机科学界的一大热点。

从目前的现状看,数据挖掘的研究仍然处于广泛研究和探索阶段。

一批具有挑战性的前瞻性问题被提出,吸引越来越多的研究者。

而在数据挖掘这一门技术中“如何在浩若烟海而又纷繁芜杂的文本中掌握最有效的信息”是当前的一大热门研究,且始终是信息处理的一大目标。

为了减轻这种对信息分类的繁琐工作的负担,科研人员们开始研究如何使用计算机对文本进行分类。

文本分类是一种确定文章所属类别的一种情报分析方法,是大量信息检索或文本挖掘系统中的一个重要组成部分,也是文本挖掘的核心环节。

由于文本分类可以应用于信息检索、机器翻译、自动文摘、信息过滤,邮件过滤等诸多领域,因此文本的自动分类是自然语言处理的一个十分重要的问题。

自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。

自动文本分类是人工智能技术和信息获取技术相结合的研究领域,是进行基于内容的自动信息管理的核心技术,从而更好地帮助人们把握文本信息。

在文本自动分类中,分类模型(分类器)是决定分类效果好坏的关键部分,现有的文本分类模型主要有决策树(Decision Tree,简称DT)、支持向量机(Support Vector Machine,简称SVM)、贝叶斯网络、K-最邻近法(Knn)等。

统计学习理论是一种专门研究有限样本条件下机器学习规律的理论。

该理论针对小样本统计问题简历了一套新的理论体系,在这种体系下的统计推理规则不仅考虑了渐近性能的要求,而且追求在现有有限的条件下得到最优结果。

统计学习理论是建立在一套较坚实的理论基础之上的,为解决有限样本学习问题提供了一个统一的框架。

在这一理论基础上发展了一种新的通用学习方法——SVM,该方法已初步表现出很多优于已有方法的性能。

SVM方法是建立在统计学习理论的VC维理论和结构风险最小化原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(既无错误地识别任意样本的能力)之间寻求最佳折中,以期获得最好的推广能力。

目前,SVM算法在模式识别、回归估计、概率密度函数估计等方面都有应用。

例如,在模式识别方面,赋予手写数字识别、语音识别、人脸图像识别、文章分类等问题,SVM算法在精度上已经超过传统的学习算法或与只不相上下。

国外对于文本自动分类的研究开展的较早,20世纪50年代末,H·P·Luhn对文本自动分类进行了开创性的研究,将词频统计思想应用于自动分类。

目前,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术结合,有效地提高了信息服务的质量。

文本自动分类主要经历了四个发展阶段:第一阶段(1958—1964):研究文本自动分类的可能性;第二阶段(1965—1974):进入文本自动分类的实验性阶段;第三阶段(1975—1988):文本自动分类的实用性阶段:第四阶段(1990至今):因特网文本自动分类研究阶段海外在自动文本分类以及相关的信息检索、信息抽取等领域进行了较为深入的研究。

八十年代期间,自动文本分类以知识工程的方法为主,根据领域专家对给定文本集合的分类经验,人工提取除一组了逻辑规则,作为计算机自动文本分类的依据。

进入九十年代后,基于统计的自动文本分类方法日益受到重视,它在准确率和稳定性方面具有明显的优势基于统计方法的自动文本分类模型如图1所示,系统使用训练样本进行特征选择和分类器训练。

系统根据选择的特征形式化待分类的输入样本,然后输入到分类器进行类别判定,最终得到输入样本的类别。

文本自动分类问题最初是应信息检索的需求而出现的,在早期的研究中,主要采用信息检索技术中经典的布尔模型对文本进行分类,随着计算机运算速度的不断提高和存贮空间的不断扩大,文本分类技术又引起了较多的重视并有了新的发展,尤其在最近10年终,随着对自然语言处理及人工智能技术的研究日渐深入,曾经一度被当作信息检索问题进行研究的文本自动分类问题正越来越被视为模式识别的一个特例进行研究。

在近期的研究中,较为常用的研究方法是采用基于统计的方法抽取关键词(文本特征),运用信息检索中的计算模型进行特征加权,采用模式识别学习算法进行类别学习。

当然还有其他技术方法,这里研究的是支持向量机的技术方法。

支持向量机(SVM)是在统计学习离乱基础上构造的一种通用学习机器。

作为SVM的奠基者前苏联数学家V·V apnik早在上世纪60年代就开始了统计学习理论的研究。

事实上,早在20世纪70年代初,Vapnik就已经给出了经验风险和期望风险关系的定量刻画,奠定了小样本统计学的理论基础,但这时并没有引起人们的注意。

统计学习理论是一种新理论,真正引起人们的注意是1995年,文献的出现是统计学习理论走向成熟和起到正式承认的标记。

目前,一般认为统计学习理论是神经网络的最新进展。

由于SVM算法的潜在应用价值,吸引了国际上众多的知名学者,近几年出现了许多发展和改进的SVM算法。

另外,Smola在他的博士论文中详细研究了SVM算法中各种核的机理和应用。

SVM方法在理论上具有突出的优势,贝尔实验室率先在美国邮政手写数字库识别研究方面应用SVM方法取得了较大的成功。

在随后的几年内,有关SVM的应用研究得到了很多领域的学者的重视,在人脸检测、验证和识别、说话人/语音识别、文字/手写体识别、图像处理及其它应用研究等方面取得了大量的研究成果。

项目介绍本小组所研究的是SVM算法的文本分类器。

接下来的项目介绍将从两方面来阐述项目的特色,一方面是文本分类器过程及算法,另一方面是文本分类的结构及算法设计。

图1.1项目实现——文本自动分类器一、文本分类1.概述www上海量的信息为人们提供了一个超级资料库,然而巨大的网页数量使人们在其中查找信息成为一个难题,文本分类作为信息检索系统的重要组成部分,可以在很大程度上解决网上信息杂乱的现象。

文本自动分类最初是英信息检索(IR)系统的要求而出现的。

随着全球互联网络的普及,文本自动分类对于信息处理的意义变得更加重要。

现如今,文本分类是指在给定分类体系下根据文本内容自动确定文本类别的过程。

20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法,即由专业人员手工进行分类。

但这种人工分类的做法存在着许多弊端:一是耗费大量的人力、物力和精力;二是分类结果一致性不高。

即使分类的人语言素质较高,对于不同的人来分类,其分类结果任然不尽相同,甚至同一个人,在不同时间做分类也可能会有不同的结果。

90年代以来,众多的统计方法和机器学习方法应用于自动文本分类。

文本自动分类的一个关键问题是如何构造分类函数(分类器),并利用此分类函数将待分类文本划分到相应的类别空间中。

训练方法和分类算法是分类系统的核心。

目前英文自动分类已经取得了丰硕的成果,提出了多种成熟的分类方法,如最近邻分类、贝叶斯分类、DT方法以及基于SVM、VSM、回归模型和神经网络等方法。

目前国内中文文本分类研究主要集中在朴素贝叶斯(Naive Bayes,简称NB)、VSM和SVM等技术上。

2.过程概述这过程简单地说就是:在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。

从数学角度来看:文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,用数学公式表示:f:A——>B在上市中:A为待分类的文本集合,B为分类体系的类别集合。

详细的过程如下:文本的自动分类是一种典型的有教师的机器学习问题,其工作一般分为准备、训练和分类三个个阶段,主要的训练阶段和分类阶段如图2.1和图2.2所示准备阶段:使用者事先需要准备规划好分类方式,构造分类结构树,以及在此分类方式下人工标识好其所属类别分类的文档集(训练文本)训练阶段(实施阶段):利用系统提供的工具进行分类结构树的构建,利用训练文档集对系统进行学习训练,并可根据应用情况手工调整参数设置;分类阶段(使用阶段):将待分类的文档提交系统,系统将根据设定参数对其进行自动分类,在具体应用中,分类系统可内嵌于应用系统中。

图2.3分类过程图文本训练阶段:文本特征指的是关于文本的元数据,分为描述性特征:如文本的名称、日期、大小、类型等,以及语义性特征:如文本的作者、机构、标题、内容等。

描述性特征易于获得,而语义性特征较难得到。

对于内容这个难以表示的特征,研究人员首先要找到一种能被计算机所处理的表示方法。

根据“贝叶斯假设”,假定组成文本的字或词的集合来代替文本,不言而喻,这将丢失大量关于文章内容的信息,但是这种假设可以使文本的表示和处理形式化,并且可以在文本分类中取得较好的效果。

VSM是近年来应用较多且效果好的方法之一。

VSM采用简洁的特征矢量来表示文档,在进行特征提取时,不适用大量的句法与发信息,也无需对文档进行复杂的自然语言处理和语义处理,在VSM中,文档空间被看作是由一组正交特征矢量所形成的的矢量空间,每个文档d被看作是矢量空间中的一点,表示为矢量空间中的一个矢量:其中i=1,2,……,n,为特征项,为是d中出现的短语,从而提高内容表示的准确性。

一般定义为在d中出现频率的函数,即:那么选取什么作为特征项呢,一般可以选择字、词或词组,根据实验结果,普遍认为选取词作为特征项要优于字和词组,因此,要将文本表示为向量空间中的一个向量,就首先要将文本分词,有这些词作为向量的维数来表示文本,最初的向量表示完全是0、1形式,即,如果文本中出现了该词,那么文本向量的该维为1,否则为0.这种方法无法体现这个词在文本中的作用程度,所以逐渐0、1被更精确的词频代替词频分为绝对词频和相对词频,绝对词频,即使用词在文本中出现的频率表示文本,相对词频为归一化的词频,其计算方法主要运用TF-IDF公式,目前存在多种TF-IDF公式,本项目采用了一种比较普遍的TF-IDF公式:其中,为词t在文本d中的权重,而为词t在文本d中的词频,N为训练文本的总数,为训练文本集中出现t的文本数,分母为归一化因子。

相关主题