文本信息分析
1. 中文文本信息过滤技术研究
1.1文本过滤技术
文本信息过滤是指依据一定的标准和运用一定的工具从大量的文本数据流中选取用户需要的信息或剔除用户不需要的信息的方法[1]。文本过滤和文本检索及文本分类有很大的相似之处。
1.1.1 文本信息过滤技术发展
1958年Luhn提出的“商业智能机器”是信息过滤的最早雏形。Luhn所提出的构想涉及了信息过滤系统的每一个方面,为后来的文本过滤做了很好的铺垫。1982年,Dernzing首次提出了“信息过滤”的概念,在他描述的例子中,可以通过“内容过滤器”识别出紧急邮件和一般邮件,以此提示对信息内容进行有效控制。1987年,Malone等人提出了三种信息选择模式,即认知、经济、社会。认知模式相当于“基于内容的信息过滤”;经济模式来自于Denning的“阈值接受思想”;社会模式是他最重要的贡献,即“协同过滤”。1989年,美国消息理解大会(Message Understand Conference)成立,将自然语言处理技术引入到信息研究中来,极大地推动了信息过滤的发展。
20世纪90年代以来,著名的文本检索会议TREC(Text Retrieval Conference)每年都把文本过滤当作一个很重要的一个研究内容,这很大程度上促进了文本过滤技术的发展。从TREC-4开始,增加了文本过滤的项目;从1997年TREC-6开始,文本过滤主要任务确定下来;TREC-7又将信息分为自适应过滤、批过滤和分流过滤,使得对信息过滤的研究更加深入。
随着信息过滤需求的增长和研究的深入发展,其他领域的许多技术被应用到文本过滤中来,并取得了很好的效果。如信息检索中的相关反馈、伪相关反馈以及文本检索中的向量空间模型的相关技术,文本分类和聚类技术,机器学习以及语言底层的处理技术都被应用到信息过滤中来,极大地拓展了信息过滤的研究广度,推动着信息过滤理论研究与技术应用不断走向完善与成熟。
1.1.2 中文本过滤技术
中文文本过滤技术在最近几年得到了业内人士的普遍关注。国内对于信息过滤研究起步较晚,但是目前发展也很快,尤其是随着信息安全、信息定制等应用在国内的兴起,对信息过滤技术的研究也得到人们普遍的重视。其中,中科院计算所、复旦大学都曾参加了TREC评测中的信息过滤任务,取得了较好的成绩;哈工大、南开大学等重点科研单位也已经开始对信息过滤进行研究。
然而,基于目前提出的中文文本过滤模型开发出的试验系统在不同的领域达到的过滤精度也不相同。由于中英文语法差异较大,对于文本信息的预处理方法不同,因此面向英文的众多过滤算法是否适合中文文本过滤还有待检验[2]。
1.2 中文文本过滤的关键技术
文本过滤工作基本上可以概括为两项:一是建立用户需求模型,表达用户对信息的具体需求;二是匹配技术,即用户模板与文本匹配技术。因此,文本过滤的主要流程首先是根据用户的信息需求,建立用户需求模型,然后在相应的文本流中搜索符合用户需求的文本,同时,利用反馈改进需求模型。文本过滤系统的一般模型如图1所示:
1.2.1中文分词
中文分词是对中文句子的切分技术,是中文文本最重要的预处理技术。自动分词过程是指从信息处理需要出发,按照特定的规范,对汉语按分词单位进行划分的过程[3]。自动分词是汉语所特有的研究课题,英语、法语等印欧语种,词与词之间存在着自然的分割,一般不存在分词的问题。
中文自动分词已经研究了20多年,但是目前仍然是制约中文信息处理的瓶颈[4]。汉语除了连续书写之外,汉语词汇没有形态变化,也没有各种词的变格,缺乏自然的分割信息。汉语语法的研究多源于印欧语法的研究,分析结果对分词有用的信息较少;汉语的词序义极为灵活,相对的语法限制也较少。在词汇数量上,一般的印欧语种的词汇最多为几十万词,而汉语的词汇高达几百万乃至上千万。一个汉字序列可能有几种不同的切分结果,产生歧义现象。这些都给自动分词造成了极大的困难。宏观上,主要存在语言学和计算机科学等两方面的困难。
汉语分词系统的实现及效果依赖于分词理论与方法。目前国内分词系统所采用的或者正在研究的方法基本上分为以下几类。
(1)机械分词法:主要有最大匹配法(MM法)、逆向最大匹配法、逐词匹配法、部件词典法、词频统计法、设立标志法等。
(2)语义分词法:语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法等。
(3)人工智能法,又称理解分词法,如专家系统法、神经网络方法等。
1.2.2 过滤模型
信息过滤系统的性能,关键在于模型的完善程度如何。目前描述文本信息的模型有很多种,有布尔模型、向量空间模型、概率推理模型、潜在语义搜索模型、基于模糊集合的信息过滤模型。
其中,向量空间模型(VSM)的最大优点在于它在知识表示方法上的巨大优势:文本被形式化为多维空间中的向量,把对文本内容的处理简化为向量空间中的向量运算,大大降低了问题的复杂度,提高了文本处理的速度和效率。
在一个向量空间模型构造的信息过滤系统中,用字项来标识文档。一个包含不健康信息的文档D用一个m维向量来表示,其中m是能够用来表示文档内容的字项的总数。给每一个字项赋予一个权值用来表明它的重要程度。该文档D的向量表示为D={w1w2„wm},其中wm表示第m个字项的权值。在进行信息过滤的过程中,首先对请求的页面数据进行加工将其看成是一个由n个词组成的向量P,然后比较向量P和向量D的相似程度。通常使用的方法是取两个向量的余弦值,根据它们夹角的大小来判断相似程度。最后根据相似程度来决定是否要过滤掉该页面。
也正因为把文本以向量的形式定义到数域中,VSM模型大大提高了文本处理的速度和效率,因此在文本过滤领域VSM是被广泛采用的文本表示模型[5]。向量空间模型也有明显的缺点:它是一种忽略了特征项之间顺序的词代文本表示模型,虽然带来了计算和处理上的便利,但却损失了大量的文本结构和语义信息;另外向量空间模型是建立在所有项两两正交这一假设的基础上的,没有考虑特征项之间的相关性,对于有着丰富语义的自然语言来说,这种假设过于严格,不能很好地反映自然语言的特征。总之,用简单的初等运算来代替语义,误差势必存在。
1.2.3 特征选择
特征选择( Feature Selection)的基本思想通常是构造一个评价函数,对特征集的每个特征进行评估。这样每个特征都获得一个评估分,然后对所有的特征按照其评估分的大小进行排序,选取预定数目的最佳特征作为结果的特征子集。选择的准则是经特征选择后能有效提高文本准确率。选择没有改变原始特征空间的性质,组成一个新的低维空间。
特征选择具有降低向量空间维数、 简化计算、防止过分拟合以及去除噪声等作用,特征提取的好坏将直接影响着文本过滤的准确率。 常用的特征选择方法有:文档频率、信息增益、互信息、x 统计量、 期望交叉熵、 文本证据权和几率比等。采 用 国 家 “ 八 六
三 ” 计 划 中 文 文 本 语 料 库 和Rocchio 分类器对常用的特征选择算法进行评估,结论是几率比 OR( OR,Odds Ratio)方法最好[8]。几率比( OR,Odds Ratio):
其中,pos表示正例集的情况,neg表示负例集的情况。几率比只关心目标类值,这使得几率比特别适用于二元分类器。在二元分类器中,希望能识别出尽可能多的正类,而不关心识别出负类。而实际的训练集中负类往往占90%以上的比重,这时几率比对于其它评估函数来说有其独特的优势。
1.3 文本过滤的评估标准
为了衡量信息过滤系统效果,需要一套性能标准。一个完善的评价系统需要考虑的不仅仅是信息内容,还包括社会因素、用户兴趣等方面,所以至今还没有一套完美的评测方法。通常,信息过滤系统效果的评估借鉴信息检索的做法。
得益于信息检索评估的长期经验,具体的方法大致可以分为三种:试验评估,仿真评估和分析评估。信息检索标准的评估对信息过滤效果的评估有一定的参考价值,但是不能完全套用。目前大部分过滤效果还是由查全率( Recall Ratio)和准确率( Precision Ratio)来衡量的,准确率和查全率被广泛应用于仿真试验。然而,由于查全率的计算必须以整个数据集为基础,而整个数据集是未知的,所以它不可能应用于那些已经将无关数据忽略掉的真实过滤系统的实验。除了采用在信息检索中常用的查全率和准确率指标外,批过滤和自适应过滤子任务还采用 Utility 和 F 值来评价,而分流子任务则根据平均非插值准确率( average
un-interpolated precision)评价[9]。
下面就常见的几种评估标准进行比较说明
( 1 )查全率,指系统在执行某一检索时,检出相关文档的能力, 它等于检出满足用户需求的文档与系统中相关文档总量的比:
R = 检出相关文档量/系统数据库中相关文档总量
( 2)准确率,指系统在执行某一检索时,拒绝不相关文档的能力,它等于检出的满足用户需求的文档与检出的文档总量的比:
P = 检出相关文档量/检出文档总量
(3)F值,基于Van Rijsbergen的定义,是准确率和查全率的函数。定义为:
在同一个运行环境下,查全率和准确率是两个矛盾的参数,一方面性能的提高,另一方面的性能就会有所下降。根据不同应用领域对内容过滤性能要求的侧重点不同,以及各种过滤算法的优缺点,可以选择适合本应用领域的过滤算法,也可以把这些算法结合适用,以提高系统的整体性能。
F 测度是一种综合了查准率与召回率的指标,只有当两个值均比较大的时候,对应的 F
测度才比较大,因此是比单一的查准或召回率更加具有代表性的指标。
2 自由文本信息抽取技术
2.1 背景
随着计算机的普及与互联网的高速发展,信息也是爆炸式地增长。信息的过量增长带来一定负面影响:面对巨量的信息,难以发现真正需要的信息。如何将大量无序的信息及时准确地进行提取、整理、组织成便于查询检索的形式,已成为研究开发的焦点。信息抽取正是在这种背景下产生、发展起来的。
信息抽取是以一个以未知的自然语言文档作为输入,产生固定格式、无歧义的输出数据的过程。这些数据可以直接向用户显示,也可作为原文信息检索的索引,或存储到数据库、电子表格中,以便于以后的进一步分析。从广义上讲,信息抽取的处理对象可以是文本、图像、语音、视频等多种媒体。但随着文本信息抽取的强势发展,特别是在美国防高级研究计划局(DARPA)所资助的消息理解会议(MUC)对不同文本信息抽取系统组织统一评估后,信息抽取已被用来专指文本信息的抽取。
信息抽取首先是自然语言理解技术和实际应用相折衷的产物。自然语言处理有着从根本上解决人机对话问题的良好前景。然而,目前的自然语言处理水平尚不能对任意的文本进行深入的分析,不具备深入理解自然语言的能力。与自然语言理解不同,信息抽取一般不对文本作深入的全面分析,它的主要功能是根据预先设定的任务,抽取特定类型的信息。例如,一个用于从新闻报道中抽取恐怖主义事件的信息抽取系统,只需提取诸如受害者、加害者、事件中使用的武器等信息即可达到要求。信息抽取的优势在于简化了自然语言处理的过程,只关注相关的信息,而忽略无关的内容。
另一方面,信息抽取技术可视为信息检索技术的一个深化。信息检索从文档的集合中寻找与用户要求相关的文本或段落。信息抽取则是在相关文本或段落的基础上,发现用户需要的信息。信息检索一般对文本的语义不进行分析,而由用户对文本的语义做出解释。信息抽取则由系统分析文本的语义,在此基础上,给出用户需要的信息。在实际的应用中,信息抽取和信息检索可互补使用。如,由信息检索系统寻找相关文档,而后由信息抽取系统在相关文档中抽取所需信息;反之,也可在信息抽取的基础上,进行高精度的信息检索。
信息抽取、信息检索与自然语言处理这三者之间的关系可用图1表示。