机器学习与概念语义空间生成何清 史忠植摘 要 本文综述了机器学习在文本信息处理中的应用,特别对概念语义空间生成中的机器学习技术进行了详细分析和阐述。
概念语义空间是针对关键词检索过程中,由于检索词的差异造成的检索结果差异的问题而建立的支持相关概念的索引机制。
文中分析了这一技术产生的背景,阐述了与概念语义空间密切相关的文本检索技术、搜索引擎技术的发展,以及在知识管理中的应用情况。
最后指出了概念语义空间进一步发展的基础和发展的方向。
1 引言随着计算机的发展和互联网的普及,对海量文本信息处理的需求越来越迫切。
这使得机器学习技术在基于语料的文本信息处理中获得了快速发展。
基于统计和经验的方法已经超出了传统机器学习的范畴,发展了一些独特的方法和技术。
在过去十来年,统计学习方法改变了依靠手工建立语法和知识库以及文本目录索引的状况,通过对大量已标注的和未标注的自然语料的训练可以部分或全部自动地完成上述过程。
但是自然语言处理中仍然存在许多尚未解决的问题,甚至是影响到自然语言处理的基础性的核心问题。
在文本检索过程中如果只使用关键词匹配技术往往会遇到词汇不匹配。
这是因为存在表达差异。
关键词匹配检索模式往往基于这样一种基本假设:仅在一个文档含有与查询完全相同的词汇时,它们才相关。
这种相关性匹配实际上是基于表层的匹配(Surface-Based Matching)。
然而,人类的自然语言中,随着时间、地域、领域等因素的改变,同一概念可以用不同的语言表现形式来表达。
因此即使对于同一概念的检索,不同的用户可能使用不同的关键词来查询。
例如当用户查询“计算机”和“电脑”两个词的时候其实是在查询同一件事情。
而基于表层的匹配不可能检索到同一概念的多种语言表达形式。
因此,词汇不匹配将导致系统的查全率降低。
姚天顺教授曾经举了一个用“红苹果”、“红的苹果”、“红色苹果”、“红色的苹果”在网上检索,结果存在巨大的数量差异的例子,说明自然语言处理和信息检索在技术上没能很好地融合[1]。
这一问题的产生有很多方面的因素。
从根本上说是目前机器对自然语言不能完全理解。
具体到这个例子来说,就是缺乏对红苹果这一概念的语义表达。
从目前技术状况来看,尽管我们付出了大量努力,但是要达到使计算机对自然语言完全理解这一目标差得还很远。
对于解决上述问题在目前可能达到的目标也许只能是通过机器学习对原始语料中概念之间的语义关联进行挖掘,对这些语义关联给出合理的表示,从而产生一些常识性的概念语义。
2 概念语义空间产生的背景所谓概念语义空间,就是对文本集建立的能反映文本集中概念之间语义关系的一个索引。
这是为克服关键词检索过程中,由于检索词的差异造成的检索结果差异而建立的支持相关概念的索引机制。
概念语义空间与文本检索、搜索引擎、知识管理密切相关,它是基于目前自然语言处理技术的进展状况而产生的。
2.1 机器学习与自然语言处理统计方法在语音识别方面的成功[2],促进了类似方法在自然语言处理其他方面的应用。
现在各种机器学习方法几乎都应用到了自然语言处理的不同方面,包括词法、句法分析[3]、歧义消除和理解[4]、会话过程和信息抽取[5]以及机器翻译[6]。
然而,传统的人工智能中的机器学习对计算语言学的研究贡献有限。
这是因为基于机器学习和基于经验的自然语言处理需要通过相互交流、相互促进才能发展。
现在自然语言处理中大多数机器学习的研究都借助了语音识别中特定的统计技术如:隐马尔科夫模型(Hidden Markov Models, HMMs)、概率上下文无关语法(Probabilistic Context Free Grammars, PCFGs)。
其它各种学习算法包括决策树、规则归纳、神经网络、基于示例的方法、贝叶斯(Bayesian)网络方法、归纳逻辑程序、基于理解的学习。
遗传算法也能用于自然语言处理,并且在特定的应用中有其优势。
另外,一些特别的机器学习算法如主动学习、推进(Boosting)算法、修正学习、有知识背景的构造归纳学习、理论修正、经验评价法、PAC (Probably Approximately Correct)学习等对处理自然语言问题是非常有用的。
事实上已经有一些文献提出了利用机器学习技术进行自然语言处理的特定方法。
这表明目前的研究已经不局限于研究UCI(University of California at Irvine)数据库中由标准数据集提供的特征向量的分类问题。
计算语言研究组织和机构已经收集了很多有趣的涉及许多自然语言问题的文本数据集。
其中有些问题通过选取合适的特征可以退化为标准的分类问题,但是其他一些问题需要采用或建立复杂的数据结构,如完备的句子或解析树来解决。
以上表明,机器学习能为自然语言处理提供一系列非传统的学习方法的同时,还能提供一般的方法论的指导。
反过来,自然语言处理为机器学习提出了各种有趣的和富有挑战性的问题。
这些问题常常具有一些特定的特征,如:非常大的特征空间和极度稀疏的数据。
另外,统计语言学对机器学习的一个不太明显的潜在贡献是引入了一些新的机器学习算法,如最大熵方法、指数模型方法。
这些方法在传统机器学习的文献中没有很好地论述。
它们可能会像HMMs和PCFGs在分子生物学中的成功应用一样有效地被用于其它机器学习问题。
机器学习技术与自然语言处理任务有着密切的联系,下表中列出了他们之间的关联关系。
机器学习技术自然语言处理任务指数语言模型 文本分割隐马尔科夫模型 名称实体识别概率学习 切词基于示例的学习文字与发音转换,语音标注, 介词词组的捕获,划分名词词组概率与基于相似性的学习 处理稀疏数据,伪歧义词分析筛法 感知上下文的拼写修正决策树,Boosting 句法分析最大实体模型 句法分析规则学习 概念抽取表1 机器学习技术与自然语言处理任务对照表1999年Claire Cardie和Raymond J. Mooney编辑出版了机器学习杂志的一本专缉[7],该专辑收集了当时在自然语言处理领域机器学习技术的典型应用。
其中还介绍了一些端到端的自然语言应用,如Golding & Roth 的感知上下文的拼读修正系统,以及完整的信息抽取系统。
该专辑特别提到Soderland的概念抽取模式和Bikel的能够准确识别姓名、日期、时间、数字的系统。
以上主要涉及到文本微观信息处理与相应的机器学习技术,一般是处理一篇文档所涉及到的问题。
从宏观上如何处理海量文本信息,特别是随着网络的飞速发展,如何快速为海量文本信息建立分类目录有效地组织网上海量信息,以及如何建立具有某种程度语义的索引机制就是当前乃至今后相当一段时间的研究热点。
2.2 文本检索技术的发展实际上概念语义空间的最重要最直接的应用是文本检索。
下面我们看一看文本检索发展的历程。
Gerald Salton从70年代就开始从事文本检索的研究。
他所提出的向量空间模型(Vector Space Model)已经成为现在的文本检索系统以及网络搜索引擎的基础。
在70年代,文本检索引入了倒排索引(Inverted index)以及向量空间(Vector space)模型。
另外,创立了基于贝叶斯统计(Bayesian statistics)的布尔方法(Boolean retrieval method)和简单概率获取模型(Simple probabilistic retrieval models)。
虽然已经经过了近30年的历史,这些技术至今仍然构成当今文本检索技术的基础。
在80年代,与新的人工智能技术的发展同时,产生了一些模拟专业文献搜集者和领域专家的专家系统。
使用了对用户建模以及自然语言处理等技术来辅助对于用户和文档的表示。
并且产生了一些研究用的原型系统。
在90年代初期,当研究者们认识到了创建领域知识库的困难之后,试图采用新的机器学习技术用于信息分析。
这些技术包括神经网络、遗传算法、符号学习等。
概念语义空间技术就是在这个年代提出的,但当时处于初步研究探索阶段。
90年代中期之后,随着搜索引擎的普及以及网络Spider (蜘蛛程序),超链分析等技术的发展,文本检索系统已经成为更新的并且更强大的用于网络内容的搜索工具。
概念语义空间技术的研究取得突破,并在美国的数字图书馆领域得到应用。
文本检索技术一直是信息科学工作者和图书馆管理员关注的焦点。
文本检索的目的是要对于用户的请求给出相关的资料。
在计算机得到普及之前,我们经常依靠人工来完成这个任务。
图书馆的管理员需要知道自己所管理的资料并且知道它们的内容,然后借助人工的索引、摘要或者图书馆目录等工具来找到相关的信息。
然而,随着计算机的普及以及互联网的发展,使得这些方法变得越来越不可行。
这主要是由当前互联网上信息的特性所决定的。
首先,互联网上的信息是没有组织的。
在图书馆里存放的是按照特定领域分类的文档,而互联网上的信息并非如此。
与图书馆不同,在互联网上的信息更为混乱,并且所包含的信息的质量经常并不是很高。
互联网是分散的、动态的、多样的,要在网上找到所需要的信息是一个挑战。
其次,互联网上信息的形式是多种多样的。
虽然文本信息占了主要部分,然而图形、音频、视频信息也占了相当大的部分,而且比重在增大。
第三,互联网上的信息容量是十分巨大的并且增长十分迅猛。
这给信息检索带来了更大的挑战。
根据Cyveillance 公司到2000年7月10日的统计表明当时互联网共有21亿个网页,平均每天增加730万个。
总之,我们必须找到一些方法使我们能够在海量的信息里面搜索到所需要的有用的信息而不至于被大量的信息所淹没。
2.3 文本检索系统的性能评价评价文本检索系统性能的一个关键概念是“相关性”(relevance )。
它是用来判断获取的文档集合对于用户需求满足的程度。
相关性是一个主观的概念。
相关性的度量不仅仅依赖于用户的查询和所搜索的文档的集合,还与用户的个人需求、偏好、知识、语言等有关系。
通常将“查准率”和“查全率”这两个指标共同用来衡量检索系统的性能。
查准率表明系统的精确性。
查全率反映了系统的覆盖性。
这两个量不是独立的,其中一个指标的提高往往以另一个指标的降低为代价。
查准率(Precision ):是信息检索的性能指标,定义为被检索到的相关文档数除以所有要检索的文档数。
|}{||}{}{|Retrieved Retrieved Relevant precision ∩=(2.1)查全率(Recall):是信息检索的另一个性能指标。
定义为查找到的相关文档数除以集合中全部相关文档数的值。
即|}{||}{}{|Relevant Retrieved Relevant recall ∩=(2.2)在实际应用中,有些用户更加注重查准率,而另外一些用户更加注重查全率。
文献[8]引入了一个综合了查全率与查准率的指标E 来衡量系统的性能。