搜索引擎摘要:Internet 上日新月异的大量信息资源充斥,人们对信息的需求越来越多,各式各样的搜索引擎应世而生,然而随着大数据的到来,这对搜索引擎提出更高要求。
但是面对这么大量的数据,一般的搜索引擎有些吃不消,不能满足人们的需求,然而基于自然语言处理技术的智能搜索引擎出现了,本文将介绍搜索引擎用到自然语言处理技术去。
关键字:搜索引擎,自然语言处理,概念控制Search engine(*********************)Abstract: Changing a lot of information on the Internet is full of resources, people d emand more and more information, a variety of search engines shoul d the world was born, but with the arrival of big data, which is the search engine, higher demands. But the face of such a large amount of data, general search engines too much for some, can not meet people's needs, however, based on natural language processing technol ogy, smart search engines appeared, this article describes the search engine to use natural language processing technol ogy.Keyword: search engine,Natural Language Processing, Control Concepts1 搜索引擎1.1搜索引的擎定义搜索引擎,是指在Internet中主动搜索信息并能自动查询、提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人Web Robots)或网站登录等方式,将Internet上大量网站的页面收集到本地,经过加工处理而建成数据库,当用户输入关键字(Keyword)查询时,该网站会告诉用户包含该关键字信息的所有网址,并提供通向该网站的链接。
1.2搜索引擎的分类在搜索引擎的发展过程中,出现了各式各样类型的搜索引擎。
根据索引方法来划分,可以分为基于概念(Concept Based)的搜索引擎:和基于关键字匹配(Keyword Based)的搜索引擎等。
根据搜索引擎索引、检索信息的方式来分,可以分为:基于目录的搜索引擎、基于机器人的搜索引擎、分布式搜索引擎、基于客户的搜索引擎、元搜索引擎和代理搜索引擎;根据搜索引擎索引信息的范围来划分,可以分为:综合式搜索引擎、专题式搜索引擎和特殊型搜索引擎;1.3搜索引擎的评价标准从功能上讲,搜索引擎实质上是一种网络信息检索工具,不同的搜索引擎所提供的服务在性能上差异很大,为了帮助用户有效的选择,也为了对搜索引擎的改进提供参考,非常有必要对各种搜索引擎进行比较和评价,传统的检索工具发展已经有百年历史,其评价标准已相当成熟,搜索引擎虽然与传统的检索工具有着很大的区别,其相应的评价标准也不尽相同,但仍可以借鉴传统检索工具的评价标准对网络检索工具进行评价。
这些评价标准包括:(1)搜索引擎收录信息的范围(2)反馈的信息量及内容的准确性(3)反馈的查询结果错误率(4)报道与内容更新速度(5)搜索引擎的检索性能(6)搜索引擎的响应时间(7)检索界面友好性(8)精品推荐(9)与其它搜索引擎的友情链接(10)搜索引擎的系统性能。
搜索引擎的功能在于将分散的网址集中起来,分类提供给用户,以便快速查找到所需的信息.常规搜索引擎一般都带有数据库资源,因此对搜索引擎的比较主要集中在数据库资源和搜索引擎的性能两个方面。
数据库资源方面的比较研究主要包括:数据库规模、索引方式、以及资源内容(如声音、图像、Usenet、FTP、Newsgroup、Gopher、Email等资源)。
检索性能的比较,主要有布尔检索、复杂布尔检索、相邻和相邻and/or检索(NEAR、ADJ、FAR、BEFORE、FOLLOWEDBY、<Sentenees>、<Paragraph>、截词检索、检索范围限定、出版日期限定、多语种检索、多种版本选择、大小写有别、概念检索、词语加权、词语限定、自然语言检索、特定字段检索、缺省值、检索结果显示方式、显示数量选择、相关排序、站点评价、相似性检索、结果过滤、用户界面、查准率、响应时间等方面的比较研究。
2 自然语言技术2.1自然语言处理引入现代科技的发展使人类进入了信息时代。
对于人类而言,最自然、最重要、效率最高的信息载体之一就是自然语言。
人类能够利用自然语言进行信息的传递和交流,这是人类与动物的本质区别之一。
语言是思维的载体,是人际交流的重要的工具。
在人类历史上以语言文字形式记载和流传的知识。
!知识总量的80%以上。
在信息化社会里,语言信息处理的技术水平和每年所处理的信息总量已成为衡最一个国家现代化水平的重要的标志之一。
语言是人类最重要的交际工具。
语言交际的模式主要是表达和理解,一方表达,另一方理解。
语言交际就是在一定的场合、依据一定的规则、表达和理解一定的意思,句法、谙义和语用在实际中是二位一体的。
从第一台电子计算机诞生到现在半个多世纪过去了,人类已经由发明工具延伸自己的四肢进化到延伸人脑。
计算机一开始只是科学家、l:程师的计算工具,现在已经逐步进入人众的日常生活。
因特网将世界各地的电脑连成一片,人们可以在网上查询或发布信息,可以在网上聊大、漫游、购物甚至在网上生存。
“电脑+网络”止在从延伸人的大脑发展为延伸人的生存空间,网络社会使人类的交际行为和方式发生重人变化,语言开始从单纯人类最重要的交际L具发展到可以进行人和机器之间的交流。
从表达方和理解方来石,现在交际行为至少有以卜四种模式:A人表达<-----一>人理解B机器表达<-----一>人理解C人表达<---------一>机器理解D机器表达<--------—>机器理解以电脑为发送信息的“一方”或接受信息的“另一方.,研究电脑如何表达人的语言(模式B)是“自然语言生成.,研究电脑如何理解人的语言(模式C)是“自然语言理解,.机器翻译(MT)需要电脑理解一种自然语言,然后转化生成为另一种语言,所以是既包含自然语言理解研究,也包含自然语言生成研究(属于模式D),还包含语言之间的转换研究.因此,研究“自然语言处理”,不可以不研究语言交际,不可以不研究人脑的语言机制和模拟人脑的语言机制。
2.2 自然语言研究的进程人工智能是以建立智能化的,自主的计算机为目标一门学科,它研究的课题包括:专家系统、问题求解、逻辑和不确定问题、自然语言处理、机器人学、学习机、视觉和模式识别等等。
其中自然语言处理是人工智能的核心课题,包括自然语言的分析理解和综合生成。
起初,自然语言处理强调立新主义,用人工智能的方法(如状态空间搜索、知识表示和机器学习等)来处理自然语言。
在这个阶段,人们集中力量建立各种规则系统,试图通过规则的演算来解决语言的分析和生成问题.但是不久人们发现,自然语言远不是一个精确定义的符号体系,梢心构造的规则只能在严格受限的领域内起作用,无法处理大规模真实文本中的种种复杂的语言现象.到了80年代后期,计算语言学开始注重对大规模真实文本的处理,出现了语料库语言学,其特点是以经验主义为旗帜,以对大规模真实文本的统计为主要方法。
语料库语言学认为,人类的一切语言知识都组含在大规模的语料之中,可以通过统计来发现这些知识。
以前人们凭主观内省而得到的语言知识是不完整的,甚至可能是错误的。
语料库语言学在真实文本的词性标注上大了一个打胜仗。
以前人们制定了各种语言学规则来标注词性,正确率并不高,而运用统计方法和训练语料(已标注过的语料)来标注词性,准确率高达95%左右。
然而,语料统计的方法也不是万能的,随着语言信息处理层次的提高,简单的统计模型越来越暴露出其缺点:难于处理长距离依赖的语言现象,难以获得高度概括的知识以顺利地处理训练语料之外的语料。
目前,在对大规模真实文本进行自动句法分析这一关键问题上,还没有取得突破性进展。
2.3自然语言理解研究理论、方法及应用范围计算机是1946年出现的,50年代初,人们就开始了用计算机处理自然语言研究,这首先是从机器翻译开始的,1954年,美国GeorgetOWn大学在IBM公司协助下研制的第一个俄英机器翻译系统。
该系统规模较小,只有6条语法规则,250左右各单词,但是它的研制成功极大地推动了机器翻译的开发.世界许多国家,包括我国,都开始了机器翻译的研究。
这个时期,理论上出现了许多有价值的思想,还设计了专门的机译程序设计语言.但是由于自然语言是极其复杂的,其处理涉及了许多知识和手段,而且它的研究水平离不开当代的语言学、计算机科学研究、特别是人工智能的研究实际水平。
因此,没有研制成功真正使用的机器翻译系统。
在经过了一段乐观时期后,人们开始对机器翻译、人工智能的研究产生了怀疑。
19“年,美国科学院发表了著名的ALPAC报告,这个报告对机器翻译墓本采取了否定的态度。
从此,机器翻译的发展进入了低潮期.许多学者的研究重心转向了自然语言理解的基本理论和方法,同时人工智能也在发展之中。
人工智能的前辈们提出了多种知识的表示、启发式搜索理论和各种推理方法,并且把对自然语言的理解作为人工智能的一个应用课题来研究.在后来的三十多年里,自然语言理论一直在发展着,涌现出了一大批新的理论和方法.这些新的理论和方法可以归纳为以下3个体系:(1) 基于语法的分析法1957年Chomsky提出了转换生成语法理论.1972年,W以川s以这个理论为基础,涉及了扩充转移网络(ATN),并完成了LUNAR系统.1997年MARCUS提出了语法分析的确定性算法.进入80年代,又有许多以复杂特性集为特征的语法出现,例如词汇功能语法(LFG)、广义短语结构语法(GpSG)、功能合一语法(FUG)等等。
(2) 基于语法加语义的分析法以FILLMORE在1968年提出的格语法为代表。
格语法一般分为语法格和语义格两个系统。
最早的语法格只有6个,目前英语中使用的有20多左右,日语中用到了70多个,汉语可分出20多个。
格语法是以动词驱动的,只要找到动词,就可以不关主、谓、宾的次序如何,都可以用语义框架将其愈思表达出来。