新技术专题文献综述(之一)专题:关于智能搜索的产生和发展趋势班级:计科091 号:200953225120名:缪克敢指导教师:丁辉计算机科学与技术专业制关于智能搜索的产生和发展趋势摘要:随着互联网的迅速发展普及,互联网上的信息出现了爆炸性的增长,因此一个较好的搜索技术对网民十分重要,本文就智能搜索的产生、发展和研究做一浅显的探讨。
1.智能搜索的产生互联网从产生、技术积累到飞速发展的近十年里,给现代社会带来了无法估量的影响,更是积累了巨量的数据信息,导致信息大爆炸时代开始了。
在浩瀚的信息海洋中,人们只有依靠搜索引擎才能不至于迷失方向,才能迅速找到所需的信息。
也因此产生了越来越多的搜索引擎。
各种搜索引擎的功能侧重并不一样,有的是综合搜索,有的是商业搜索,有的是软件搜索,有的是文献搜索。
当前的搜索引擎主要存在以下两个不足:(1)查询结果的显示顺序比较混乱,搜索引擎在对结果进行排序时没能区分信息类型(如文献、新闻、广告等);(2)查询结果中无关信息过多,太多查询动辄被返回成百上千甚至上万条信息;另外,查询结果的摘要或简介文字(太多数是对应全文的开头部分)的准确性、对复杂查询的支持上也有待改善。
上述依靠单一的搜索引擎不能完全提供人们需要的信息,因此需要产生一种软件或网站把各种搜索引擎无缝地融合在一起,于是智能搜索引擎也随之诞生了。
关于智能搜索的定义,至今没有明确的诠释。
本人综合了各个学者的观点把智能搜索认为是结合人工智能技术的的新一代搜索引擎。
他除了能提供传统的快速检索、相关度排序等功能,还能提供用户角色登记、用户兴趣自动识别、内容的语义理解、智能信息化过滤和推送等功能。
智能搜索引擎设计追求的目标是:根据用户的请求,从可以获得的网络资源中检索出对用户最有价值的信息。
【1】2.智能搜索的发展趋势(一)强化全文检索功能搜索引擎的一个发展方向是全文搜索引擎。
它采用对站点页面文字内容进行全面检索的技术。
比起目录检索,全文检索提供了全新的强大的检索功能,可以直接根据文献资料的内容进行检索,支持多角度,多侧面地综合利用信息资源。
全文检索技术是发现信息、分析信息和过滤信息、信息代理、信息安全控制等应用的主要技术基础。
以全文检索为核心技术的搜索引擎已经成为网络时代的主流技术之一。
全文搜索虽然多而全,但没有分类式搜索引擎那样清晰的层次结构,有时给人一种繁乱的感觉,因此,全面、准确和快速是衡量全文检索系统的关键指标。
(二)数据库小型化,专业化现在的搜索引擎,大都力争将自己的搜索范围扩大到因特网。
然而由于数据库规模庞大,为了提高查询速度往往牺牲了信息质量,而且这样的系统需要性能很高的硬件环境。
网络用户最在意的是检索信息的查准率,而不是查全率。
也就是说,有时用户并不需要得到所有合检索要求的信息。
对于一次检索,大型搜索引擎一般会得到成千上万条符合要求的信息,而人们只会浏览其中的几十条。
因此,对于用户来说,能够返回成千上万条信息的搜索引擎与只能返回几百条信息的搜索引擎并没有什么区别。
搜索引擎技术的发展方向是提供更精确搜索。
因此,数据库的小型化,专业化能针对用户的特定需求来提供信息,特定用户只要登录到相应的搜索引擎即可迅速、准确地获取所需的信息(三)元搜索引擎的发展元搜索引擎是一种基于搜索引擎的搜索引擎。
在搜索引擎的实现过程中,由于各个搜索引擎的信息搜集和索引建立有很大的不同,使得它们在收集的信息资源范围方面产生了巨大的差异,任何单个搜索引擎都只能涵盖一部分WWW资源,这对于用户就意味着使用任何一个搜索引擎都不可能达到信息查全的目的,为了克服这个缺点,在该领域就出现了一种新型的搜索引擎——元搜索引擎。
所谓元搜索引擎,就是指在统一的用户查询界面与信息反馈的形式下,共享多个搜索引擎的资源库,为用户提供信息服务的系统。
它弥补了独立搜索引擎搜索不全的缺点,提高了检索的全面性,是未来搜索引擎的发展方向。
【2】(四)检索智能化、服务个性化未来的搜索引擎应该是建立在个性化搜索环境之下。
个性化将使搜索更符合每个用户的需求,而不仅仅是准确。
同时,搜索引擎的发展趋势将更强调人的因京,即检索智能化。
用户所需要做的仅仅是告诉搜索引擎想做什么,至于怎么实现则无需人工干预,这就意味着用户将彻底从繁琐的规则中解脱出来。
同时,搜索引擎应该具有“判断地收集信息”的功能,即根据特定用户的行为(例如经常访问的站点)来决定信息的取舍,提供多样化服务。
(五)搜索服务现在的搜索引擎基本上属于第一代互联网的技术,它是一种被动的技术,用户访问搜索引擎进行搜索,获取信息。
搜索服务则完全是一种主动服务,它就像你的一个信息秘书一样,随时利用搜索技术为你提供个性化的信息服务,为你在互联网上收集各种有用信息。
例如,Ke~in是由主要从事语言模式匹配技术的Autonomy系统公司开发的一个以提供主动服务为主的Web搜索软件,虽然并不完善,但从中可以体会“智能搜索代理”的一系列崭新理念,是未来智能搜索引擎和搜索服务的雏形。
【3】(六)语种多样化随着网络信息资源的全球化,作为网络检索工具的搜索引擎也要顺应这一潮流。
搜索引擎为了扩大影响,改变了网上文字信息为英文所垄断的局面,相继增加了多语种的检索。
例如,C,oo0e的服务器能自动识别该电脑所属国别,并用该国文字进行显示,便于非英语国家的用户使用。
多语种检索的使用消除了语言障碍,使得世界上非英语语种的用户能自由畅游在网络世界里。
3.智能搜索发展的几点建议搜索引擎作为一种网上信息资源组织与检索的工具,其功能还不完善,尤其是中文引擎,与国外相比,还有很大差距。
那么,如何发展中文搜索引擎成为一个很有研究价值的问题。
(一)优化独立搜索引擎1.智能化国外智能化搜索引擎已取得了很大进展,并已投入了使用中文搜索引擎由于自然语言理解的复杂性,往往比较弱智,不能很好地把握用户的真实意图,只会在现成的数据库中查找相匹配的记录,智能化研究仍处于试验室研究阶段,因此要大力加强这方面的研究与应用。
智能化搜索引擎建立在对收录信息和搜索请求的理解之上,能够处理语义信息。
这包括两方面的技术:(1)模糊语义查询技术,当用户提交某一关键词后,系统还可以使用与关键词的义词、同义词等查询从而使查询更加准确。
例如。
我们要查找有关电脑方面的资料时,当我们输入“电脑”是,计算机应该同时查找近义词“计算机”的资料。
(2)精确语义查询技术,查询结果应该是确切的查询关键词,而不是词的拼凑。
【4】¨例如,当你查询“中国”时,就不应该把含“国中国”的信息也查询出来。
与此同时,技术的应用使查询结构化,从而提高查询的准确度,例如,我们想查询“做红烧肉的菜谱”时,传统的引擎返回的可能是一堆既含有“红烧肉’,又含有“菜谱”这两个单词的网页。
而在智能化引擎中查询。
返回的应该是“做红烧肉的菜谱”的资料。
2.专业化目前国内的中文搜索引擎站点多属于综合型的,检索信息企图涉及人类生活的各个方面,在求全的驱动下忽视了信息的深度挖掘,而专门对某一专业领域的信息进行检索的专业搜索引擎则很少。
专业搜索引擎在索引数据库以及专业知识库的构建时要比综合性搜索引擎容易得多,并且能够进行一定程度的信息挖掘,满足专业用户的信息检索需要。
我们应该加强这方面的研制工作。
3.发展多媒体信息检索随着多媒体技术的发展,集文本、图形、图像、声频、视频于一体成为网络信息的一个重要特征,搜索引擎对于图形、图像、视频以及声频的检索还处于起步阶段。
目前基于内容的检索是计算机领域中的一个研究热点。
基于内容的图像检索指除了利用传统的数据库对图像描述的文字信息进行存贮管理外,还利用图像的颜色、纹理、形状等特征进行检索,融合了传统的模式识别技术与多媒体良好的人机交互技术。
基于内容的音乐检索则是能对音乐旋律进行检索,检索时首先从用户那里得到一段旋律的简谱输入,然后在音乐数据库里去查找包含输入内容或和输入内容近似的音乐旋律,并通过网络下载音频数据试听。
这两种技术在中文搜索引擎中还没有得到应用。
应当将多媒体技术充分应用到搜索引擎中,使检索结果全面化、多样化。
(二)完善元搜索引擎与引擎之引擎元搜索引擎是一种基于搜索引擎的搜索引擎。
它与独立式搜索引擎不同,它没有自身的数据库,而是将用户的检索请求转换处理后,提交给多个预先选定的独立搜索引擎。
并将所有查询结果以统一格式呈现,弥补了独立搜索引擎搜索不全的缺点,提高了检索的全面性。
目前,中文元搜索引擎数目很少,而且还有诸多缺陷,需要进一步改进。
引擎之引擎则与元搜索引擎不同‘,它的目的不是检取最终信息,而是检索可利用的工具信息,其作用相当于传统的目录之目录。
它对搜索引擎站点进行分类管理,并对所收录的各家搜索引擎站点的覆盖范围、更新频率、检索效率等进行评价,给用户选择利用合适的搜索引擎工具提供了有价值的参考。
在中文搜索引擎领域中,元搜索引擎与引擎之引擎尚不成熟,在开发利用上有待加强。
我们应该充分利用现有资源,促进各个搜索引擎服务提供商之间的合作,从而带动元搜索引擎和引擎之引擎的发展,来弥补独立搜索引擎搜索不全的缺点,提高检索的全面性。
参考文献:[1] Brands s.Unvracesb]e Of-line Cash in Wallets with Ohservem [cAdvanced in Cryptalogy-Crypto'93.Santa Bari~'a.Californla:SpringerVerlag 1993:302~318 [2]张检恭,陈定权,昊振新.关于搜索引擎与元搜索引擎的讨论[J].现代图书情报技术,2002,(2).[3]唐铭杰.论搜索引擎的发展概况和发展趋势[J].情报杂志,2001,(5).[4]程红莉.搜索引擎对网络信息资源的文献控制方法研究[J].情报科学,2002,(3)__。