元搜索引擎的现状与发展摘要:论文简要介绍了元搜索引擎的相关知识,提出了元搜索引擎系统的发展设想和发展空间。
任何搜索引擎的设计,均有其特定的数据库索引范围、独特的功能和使用方法,以及预期的用户群指向。
一种搜索引擎不可能满足所有人或一个人所有的检索需求。
集成搜索引擎和元搜索引擎尽可能地减少和优化了检索操作,实现了“一次检索输入,多引擎同时搜索”。
由于其在搜索引擎中的不同特点和自身具有的优点,在以后的搜索引擎道路上必然会有很大的发展空间。
关键字:Internet搜索搜索引擎元搜索引擎信息检索技术发展前景一.引言在互联网发展初期,网站相对较少,网页数量亦较少,因而信息查找比较容易。
随着Internet的飞速发展,人们越来越依靠网络来查找他们所需要的信息,然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,以至于迷失在信息的海洋中不知所措,出现了我们所说的"信息丰富,知识贫乏"的奇怪现象。
搜索引擎正是为了解决这个"迷航"问题而出现的技术。
搜索引擎(Search Engine简称SE)以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。
现在,网上的搜索引擎有很多,比较著名的有Google,Yahoo,AltaVista,Dogpile,百度等。
按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:目录式搜索引擎,以Yahoo为代表(最近改为使用全文搜索技术);全文搜索引擎,以Google为代表;元搜索引擎,以Dogpile为代表。
一个单一搜索引擎的网络覆盖率最多只能覆盖到整Internet资源的30-50%[3],因而查全率便无法保障;再加上任何搜索引擎的设计,均有其特定的数据库索引范围、独特的功能和使用方法,以查准率亦无法保证;因此,要想获得一个比较全面、准确的结果,就必须反复调用多个搜索引擎,并对返回结果进行比较、筛选和相互印证。
二.元搜索引擎概述各个搜索引擎的用户接口是异构的,有其特定且复杂的界面和查询语法,这给用户同时使用多个系统带来了不便.一些研究人员针对这种状况而开发了元搜索引擎,其中比较著名的有MetaCrawler,SavvySearch5等.元搜索引擎首先对用户的查询请求进行预处理,分别转换为若干个底层搜索引擎能处理的格式,并将其发送给各个搜索引擎.例如,MetaCrawler同时检Yahoo,LookSmart,AltaVista等九个主要的搜索引擎.在各个搜索引擎返回检索结果后,元搜索引擎进行组合,并向用户返回最终的检索结果[Selberg95].由于元搜索引擎建立在搜索引擎的基础之上,因此对于设计人员而言,不需要建立和维护庞大的索引数据库,也不需要使用复杂的检索机制;对于用户而言,元搜索引擎提供了一个能够同时查询多个搜索引擎的集成界面,将各个搜索引擎的位置,接口等细节屏蔽了起来,同时也有可能获得更好的检索效果.元搜索引擎便应运而生。
2.1 定义元搜索引擎(Meta Search Engine 简称MSE),元搜索引擎,也叫集搜索引擎,是指在统一的的用户查询界面与信息反馈的形式下,共享多个搜索引擎的资源库为用户提供信息服务的系统。
元搜索引擎是对搜索引擎进行搜索的搜索引擎。
元搜索与一般搜索引擎的最大不同在于它可以没有自己的资源库和机器人,它充当一个中间代理的角色,接受用户的查询请求,将请求翻译成相应搜索引擎的查询语法。
在向各个搜索引擎发送查询请求并获得反馈之后,首先进行综合相关度排序,然后将整理抽取之后的查询结果返回给用户。
元搜索引擎查全率高、搜索范围更多更大,查准率也并不低。
2.2 元搜索引擎的系统结构元搜索引擎包括Web服务器、结果数据库、检索式处理、Web处理接口、结果生成等几个部分,其中用户通过Web服务器访问元搜索引擎,而元搜索引擎则通过Web处理接口访问其它外部的搜索引擎。
其系统结构如图1所示。
用户通过WWW服务访问元搜索引擎,向Web服务器提交检索式。
当Web服务器收到查询请求时,先访问结果数据库,查看近期是否有相同的检索,如果有则直接返回保存的结果,完成查询;如果没有相同的检索,就分析检索式并转化成与所要查找各搜索引擎相应的检索式格式,然后送至Web处理接口模块。
Web处理接口通过并行的方式同时查询多个搜索引擎,把所有的结果集中到一起。
根据各搜索引擎的重要性,以及所得结果的相关度,对结果进行抽取并排序,生成最终结果返回给用户。
同时,把结果存到自己的数据库里,以备下次查询参考使用。
元数据整合方式是目前应用较多的跨平台系统。
元搜索引擎主要运用于网页信息搜索,而现有各种电子资源数据库都提供相应的客户端接口,因此可利用元搜索引擎的原理对各个异构数据库进行统一检索。
元搜索引擎是通过对多个全文数据库按一定标准(如DC)进行标引后,组成一个元数据集,通常用数据库方式储存。
通过一个发布系统(WEB服务器)与客户端进行交互。
元搜索引擎是一种集合其他搜索引擎的搜索结果为一体,方便用户同时参考多个搜索引擎提供的搜索结果的搜索引擎。
元搜索引擎的这种网络搜索方式侧重于过滤冗余无关的搜索结果,从而试图将最相关的搜索结果展示给搜索用户。
但是另一方面,根据搜索请求关键词的普遍度,也可能给用户造成被上百万搜索结果页面淹没的后果。
2.3 元搜索引擎的特点元搜索引擎区别于独立搜索引擎,主要有这样一些特征:①不用设立庞大网页数据库,节省存储设备②提供了统一的外界模式,将一次查询提交到多个独立搜索引擎③基于独立搜索引擎结果的二次加工④标明结果记录的来源搜索引擎及其局部相关度,提供了全局相关度。
三.元搜索引擎发展趋势目前,元搜索引擎的研究、开发十分活跃。
它要用到了信息检索、人工智能、数据库、数据挖掘、自然语言理解等领域的理论和技术,具有综合性和挑战性。
又由于搜索引擎有大量的用户,由此衍射出许多商机,具有很好的经济价值,据估计现在已有几十亿美元的全球市场,所以引起了世界各国计算机科学界、信息产业界和商界的高度关注,已投入了不少的人力、物力,也取得了不俗的成绩。
一个理想的元搜索引擎应该具备以下功能要求:①涵盖较多的搜索资源,可随意选择和调用独立搜索引擎,还可根据一定调度策略进行自动调度。
②具备尽可能多的可选择功能,如资源类型(网站、网页、新闻、软件、FTP、MP3、Flash、图像、影视等)选择、等待时间控制、返回结果数量控制、结果时段选择、过滤功能选择、结果显示方式选择等。
③强大的检索请求处理功能(如支持逻辑匹配检索、短语检索、自然语言检索等)和不同搜索引擎间检索语法规则、字符的转换功能(如对不支持"NEAR"算符的搜索引擎,可自动实现由"NEAR"向"AND"算符的转换等)。
④详尽全面的检索结果信息描述(如网页名称、URL、文摘、源搜索引擎、结果与用户检索需求的相关度等)。
⑤支持多种语言检索,比如提供中英文搜索等。
⑥可对结果进行自动分类,如按照域名、国别、资源类型、区域等进行分类整理。
⑦可以针对不同用户提供个性化服务。
目前Internet上面有很多元搜索引擎,良莠不齐。
在功能实现上,各有侧重点,能做到"理想"的尚不多见。
一些元搜索引擎在某些方面做得很好,但是在其他功能上却存在着缺陷或尚需改进:如大多数的元搜索引擎不支持自然语言检索,不支持中文检索等。
元搜索引擎的功能受着源搜索引擎和元搜索技术的双重制约:一方面,源搜索引擎的各具特色的强大功能在元搜索引擎中受到限制而不能充分体现,而另一方面,任何一种元搜索技术都不能发掘和利用独立搜索引擎的全部功能。
随着新技术的不断涌现,会使元搜索引擎做得更好,取得更好的用户满意度,这些技术有:1.提高搜索引擎对用户检索提问的智能理解,体现为对自然语言查询请求的支持。
2.确定搜索引擎信息搜集范围,提高搜索引擎的针对性,体现为主题搜索,多媒体搜索。
3.基于智能代理的信息过滤和个性化服务。
4.重视交叉语言检索的研究和开发[9],提供多语言检索的支持,提供本土化的搜索服务。
5.提高信息查询结果的精度,提高检索的有效性。
具体站点分析:是最近发布的一家元搜索引擎,他的主要特点在于集合了包括Google, Altavista , LookSmart , Fast, Overture, Inktomi, ASK Jeeves andYahoo在内的多达14家知名搜索引擎的搜索结果于一体,提供一站式搜索服务,包括网络搜索、新闻搜索、比较购物搜索,产品搜索、图片搜索等等。
Info的搜索功能更加强调的产品的搜索并促进用户购买。
这一理念主要受到合作伙伴在线购物门户的影响和推动,双方的合作促使用户获得广泛的产品购买信息。
图片搜索和白页及黄页搜索也是元搜索引擎的特色。
用户还可以进行新闻搜索,新闻搜索结果由提供。
同时,为了进一步加强作为用户的信息提供者的形象, 计划引入ebay聚合内容,以及关于班机信息搜索、健康问题搜索等。
由于侧重于消费者的使用体验,因此该元搜索引擎对于那些以调查研究为目的的所所用户来说就非常适合。
一方面侧重于调研的搜索请求产生的搜索结果将更加相关,但是返回结果并不彻底。
而将各个搜索引擎的结果集合起来就不失为一种简便方法,省却了逐页寻找信息的繁琐。
另外在搜索结果页面通常不会给出返回搜索结果的数量。
六.总结一款理想的元搜索引擎应该具备以下特点和功能:第一,含盖较多的搜索资源,可随意选择和调用源搜索引擎;其次,具备尽可能多的可选择功能,如资源类型(网站、网页、新闻、软件、FTP、MP3、图像等)选择、返回结果数量控制、结果时段选择、过滤功能选择等;第三,强大的检索请求处理功能(如支持逻辑匹配检索、短语检索、自然语言检索等)和不同搜索引擎间检索语法规则、字符的转换功能(如对不支持“NEAR”算符的搜索引擎,可自动实现由“NEAR”向“AND”算符的转换等);第四,详尽全面的检索结果信息描述(如网页名称、URL、文摘、源搜索引擎、结果与用户检索需求的相关度等);第五,支持多种语言检索。
目前运营的元搜索引擎各具特色,功能各有侧重,完全“理想”的尚不多见。
一些元搜索引擎在某些方面较为优秀,而其它功能则欠缺或需改进:如大多元搜索引擎不支持多语种,尤其是汉语检索;一些元搜索引擎实现检索语法转换的能力有限,不支持指定字段检索,不能充分发挥各个独立搜索引擎的高级检索功能;部分元搜索引擎无源搜索引擎列表,用户不能自主选择和调用源搜索引擎;在检索结果上,元搜索引擎只能返回十几、数十条“相关度”较高的结果,大量可能有价值的源搜索引擎的检索结果被忽视,影响检索结果的全面性。