搜索引擎的发展现状与趋势研究
全球最大的网络调查公司CyberAtlas最近的一项调查表明,网站75%的访
问量都来自于搜索引擎。
另一家美国权威顾问公司IMT Strategies调查发现,新网站的有效途径中:搜索引擎占85%;自由冲浪占6%;口碑宣传占4%;BANNER广告2%;偶然发现、报纸、电视各占1%。
由此可见,搜索引擎作为网站推广的首选媒介,有着不可忽视作用。
一、搜索引擎的背景及意义
1990年以前,没有任何人能搜索互联网。
1990年诞生的Archie是一个可
以用文件名自动索引互联网上匿名FTP网站文件的程序,它实现了搜索,但还
不是真正的搜索引擎。
现代意义上的搜索引擎出现于1994年7月,当时
Michael Mauldin将JohnLeavitt的蜘蛛程序接入到其索引程序中,创建了大
家现在熟知的Lycosa。
1995年末,Altavista永远改变了搜索引擎的定义,AItavista是第一个支持自然语言搜索的搜索引擎,也是第一个实现高级搜索
语法的搜索引擎。
1998年,Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的
定义。
现阶段,出现Ask Jeeves,,,MySimon,Dito等内容类别不同的搜索引擎。
从出现第一个搜索引擎至今,搜索引擎技术已获得了飞速
的发展,现在的搜索引擎功能越来越强大,提供的服务也越来越全面,它们的
目标不仅仅是提供单纯的查询功能,而是把自己发展成为用户首选的Internet
入口站点。
目前的搜索引擎主要有以下几个主要特点:
1.多样化和个性化的服务。
现在绝大多数搜索
引擎都提供多样化的服务,以吸引更多的用户,商业搜索引擎尤其注重这
一点。
2.强大的查询功能与最早的搜索引擎相比,现在的搜索引擎在查询功能
方面已有了很大的改进。
除了简单的AND、OR和NOT逻辑外,不少搜索引擎还
支持相似查询。
3.目录和基于Robot的搜索引擎相互结合目录和基于Robot的
搜索引擎都具有自己的特点,在当前的技术条件下,最好的选择是将两种技术进行结合,同时为用户提供这两种类型的服务。
二、搜索引擎的工作原理
根据搜索引擎基本结构,其基本工作原理是:数据采集机制按照一定规律和方式对网络上的各种信息资源进行搜索,并将搜索到的页面信息存入到一个临时数据库中;数据分类索引机制对临时数据库中的页面信息进行索引,经过整理形成各种倒排文档,相应地建立起索引数据库;用户查询接口则提供友好的查询界面,接受用户提交的查询任务,并根据要求访问相应的索引数据库,将符合要求的结果按一定规则排序输出。
三、搜索引擎的分类
(一)按照数据采集、分类索引的方法和服务提供方式的不同分类。
1.基于目录的搜索引擎:它的特点是所有分类、索引工作都由人工编辑完成。
2.基于Robot的搜索引擎:Robot有时也称为蜘蛛(Spider)、漫游者(Wanderer)、爬虫(Crawler)和蠕虫(Worm),是一种能够利用Web文档内的超链接递归地访问新文档的软件程序。
3.Meta搜索引擎:即元搜索引擎、也叫做Multiple SearchEngine。
(二)按照搜索引擎的检索内容、服务对象的不同分类
1.综合性搜索引擎:面向所有潜在的用户而设计,数据库容量非常大,收集了各方面、各学科、各行业数以千万、甚至以亿计算的网页内容。
2.专业性搜索引擎:它是为了专门收录某一行业、某一主题和某一领域的信息而建立,这种搜索引擎专注于自己的特长和核心技术,保证了对该领域信息的完全收录与及时更新。
(三)按照检索方式的不同分类
1.全文检索搜索引擎:全文检索搜索引擎索引网站的全部页面,能够对网站的每篇文章的每个词进行搜索。
2.目录式分类搜索引擎:目录式搜索引擎并
不索引网站上的全部信息,而是首先把该网站划归某个类目,再记录网站的概述性介绍。
(四)按照搜索引擎检索资源的类型分类
1.万维网搜索引擎:万维网搜索引擎主要检索万维网上的信息资源,一般的搜索引擎都是万维网搜索引擎。
2.非万维网搜索引擎:非万维网搜索引擎主要是对Internet上万维网之外的信息资源进行检索。
四、搜索引擎优化(SEO)方法和排名技巧
搜索引擎优化(SEO)在国外早已受到许多线上交易网站的重视,有很多该类型的企业从事SEO工作,已经形成一个相对成熟的行业。
现在,搜索引擎优化在国内也得到了很大的发展。
下面是一些优化方法和排名技巧:
(一)网站的扁平化规划
网站的扁平化规划很适用于非大型门户网站。
(二)网站的静态化设计
搜索引擎的蜘蛛就特别喜欢静态化的网站。
(三)标题的关键词优化
标题(Page Title)包含关键词,标题关键词不必过渡。
(四)标签设计的贴切化
贴切着相关的关键词进行标签设计,添加描述性metadescription标签、metakeywords关键词。
(五)图片的关键词优化
图片的替代关键词也很重要,而且,当图片不能显示的时候,可以给访问
者一个替代解释语句。
(六)网站导航的清晰化
网站导航要易于搜索引擎的爬行程序进行索引收录,制作清楚有效的网站
地图。
(七)引出链接的人气化
创建有人气化的、有意义的引出链接,提高链接广泛度(Link Popularity)。
据研究,如果一个网站的PageRank达到4-6的话,说明这个网站已经获得了不错的访问量;如果到了7以上,说明无论从网站的质量还是知名度上看都非常
优秀了。
(八)关键词密度适度化
控制关键词密度(KeywordDensity),坚决杜绝大量堆砌关键词的行为。
一
般说来,2%-8%就比较好了。
(九)页面容量的合理化
不要让页面容量过大,合理的页面容量会提升网页的显示速度,增加对搜
索引擎蜘蛛程序的友好度。
五、搜索引擎的趋势展望
搜索引擎已成为一个新的研究、开发领域。
因为它要用到信息检索、人工
智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言
处理等多领域的理论和技术,所以具有综合性和挑战性。
另外搜索引擎有大量
的用户及很好的经济价值,因此引起了世界各国计算机科学和信息产业界的高
度关注。
(一)提高信息查询结果的精度、提高检索的有效性
用户在搜索引擎上进行信息查询时,并不希望返回结果过多,而是看结果是否符合自己的需求。
对于一个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中筛选。
解决查询结果过多的现象目前有以下几种方法:1.通过各种方法获得用户没有在查询语句中表达出来的真正用途,包括使用智能代理跟踪用户检索行为,分析用户模型,使用相关度反馈机制,使用户告诉哪些搜索引擎文档和自己的需求相关,哪些不相关,通过多次交互逐步求精。
2.用正文分类(TextCategorization)技术将结果分类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。
3.进行站点类聚或内容类聚,减少信息的总量。
(二)基于智能代理的信息过滤和个性化服务
信息智能代理是另外一种利用互联网信息的机制。
它使用自动获得的领域模型、用户模型知识进行信息搜集、索引、过滤,并自动地将用户感兴趣的、对用户有用的信息提交给用户。
智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,从而提供个性化的服务。
(三)采用分布式体系结构提高系统规模和性能
搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有千秋。
但当系统规模到达一定程度时,必然要采用某种分布式方法,以提高系统性能。
搜索引擎的各个组成部分,除了用户接口之外,都可以进行分布:搜索器可以在多台机器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度;索引器可以将索引分布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的机器上进行文档的并行检索,以提高检索的速度和性能。
(四)重视交叉语言检索的研究和开发
交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据库中进行信息检索,返回能够回答用户问题的所有语言的文档。
如果再加上机器翻译,返回结果可以用母语显示。
该技术目前还处于初步研究阶段,主要的困难在于语言之间在表达方式和语义对应上的不确定性。
但对于经济全球化、互联网跨越国界的今天,无疑具有很重要的意义。
近年来,网络发展迅猛,如
何提供对网上信息的高效、智能的检索机制已经成为计算机网络领域内的一个研究热点。
搜索引擎是一个集多种学科技术于一体的综合技术,在搜索引擎的技术上还有许多方面需要进一步探索和研究
"七"乐无穷,尽在新浪新版博客,快来体验啊~请点击进入~。