摘要搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。
当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。
在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列,方便用户查找。
如何更加快捷、准确地查找到用户所需的网络信息资源,是各大搜索引擎服务提供商和计算机网络研究人员的研究热点。
作为计算机专业的学生,搜索引擎技术对我们有很大的诱惑力,了解搜索引擎的发展现状、原理和技术手段,从算法的角度来认识搜索引擎,是我们必须掌握的知识之一。
文章概述了搜索引擎的出现与发展,原理与技术。
关键词:搜索引擎、基本原理、搜索算法、技术目录1绪论 (3)1.1 搜索引擎的出现与发展 (3)1.1.1 搜索引擎的出现 (3)1.1.2 搜索引擎的发展 (4)2 搜索引擎的原理与技术 (5)2.1 分类目录检索 (5)2.1.1 主题分类法 (6)2.1.2 学科分类法 (6)2.1.3 分面组配分类法 (6)2.1.4 图书分类法 (6)2.2 关键词检索 (6)2.2.1 从互联网上抓取网页 (8)2.2.2 建立索引数据库 (8)2.2.3 在数据库中搜索 (8)2.2.4 对搜索工作进行处理排序 (8)结论 (9)参考文献 (10)1.绪论近几年,随着网络的不断发展和壮大,搜索引擎越来越成为人们生活中重要的一部分,找资料、查地图、听音乐,只有想不到的,没有搜索不到的。
中国十年多来互联网的不断发展,造就出1.3亿的网民,搜索引擎也出现空前的火热。
在互联网出现的初期,雅虎、新浪、网易等大型门户网站拥有着绝对多的浏览量,原因在于当初的大部分网站在技术上无法与门户网站相媲美,多数质量较差,内容不丰富,所以大型门户网站优秀的网页设计风格,大量的信息及时更新赢得了用户的认可,创造了第一次互联网的高峰。
然而随之近年来网络技术的普及与应用,建立一个专业的网站已经不存在太多的技术门槛。
于是看好互联网前景的网站纷纷涌现在我们的面前。
相对比而言在某些领域中,大型门户网站的页面风格反而不如一些中小型网站的界面漂亮,同时各种分类的行业网站也慢慢的兴起,使得搜索引擎越来越成为人们生活中必不可少的实用工具。
搜索引擎的出现,整合了众多网站信息,恰恰起到了信息导航的作用。
通用搜索引擎就如同互联网第一次出现的门户网站一样,大量的信息整合导航,极快的查询,将所有网站上的信息整理在一个平台上供网民使用,于是信息的价值第一次普遍的被众多商家认可,迅速成为互联网中最有价值的领域。
互联网的低谷由此演变为第二次高峰。
大家熟知的搜索引擎Google、百度、雅虎等是通用搜索引擎现如今的杰出代,他们为互联网的发展做出了重要的贡献。
然而,搜索引擎行业也不是一家公司就可以独撑天下的,从百度的上市、yahoo中国的并购一系列动作表明,如今的搜索引擎大战如同门户网站初期的竞争一样激烈。
相信,通用搜索引擎在经历过一段时间的角逐后,也将会继续维持几大服务商各自分控一部分市场的局面。
总而言之搜索引擎改变了人们的生活给人们的生活工作学习带来了巨大的帮助。
1.1搜索引擎的出现与发展1.1.1搜索引擎的出现搜索引擎从1990年原型初显,到现在成为人们生活中必不可少的一部分,它经历了太多技术和观念的变革。
出现之前,互联网上就已经存在许多旨在让人们共享的信息资源了。
这些资源当时主要存在于各种允许匿名访问的FTP 站点。
为了便于人们在分散的FTP 资源中找到所需的东西,1990年,加拿大麦吉尔大学(McGillUniversity)的几个大学生开发了一个软件Archie。
它是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载这个文件。
Archie实际上是一个大型的数据库,再加上与这个大型数据库相关联的一套检索方法。
Archie虽然还不是搜索引擎,但是从它的工作原理上看,它是所有搜索引擎的祖先。
当万维网(WorldWideWeb)出现后,人们可以通过 html传播网页信息,网络上的信息开始成倍增长。
人们纷纷使用各种方法将网络上的信息搜集来,进行分类、整理,以方便查找。
现在人们很熟悉的网站雅虎(Yahoo)就是在这个环境下诞生的。
还在Stanford大学读书的美籍华人杨致远和他的同学迷上了互联网。
他们将互联网上有趣的网页搜集过来,与同学一起分享。
后来,1994年4月,他们俩共同办了雅虎。
随着访问量和收录链接数的增长,雅虎目录开始支持简单的数据库搜索。
但是因为雅虎的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。
1.1.2 搜索引擎的发展当“蜘蛛”程序出现时,现代意义上的搜索引擎才初露端倪。
它实际上是一种电脑“机器人”(Computer Robot),电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。
由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬去,反反复复,不知疲倦。
所以,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。
这种程序实际是利用html文档之间的链接关系,在Web上一个网页一个网页的爬取(crawl),将这些网页抓到系统来进行分析,并放入数据库中。
第一个开发出“蜘蛛”程序的是Matthew Gray,他于1993年开发了World Wide Web Wanderer,它最初建立时是为了统计互联网上的服务器数量,到后来发展到能够捕获网址。
现代搜索引擎的思路就来源于Wanderer,后来很多人在此基础上对蜘蛛程序进行了改进。
1994年7月20日发布的Lycos网站第一个将“蜘蛛”程序接入到其索引程序中。
引入“蜘蛛”后给其带来的最大优势就在于其远胜于其它搜索引擎的数据量。
自此之后几乎所有占据主导地位的搜索引擎中,都靠“蜘蛛”来搜集网页信息。
Infoseek是另一个重要的搜索引擎,于1994年年底才与公众见面。
起初,Infoseek只是一个不起眼的搜索引擎,它沿袭Yahoo!和Lycos的概念,并没有什么独特的革新。
但是它友善的用户界面、大量附加服务使它在用户中赢得了口碑。
1995年12月,它与Netscape的战略性协议,使它成为一个强势搜索引擎:当用户点击Netscape浏览器上的搜索按钮时,弹出Infoseek的搜索服务,而此前由Yahoo!提供该服务。
1995年12月15日,Alta Vista正式上线。
它是第一个支持高级搜索语法的搜索引擎,成功地整合了此前人类所有的信息检索技术,解决了包括字根处理、关键词检索、布尔逻辑,以及通过向量空间模型的查询排名等关键问题。
正式公开之前,Alta Vista就已经拥有20万访问用户,在短短三个星期之内,到访人数由每天30万次增加到200万次。
它的成功在于满足了用户三个方面的需求:网上索引范围超过了此前任何一家搜索引擎;短短几秒钟内便可从庞大的数据库中为用户返回搜索结果;Alta Vista小组从一开始就采用了一种模块设计技术,能够跟踪网站的流行趋势,同时不断扩大处理能力。
在当时许多搜索引擎之中,Alta Vista脱颖而出,成为网络搜索的代名词。
Google就是站在这样的巨人的肩膀上颠覆并创造着。
“上网即搜索” 改变了人们上网方式的,就是现在鼎鼎大名的Google。
Google并不是搜索引擎的发明者,甚至有点落后,但是它却让人们爱上了搜索。
1998年9月,在佩奇和布林创建Google之时,业界对互联网搜索功能的理解是:某个关键词在一个文档中出现的频率越高,该文档在搜索结果中的排列位置就要越显著。
这就引出了这样一个问题,如果一个页面充斥着某一个关键字的话,那么它将排在很显著的位置,但这样一个页面对于用户来说,却没有任何意义。
佩奇和布林发明了“网页级别”(PageRank)技术,来排列搜索结果。
即考察该页面在网上被链接的频率和重要性来排列,互联网上指向这一页面的重要网站越多,该页面的位次也就越高。
当从网页A链接到网页B时,Google 就认为“网页A投了网页B一票”。
Google根据网页的得票数评定其重要性。
然而,除了考虑网页得票数的纯数量之外,Google还要分析投票的网页,“重要”的网页所投出的票就会有更高的权重,并且有助于提高其他网页的“重要性”。
Google以其复杂而全自动的搜索方法排除了任何人为因素对搜索结果的影响。
没人能花钱买到更高的网页级别,从而保证了网页排名的客观公正。
除此之外,动态摘要、网页快照、多文档格式支持、地图股票词典寻人等集成搜索也都深得网民的喜爱。
其他众多搜索引擎也都紧跟Google,推出这些服务。
Fast (Alltheweb)公司发布的搜索引擎AllTheWeb,总部位于挪威,其在海外的风头直逼Google。
Alltheweb的网页搜索支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。
而中国的百度更是凭借“更懂中文”而吸引着中国的网络受众,它拥有超过10亿的中文网页数据库,并且,这些网页的数量每天正以千万级的速度在增长。
搜索引擎就越来越成为人们生活中重要的一部分。
2. 搜索引擎的原理与技术搜索引擎的主要功能是信息组织和信息检索。
基于层次检索的分类目录检索和基于词语检索的关键词检索是搜索引擎的两种基本类型。
2.1 分类目录检索网络分类目录提供按类浏览查询方式。
分类搜索引擎工作原理: 由人工发现、抓取、辨别网上信息、依靠编目、标引人员的知识按照图书分类、学科分类或其他分类依据,建立主题树分层目录, 将采集、筛选后的信息分门别类。
分类搜索引擎采用网站登录/收录方式,依据主旨、用户对象及网络资源状况构建分类体系,把收集到的本地的网站页面进行人工编辑,层层类分,形成纵向隶属、横向关联的网站目录数据库。
用户依据类目体系及其规则分类检索,逐类浏览,直至获得所需资源。
用户在使用分类目录时,通过搜索引擎的分类目录,从顶层逐步向下查询子目录,网络资源目录所采用的分类法有主题分类法、学科分类法、图书分类法和分面组配分类法。
2.1.1主题分类法主题分类法把事物纳入相关的主题目录,与此事物相关的内容全部集中在主题目录下,便于用户的特性检索。
主题法一般设置多个一级主题类目,再下设次级目录,其层次多为4级在最后一级列出超文本的链接点,多数链接点伴有相应网页内容介绍。
这种分类法以事物为线,适应交叉主题的主题查找,但对网络资源的覆盖率有限。
2.1.2 学科分类法学科分类法以学科作为分类的标准,在一级类目下设立二级、三级类目。
这种分类法容量大,便于用户的族性检索。