当前位置:文档之家› 搜索引擎概述及技术基础

搜索引擎概述及技术基础

主C讲om: pany Logo
www搜.t索he引me擎ga概lle述
搜索引擎的分类
目录索引搜索引擎
目录索引搜索引擎(search index/directory)主要以人工方式搜集 信息,由编辑人员查看信息之后,人工形成信息摘要,并将信息置于事 先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检 索服务。用户完全可以不用关键词进行查询,搜索时可直接点击需要查 询的信息的种类,仅靠分类目录也可找到需要的信息。
搜索引擎概述及技术基础
学习内容及学习目标
网络新闻采访的基本方法
学习内容
搜索引擎概述 搜索技术基础 搜索策略及技巧
学习目标
理解:搜索引擎的组成、工作原理、性能指标以及技术基础 了解:搜索引擎的发展历史、类别以及发展趋势。
主讲:
搜索引擎概述及技术基础
搜索引擎概述 搜索技术基础
主讲:
搜索引擎概述
伴随着互联网和超文本链接的应用,现代意义上的搜索引擎应运而生。 搜索引擎的出现,使人们能够便利地从互联网上获取自己需要的内容。目前, 搜索引擎已经成了互联网信息检索的主要工具,被称为“网络之门”。
搜索引擎的分类
全文搜索引擎
全文搜索引擎(full text search engine)是由一个称为蜘蛛(Spider) 的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器 为搜集到的信息建立网页索引数据库,由检索器根据用户输入的查询条 件检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文 检索服务。
收录范围
搜索引擎的性能指标
收录范围是指搜索引擎所查找的范围。造成搜索引擎覆盖面差距的 原因是多方面的,如网络带宽、磁盘容量、计算能力等。当然,搜索引 擎收录范围的大小仍然是衡量其功能的一个重要指标。
主C讲om: pany Logo
www搜.t索he引me擎ga概lle述
死链接
搜索引擎的性能指标
主讲:
网络新闻采访的基本方法
搜索引擎概述 搜索技术基础
主讲:
搜索技术基础
搜索引擎的工作原理
搜索引擎的工作原理可以简单表示为: 从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。
主讲:
搜索引擎的工作原理
搜索技术基础
在互联网上抓取网页
搜索引擎的数据采集包括人工采集和自动采集两种方式: 人工采集是指由专门的信息人员跟踪和选取有用的WWW站点或页面 自动采集是通过自动采集器(如网络机器人Robots、 网络蜘蛛Web Spider、爬行者Crawler 等)的软件自动跟踪并循环检索网页信息。两种方 法各有利弊。
用户负担
搜索引擎的性能指标
用户负担是指用户在检索过程中付出精力的总和,任何妨碍和延迟 用户到达最终搜索结果的形式都属于用户负担的范畴。包括搜索界面的 简洁、搜索结果描述、搜索结果描述显示。
主C讲om: pany Logo
www搜.t索he引me擎ga概lle述
搜索引擎的性能指标
其他评价标准还有:是否支持本目录下搜索,索引数据库更新时间 长短,搜索引擎的稳定性,对高级搜索的支持能力强弱等。
元搜索引擎在统一的用户查询界面与信息反馈的形式下,共享多个 搜索引擎的资源库为用户提供信息服务。元搜索引擎借助于其他搜索引 擎进行工作,将用户的本义请示同时向多个搜索引擎递交,将返回的结 果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。
主C讲om: pany Logo
搜索引擎概述
搜索引擎的性能指标
主C讲om: pany Logo
www搜.t索he引me擎ga概lle述
检索速度
搜索引擎的性能指标
检索速度或者说响应时间是提高工作效率的保障,指的是从提交检 索命令到查出资料结果所需的时间。最基本的检索速度是应该达到“千 万汉字,秒级响应”。
主C讲om: pany Logo
www搜.t索he引me擎ga概lle述
使用这类搜索引擎时,检索者只要在检索口输入关键字,点击“搜 索”即可查询。
优点:节省了大量时间,获取的信息全面;缺点:信息精确性差、 相关性不高。
这种类型的搜索引擎国外比较著名的如英文Google、AltaVista、 Lycos、Infoseek、Excite、搜索引擎的索引网页量一般都在数百万量级左右,采用全文
检索技术和分布式并行运算技术,但极少重新搜集网页并去刷新索引, 而且它的检索速度较慢,一般都要等待10秒甚至更长的时间,同时承受 的检索请求也受到很大限制,商业模式处于探索期并且尚未成型。
主C讲om: pany Logo
www搜.t索he引me擎ga概lle述
搜索引擎的出现
搜索引擎追根溯源可以到最早的信息检索。 信息检索(Information Retrieval)最早是由美国学者在1949年提出,主要 以印刷文献为检索对象进行手工检索。随着1946年世界上第一台计算机的问世, 计算机化的信息检索逐渐取代了手工检索的主流地位。上个世纪70年代,联机 信息检索得到商业化应用而日渐流行,从此信息检索用户开始由专业人员向个 人用户转移。 现代意义上的搜索引擎是在1989年World Wide Web协议和超文本链接出 现后产生的。1991年,XWAIS提供了一个界面友好的信息搜索系统,但是这个 系统要求很特殊的文件格式。同年出现了另外一个美国明尼苏达大学信息检索 系统Gopher,成为当时最为流行的检索工具。1993年,美国国家超级计算应用 中心NCSA推出第一个基于HTML语言图形化的浏览器Mosaic,借此普通的用户 可以轻松地使用互联网。 此后,搜索引擎有了非常大的发展。按照网页库的容量、相关度计算技术、 用户搜索体验以及商业模式等方面来划分,到目前为止,搜索引擎技术的发展 大约经历了两代。
主C讲om: pany Logo
www搜.t索he引me擎ga概lle述
查准率
搜索引擎的性能指标
查准率是系统在进行某一检索时,检索出的有用资料数量与检索出 资料总量的比率,即搜索得到的信息与用户所要求的信息相关性的程度。 查准率比较易于度量。对于所获取的文档集合,只要判断每一篇文档是 否和给定查询相关就可以了,其计算是比较直接的。为提高搜索的准确 度,大多数的英文搜索引擎都支持逻辑查询。用户可以用多个单词,加 上适当的逻辑字符来缩小搜索范围膨胀,在各搜索引擎之间出现了分 工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。它本身 可能并不是直接面向用户的搜索引擎,但向其他搜索引擎提供全文网页 搜索服务。从这个意义上来说,它们是搜索引擎的搜索引擎。
主C讲om: pany Logo
www搜.t索he引me擎ga概lle述
多媒体化:多媒体搜索引擎是随着宽带技术而发展。未来的互联网是多 媒体数据的时代,开发出可查寻图像、声音、图片和电影的搜索引擎是未来 一个新的方向。
个性化:个性化搜索是要及时更新资料,实现千人千面的效果。水平搜 索引擎、垂直搜索引擎。 检索知识化:检索知识化是指检索结果以知识为单元的高层次信息检索。
普通搜索引擎总有些搜索结果是点不进去的,少到1 %~2 % ,多 到8 %~9 % ,这也常被用作评测条件之一。有的搜索引擎使用了网页 快照功能解决死链接问题,就算搜索结果中的那个网站已关闭,用户还 是可以看到搜索引擎自己储存的网页。
主C讲om: pany Logo
www搜.t索he引me擎ga概lle述
库中相关资料总量的比率。查全率的计算相对困难一些,因为这意味着 对于给定查询,必须计算整个文档集合中相关文档的数目。当文档集合 过大时,这种计算是不可行的。对于搜索引擎系统来讲,因为没有一个 搜索引擎系统能够搜集到所有的Web网页,所以查全率很难计算。目前, 查全率的概念在逐渐弱化,这是互联网信息资源在量上激增所致。
主讲:
搜索技术基础
搜索引擎的工作原理
在索引数据库中搜索排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合 关键词的所有相关网页。因为所有相关网页针对该关键词的相关度在索引数 据库中早已算好,所以只需要按照现成的相关度数值排序,相关度越高,排 名越靠前。最后,由页面生成系统将结果的链接地址和页面内容摘要等内容 组织起来反馈给用户。
主C讲om: pany Logo
www搜.t索he引me擎ga概lle述
搜索引擎的分类
元搜索引擎
元搜索引擎(a meta search engine roundup)是一种调用其他独立 搜索引擎的引擎,亦称搜索引擎之母。“元”(meta)为“总的”、 “超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控 制和优化利用。这些独立的搜索引擎称为“源搜索引擎”或“搜索资 源”,整合、调用、控制和优化利用源搜索引擎的技术称为“元搜索技 术”。元搜索技术是元搜索引擎的核心。
优点:链接站点经人工筛选,排误率较高;缺点:人工搜集效率较 低,网站管理人员需耗费大量的精力去搜集相关网络文献,而且很难彻 底地搜集到相关信息,从而影响到搜集资料的全面性。
这类搜索引擎国外著名的门户网站有yahoo、万维网虚拟图书馆、 msn、cnn,国内著名的门户网站有中文雅虎、新浪、搜狐、网易等。
搜索引擎从一个默默无闻的网络工具在10多年内迅速窜升成为互联网上 仅次于电子邮件的第二大应用,直接诱因是互联网内容的爆炸式增长。时至 今日,搜索引擎依然跟不上互联网信息资源的增长速度,它依然是学术界、 工业界争相研究、开发的对象。
主讲:
www搜.t索he引me擎ga概lle述
搜索引擎的发展历史
主C讲om: pany Logo
www搜.t索he引me擎ga概lle述
搜索引擎的发展历史
第一代搜索引擎(1994年至1997年)
1994年,美国网景公司推出支持HTML的浏览器Netscape,这使得 HTML格式的信息在网络上迅速膨胀,从而迎来了搜索引擎的真正发展。 这年春天,创建了真正意义上的互联网搜索引擎LYCOS。同年,Yahoo 公司创立,它提供基于目录的信息检索服务,开辟了搜索引擎的一个新 时代。
相关主题