当前位置:文档之家› 第1章 搜索引擎概述

第1章 搜索引擎概述

向量空间模型用检索项的向量空间来表示用户的
查询要求和数据库文档信息。查询结果是根据向 量空间的相似性而排列的
向量空间模型可方便地产生有效的查询结果,能
提供相关文档的文摘,并对查询结果进行分类, 为用户提供准确的信息
18/62
概率模型
基于贝叶斯概率论原理的概率模型利用相关反馈的 归纳学习方法,获取匹配函数,这是一种较复杂的 检索模型
的网页索引数据库
真正意义上的搜索引擎,通常指的是收集了Internet上几千万到几十亿个
网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全 文搜索引擎
当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页
都将作为搜索结果被搜出来
2/62
1.1.2 搜索引擎的原理
可以分为四步:(简答题)世 界上最大的中文搜索引擎
为中文用户度身定做
关键词自动提示:用户输入拼音,就能获得中文关 键词正确提示
27/62
1.6.4 北大天网搜索
北大天网搜索引擎简介
“天网资源检索系统”(即天网搜索)是中国教育 和科研计算机网示范工程应用系统课题之一,是国 家“九五”重点科技攻关项目“中文编码和分布式 中英文信息发现”的研究成果,由北京大学计算机 系网络研究室设计开发,并于1997年10月29日正式 在中国教育和科研网(CERnet)向广大Internet用 户提供Web信息导航服务

数据量
内容相关性 安全性 个性化和智能化
搜索引擎按其工作方式主要可分为三种:
全文搜索引擎(Full Text Search Engine)
目录索引搜索引擎(Search Index/Directory)
元搜索引擎(Meta Search Engine)
可能题型:填空,选择,判断,简答
对搜索结果进行处理和排序:所有相关网页针对该关键词
的相关信息在索引库中都有记录,只需综合相关信息和网页 级别形成相关度数值,然后进行排序,相关度越高,排名越 靠前。最后由页面生成系统将搜索结果的链接地址和页面内 容摘要等内容组织起来返回给用户
4/62
1.2 搜索引擎的历史与发展趋势
搜索引擎至今已经经历了三代发展阶段: 第一代搜索引擎出现于1994年,主要特征为集中式检索
1994年7月20日,数据量为54000的Lycos正式发布。除了相
关性排序外,Lycos还提供了前缀匹配和字符相近限制, Lycos第一个在搜索结果中使用了网页自动摘要
Infoseek(Steve Kirsch Announces Free Demos Of the
Infoseek Search Engine)是另一个重要的搜索引擎。 Infoseek沿袭Yahoo!和Lycos的概念,它具有友善的用户界 面和大量的附加服务,而使它成为一个强势搜索引擎
这种模型在查询结果处理中加入模糊逻辑运算,将
检索的数据库文档信息与用户的查询要求进行模糊 逻辑比较,按照相关的优先次序排列查询结果
模糊逻辑模型可以克服布尔型信息检索模型在查询
中其结果具有无序性的问题。例如,查询“搜索引 擎”,则出现关键词“搜索引擎”多的文档将排列 在较前的位置上
17/62
向量空间模型
7/62
1995年,第一个元搜索引擎Metacrawler出现。用户只
需提交一次搜索请求,由元搜索引擎负责转换处理后 提交给多个预先选定的独立搜索引擎,并将从各独立 搜索引擎返回的所有查询结果,集中起来处理后再返 回给用户
1995年12月DEC的 AltaVista登场亮相,大量的创新功能
从互联网上抓取网页:利用能够从互联网上自动收集网页
的Spider系统程序,自动访问互联网,并沿着任何网页中 的所有URL爬到其它网页,重复这过程,并把爬过的所有 网页收集回来。 建立索引数据库:由分析索引系统程序对收集回来的网页 进行分析,提取相关网页信息(包括网页所在URL、编码 类型、页面内容包含的关键词、关键词位置、生成时间、 大小、与其它网页的链接关系等),根据一定的相关度算 法进行大量复杂计算,得到每一个网页针对页面内容中及 超链中每一个关键词的相关度(或重要性),然后用这些 相关信息建立网页索引数据库
使它迅速到达当时搜索引擎的顶峰。AltaVista是第一 个支持自然语言搜索的搜索引擎,AltaVista是第一个 实现高级搜索语法的搜索引擎
8/62
检索结果处理技术 (选择题,填空题或简答)
纯净搜索引擎
元搜索引擎 集成搜索引擎 垂直搜索引擎
9/62
1.3 搜索引擎的分类
搜索引擎和常规意义上的全文检索主要区别:
第1章 搜索引擎概述
随着互联网的飞速发展,人们越来越依靠网络来
查找他们所需要的信息
由于网上的信息源数不胜数,如何有效地去发现
我们所需要的信息,就成为一个很关键的问题, 为了e在全球
市场突飞猛进
仅在开源社区SourceForge上,搜索引擎的项目就
10/62
1.3.1 全文搜索引擎
通过从互联网上提取的各个网站的信息(以网页文
字为主)而建立的数据库中,检索与用户查询条件 匹配的相关记录,然后按一定的排列顺序将结果返 回给用户
全文搜索引擎有全文搜索、检索功能强和信息更新
速度快等优点,但同时也有其不足之处,虽然提供 的信息多而全,然而可供选择的信息太多反而降低 了相应的命中率,导致层次结构不清晰,往往给人 一种繁多杂乱的感觉
13/62
1.3.4 分布式搜索引擎
分布式搜索引擎按区域、主题或其他标准创建分布式索引
服务器,索引服务器之间相互可以交换中间信息,且查询可 以被重新定向
由于分布式搜索引擎将索引数据库划分到几个分布的数据
库中,每个数据库变得小一些,但所有搜索引擎覆盖的范围 变大,且很少有信息重复,而作为分布式系统特性之一的可 扩充也是分布式搜索引擎的优点之一
目前,因特网上的信息发布格式多种多样,这就要
求搜索引擎支持多种文件格式。从实际情况看,所 有的搜索引擎都支持HTML格式,而对于其他文件 格式的支持则不同的搜索引擎有不同的规定,最多 的能支持200多种文件格式
Байду номын сангаас
22/62
信息预处理要做的工作:
关键词的提取 重复或转载网页的消除 链接分析 网页重要程度的计算
核心技术:超链分析
超链分析技术,是新一代搜索引擎的关键技术,已 为世界各大搜索引擎普遍采用。在学术界,一篇论 文被引用得越多就说明其越好,学术价值就越高。 超链分析就是通过分析链接网站的多少来评价被链 接的网站质量,这保证了用户在搜索时,越受 用户欢迎的内容排名越靠前
26/62()搜索然而分布式搜索引擎需要多个索引数据库协同工作,实现
较困难,因此目前尚未有真正的、实用的分布式搜索引擎
14/62
1.4
搜索引擎的信息检索模型
布尔逻辑模型
模糊逻辑模型
向量空间模型
概率模型
可能题型:填空,选择,判断,简答
15/62
布尔逻辑模型
布尔型信息检索是最简单的信息检索模型,用户
11/62
1.3.2 目录索引搜索引擎
目录索引虽然有搜索功能,但在严格意义上算不上是
真正的搜索引擎,仅仅是按目录分类的网站链接列表 而已。用户完全可以不用进行关键词(Keywords)查 询,仅靠分类目录也可找到需要的信息 与全文搜索引擎的区别在于它是由人工建立的,通过 “人工方式”将站点进行了分类,不像全文搜索引擎 那样,将网站上的所有文章和信息都收录进去,而是 首先将该网站划分到某个分类下,再记录一些摘要信 息
1.6 主要搜索引擎介绍
Google的不足
其数据的更新速度无法进一步提高
无法搜索动态生成的网页
中文状态下的Google没有成人内容过滤功能 目前对中国的用户还不支持“OR”和“*”等符号
的使用
可能题型:填空,选模最大的中文搜索引擎,致力于向 人们提供最便捷的信息获取方式
第二代搜索引擎系统大约出现在1996年,大多采用分布
式检索方案,即多个微型计算机协同工作来提高数据规 模、响应速度和用户数量
第三代搜索引擎系统出现在1998年到2000年间,这一时
间是搜索引擎空前繁荣的时期
它的发展的三大特点
(可能为简答、判断、选择、填空) 5/62
1.2.1 搜索引擎的发展史
自动方式通常是由网络机器人来完成的。“网络机器人”
是一种自动运行的软件,其功能是搜索因特网上的网站或 网页
一般来说,人工方式收集信息的准确性要远优于“网络机
器人”,但其收集信息的效率及全面性要低于“网络机器 人” 21/62
1.5.2 信息预处理技术
信息预处理包括信息格式支持与转换以及信息过滤
12/62
1.3.3 元搜索引擎
元搜索引擎在接受用户查询请求时,同时在其他 多个引擎上进行搜索,并将结果返回给用户。著 名的元搜索引擎有InfoSpace、Dogpile、Vivisimo 等,中文元搜索引擎中具代表性的有北斗搜索。 在搜索结果排列方面,有的直接按来源引擎排列 搜索结果,如Dogpile,有的则按自定的规则将结 果重新排列组合,如Vivisimo
利用布尔逻辑关系构造查询并提交,搜索引擎根 据事先建立的倒排文件确定查询结果
标准布尔逻辑模型为二元逻辑,并可用逻辑符
“and”、“or”、“not”来组织关键词表达式。布 尔型信息检索模型的查全率高,查准率低
目前大多搜索引擎均使用布尔逻辑检索模型,查
询结果一般不进行相关性排序
16/62
模糊逻辑模型
19/62
1.5 搜索引擎的关键技术
信息收集和存储技术
信息预处理技术
信息索引技术
可能题型:填空,选择,判断,简答
相关主题