当前位置：文档之家› 第1章搜索引擎概述

第1章搜索引擎概述

向量空间模型用检索项的向量空间来表示用户的
查询要求和数据库文档信息。查询结果是根据向量空间的相似性而排列的
向量空间模型可方便地产生有效的查询结果，能
提供相关文档的文摘，并对查询结果进行分类，为用户提供准确的信息
18/62
概率模型
基于贝叶斯概率论原理的概率模型利用相关反馈的归纳学习方法，获取匹配函数，这是一种较复杂的检索模型
的网页索引数据库
真正意义上的搜索引擎，通常指的是收集了Internet上几千万到几十亿个
网页并对网页中的每一个词（即关键词）进行索引，建立索引数据库的全文搜索引擎
当用户查找某个关键词的时候，所有在页面内容中包含了该关键词的网页
都将作为搜索结果被搜出来
2/62
1.1.2 搜索引擎的原理
可以分为四步：（简答题）世界上最大的中文搜索引擎
为中文用户度身定做
关键词自动提示：用户输入拼音，就能获得中文关键词正确提示
27/62
1.6.4 北大天网搜索
北大天网搜索引擎简介
“天网资源检索系统”（即天网搜索）是中国教育和科研计算机网示范工程应用系统课题之一，是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果，由北京大学计算机系网络研究室设计开发，并于1997年10月29日正式在中国教育和科研网（CERnet）向广大Internet用户提供Web信息导航服务

数据量
内容相关性安全性个性化和智能化
搜索引擎按其工作方式主要可分为三种：
全文搜索引擎（Full Text Search Engine）
目录索引搜索引擎（Search Index/Directory）
元搜索引擎（Meta Search Engine）
可能题型：填空，选择，判断，简答
对搜索结果进行处理和排序：所有相关网页针对该关键词
的相关信息在索引库中都有记录，只需综合相关信息和网页级别形成相关度数值，然后进行排序，相关度越高，排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户
4/62
1.2 搜索引擎的历史与发展趋势
搜索引擎至今已经经历了三代发展阶段：第一代搜索引擎出现于1994年，主要特征为集中式检索
1994年7月20日，数据量为54000的Lycos正式发布。除了相
关性排序外，Lycos还提供了前缀匹配和字符相近限制， Lycos第一个在搜索结果中使用了网页自动摘要
Infoseek（Steve Kirsch Announces Free Demos Of the
Infoseek Search Engine）是另一个重要的搜索引擎。 Infoseek沿袭Yahoo!和Lycos的概念，它具有友善的用户界面和大量的附加服务，而使它成为一个强势搜索引擎
这种模型在查询结果处理中加入模糊逻辑运算，将
检索的数据库文档信息与用户的查询要求进行模糊逻辑比较，按照相关的优先次序排列查询结果
模糊逻辑模型可以克服布尔型信息检索模型在查询
中其结果具有无序性的问题。例如，查询“搜索引擎”，则出现关键词“搜索引擎”多的文档将排列在较前的位置上
17/62
向量空间模型
7/62
1995年，第一个元搜索引擎Metacrawler出现。用户只
需提交一次搜索请求，由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎，并将从各独立搜索引擎返回的所有查询结果，集中起来处理后再返回给用户
1995年12月DEC的 AltaVista登场亮相，大量的创新功能
从互联网上抓取网页：利用能够从互联网上自动收集网页
的Spider系统程序，自动访问互联网，并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集回来。建立索引数据库：由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库
使它迅速到达当时搜索引擎的顶峰。AltaVista是第一个支持自然语言搜索的搜索引擎，AltaVista是第一个实现高级搜索语法的搜索引擎
8/62
检索结果处理技术 (选择题，填空题或简答）
纯净搜索引擎
元搜索引擎集成搜索引擎垂直搜索引擎
9/62
1.3 搜索引擎的分类
搜索引擎和常规意义上的全文检索主要区别：
第1章搜索引擎概述
随着互联网的飞速发展，人们越来越依靠网络来
查找他们所需要的信息
由于网上的信息源数不胜数，如何有效地去发现
我们所需要的信息，就成为一个很关键的问题，为了e在全球
市场突飞猛进
仅在开源社区SourceForge上，搜索引擎的项目就
10/62
1.3.1 全文搜索引擎
通过从互联网上提取的各个网站的信息（以网页文
字为主）而建立的数据库中，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户
全文搜索引擎有全文搜索、检索功能强和信息更新
速度快等优点，但同时也有其不足之处，虽然提供的信息多而全，然而可供选择的信息太多反而降低了相应的命中率，导致层次结构不清晰，往往给人一种繁多杂乱的感觉
13/62
1.3.4 分布式搜索引擎
分布式搜索引擎按区域、主题或其他标准创建分布式索引
服务器，索引服务器之间相互可以交换中间信息，且查询可以被重新定向
由于分布式搜索引擎将索引数据库划分到几个分布的数据
库中，每个数据库变得小一些，但所有搜索引擎覆盖的范围变大，且很少有信息重复，而作为分布式系统特性之一的可扩充也是分布式搜索引擎的优点之一
目前，因特网上的信息发布格式多种多样，这就要
求搜索引擎支持多种文件格式。从实际情况看，所有的搜索引擎都支持HTML格式，而对于其他文件格式的支持则不同的搜索引擎有不同的规定，最多的能支持200多种文件格式
Байду номын сангаас
22/62
信息预处理要做的工作：
关键词的提取重复或转载网页的消除链接分析网页重要程度的计算
核心技术：超链分析
超链分析技术，是新一代搜索引擎的关键技术，已为世界各大搜索引擎普遍采用。在学术界，一篇论文被引用得越多就说明其越好，学术价值就越高。超链分析就是通过分析链接网站的多少来评价被链接的网站质量，这保证了用户在搜索时，越受用户欢迎的内容排名越靠前
26/62（）搜索然而分布式搜索引擎需要多个索引数据库协同工作，实现
较困难，因此目前尚未有真正的、实用的分布式搜索引擎
14/62
1.4
搜索引擎的信息检索模型
布尔逻辑模型
模糊逻辑模型
向量空间模型
概率模型
可能题型：填空，选择，判断，简答
15/62
布尔逻辑模型
布尔型信息检索是最简单的信息检索模型，用户
11/62
1.3.2 目录索引搜索引擎
目录索引虽然有搜索功能，但在严格意义上算不上是
真正的搜索引擎，仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词（Keywords）查询，仅靠分类目录也可找到需要的信息与全文搜索引擎的区别在于它是由人工建立的，通过 “人工方式”将站点进行了分类，不像全文搜索引擎那样，将网站上的所有文章和信息都收录进去，而是首先将该网站划分到某个分类下，再记录一些摘要信息
1.6 主要搜索引擎介绍
Google的不足
其数据的更新速度无法进一步提高
无法搜索动态生成的网页
中文状态下的Google没有成人内容过滤功能目前对中国的用户还不支持“OR”和“＊”等符号
的使用
可能题型：填空，选模最大的中文搜索引擎，致力于向人们提供最便捷的信息获取方式
第二代搜索引擎系统大约出现在1996年，大多采用分布
式检索方案，即多个微型计算机协同工作来提高数据规模、响应速度和用户数量
第三代搜索引擎系统出现在1998年到2000年间，这一时
间是搜索引擎空前繁荣的时期
它的发展的三大特点
（可能为简答、判断、选择、填空） 5/62
1.2.1 搜索引擎的发展史
自动方式通常是由网络机器人来完成的。“网络机器人”
是一种自动运行的软件，其功能是搜索因特网上的网站或网页
一般来说，人工方式收集信息的准确性要远优于“网络机
器人”，但其收集信息的效率及全面性要低于“网络机器人” 21/62
1.5.2 信息预处理技术
信息预处理包括信息格式支持与转换以及信息过滤
12/62
1.3.3 元搜索引擎
元搜索引擎在接受用户查询请求时，同时在其他多个引擎上进行搜索，并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo 等，中文元搜索引擎中具代表性的有北斗搜索。在搜索结果排列方面，有的直接按来源引擎排列搜索结果，如Dogpile，有的则按自定的规则将结果重新排列组合，如Vivisimo
利用布尔逻辑关系构造查询并提交，搜索引擎根据事先建立的倒排文件确定查询结果
标准布尔逻辑模型为二元逻辑，并可用逻辑符
“and”、“or”、“not”来组织关键词表达式。布尔型信息检索模型的查全率高，查准率低
目前大多搜索引擎均使用布尔逻辑检索模型，查
询结果一般不进行相关性排序
16/62
模糊逻辑模型
19/62
1.5 搜索引擎的关键技术
信息收集和存储技术
信息预处理技术
信息索引技术
可能题型：填空，选择，判断，简答

e商务文档

第1章搜索引擎概述

相关文档推荐：

e商务文档

第1章 搜索引擎概述

相关文档推荐：

第1章搜索引擎概述