当前位置：文档之家› 索引数据库与搜索引擎

索引数据库与搜索引擎

3 搜索引擎的系统结构
• 一个搜索引擎由以下五个部分组成： – 搜索器 – 索引器 – 索引数据库 – 检索器 – 用户接口
robot
索
…
www
文档库
引器
索引库
检索器
用户接口
robot
图：搜索引擎的组成和结构
3.1 搜索器
• 搜索器（Spider）俗称蜘蛛、网络机器人、爬虫，是一个自动收集网页的系统程序。 • 搜索器的功能是日夜不停地在互联网中漫游，搜集信息。不光搜集各种类型的新信息，还要定期更新已经搜集过的旧信息，以避免出现死链
2 搜索引擎的诞生与发展
• • • • • • • 2.3 搜索引擎的发展趋势个性化；智能化；整合化；垂直化；移动化；开放化
2 搜索引擎的诞生与发展
• • • • • • • 2.3 搜索引擎的发展趋势（补充）检索结果的后处理；基于内容的多媒体搜索；即时搜索，如/instant；与LBS结合, 如/xian ；基于P2P技术的搜索；语音搜索。
• 高权重优先：是指对搜索到的文档集合进行评级，利用计算得到的结果从中挑选评级最高的链接作为下一个搜索的对象。
2）重复爬取策略
• 一致策略：即以一定的频率对所有网页进行重复爬取，不区分变更频率不同的网页 • 比率策略：即对于更新频率较高的网页，重复爬取的频率也较高。
3）友好性策略
• 网站管理员可以通过设置网络机器人排除协议设置网站是否允许蜘蛛爬取、可爬取的网页范围，进而限制搜索器的爬取行为（在ROBOT.TXT文件中进行设置，该文件必须放在网站根目录下）。爬取行为的频率主要有搜索引擎自身设定。
③ 相关度及重要性计算：通过关键词频率、位置、表面特征及超链分析等因素来决定某一个网页针对某一个关键词的重要性。
单词-文档矩阵
例1
文档集合
简单的倒排索引
带有单词频率的倒排索引
2 搜索引擎的诞生与发展
2.2 搜索引擎的分类
• 根据检索方式分类：分类目录、关键词搜索引擎、混合搜索引擎 • 根据信息覆盖范围及适用用户群分类：综合搜索引擎、专用搜索引擎（垂直搜索引擎） • 根据搜索范围分类：独立搜索引擎、集成搜索引擎（元搜索引擎）
元搜索引擎
•
又称集合式搜索引擎。即将多个搜索引擎集成在一起，并提供一个统一的检索界面。
• 索引器的功能是理解搜索器所搜索的纯文本信息，从中抽取出索引项（属性），生成倒排索引文件，进而建立索引数据库。 • 倒排索引即由索引项查找相应的文档。 • 索引项有客观索引项和内容索引项
倒排索引
பைடு நூலகம்
具体步骤
具体步骤
① 分析网页：提取正文信息并进行分词；统计词出现的频率及位置；提取其它相关信息，如被其他网页链接次数等； ② 建立倒排索引：形成由文档号到索引词的正向索引；重组正向索引，建立从关键词到文档号集合的倒排索引；
// version number // URL // original URL // time of harvest // IP address // If included, the data must be compressed // data length // a blank line
XXXXXXXX XXXXXXXX …. XXXXXXXX
第八章索引数据库与搜索引擎
1 索引数据库与索引机制 2 搜索引擎的诞生与发展
3 搜索引擎的体系结构
4 搜索引擎实例
引言
互联网信息的爆炸性增长表层网络 • 链接相连 • 网站110,460,149
深层网络 • 数据库、动态信息 • 约为表层网络500倍
注:引自NetCraft
搜索引擎成为最重要的Web信息检索工具全面、准确、快速
4）并行爬取策略
• 并行爬取策略是针对多个并行搜索器而言的。搜索引擎要采用一定的策略协调各个搜索器的行为。 • 搜索器一般将Web空间按照域名、IP地址或国家域名划分，每个搜索器负责一个子空间的穷尽搜索。 • 搜索器的实现常用分布式、并行计算技术，以提高信息发现和更新的速度。
3.2 索引器
// the followings are data part
// data end // insert a new line
网页存储格式
1）网页选取策略
• 广度优先：是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。
• 深度优先：是指网络蜘蛛会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。
1 索引数据库与索引机制
• 搜索引擎的核心是索引数据库。索引数据库的核心是倒排索引文件。倒排索引文件即“由文档特征值指向文档标识”的文件
2 搜索引擎的诞生与发展
2.1 搜索引擎的诞生
• 起源：FTP文件搜索（以Archie为代表） • 第一代搜索引擎：分类目录（以雅虎为代表）
• 第二代搜索引擎：关键词搜索引擎（以Google为代表）
一个有趣的结合，实用强大免费有趣的相同。然看着有点头晕，但是让我们省了不少力气.提高了搜索效率。
• 搜索器首先将文档格式过滤掉，变成纯文本文件信息送回，然后将其放到“网页数据库”中。
该库里还记录了这些网页的URL，整个网页的 HTML代码，网页标题等等信息。
version: 1.0 url: / origin: / date: Tue, 15 Apr 2003 08:13:06 GMT ip: 162.105.129.12 unzip-length: 30233 length: 18133

e商务文档

索引数据库与搜索引擎

相关文档推荐：