当前位置:文档之家› 索引数据库与搜索引擎

索引数据库与搜索引擎


3 搜索引擎的系统结构
• 一个搜索引擎由以下五个部分组成: – 搜索器 – 索引器 – 索引数据库 – 检索器 – 用户接口
robot


www
文档库
引 器
索 引 库
检 索 器
用 户 接 口
robot
图:搜索引擎的组成和结构
3.1 搜索器
• 搜索器(Spider)俗称蜘蛛、网络机器人、爬虫 ,是一个自动收集网页的系统程序。 • 搜索器的功能是日夜不停地在互联网中漫游,搜 集信息。不光搜集各种类型的新信息,还要定期 更新已经搜集过的旧信息,以避免出现死链
2 搜索引擎的诞生与发展
• • • • • • • 2.3 搜索引擎的发展趋势 个性化; 智能化; 整合化; 垂直化; 移动化; 开放化
2 搜索引擎的诞生与发展
• • • • • • • 2.3 搜索引擎的发展趋势(补充) 检索结果的后处理; 基于内容的多媒体搜索; 即时搜索,如/instant; 与LBS结合, 如/xian ; 基于P2P技术的搜索; 语音搜索。
• 高权重优先:是指对搜索到的文档集合进行评级, 利用计算得到的结果从中挑选评级最高的链接作 为下一个搜索的对象。
2)重复爬取策略
• 一致策略:即以一定的频率对所有网页进 行重复爬取,不区分变更频率不同的网页 • 比率策略:即对于更新频率较高的网页, 重复爬取的频率也较高。
3)友好性策略
• 网站管理员可以通过设置网络机器人排除 协议设置网站是否允许蜘蛛爬取、可爬取 的网页范围,进而限制搜索器的爬取行为 (在ROBOT.TXT文件中进行设置,该文件 必须放在网站根目录下)。爬取行为的频 率主要有搜索引擎自身设定。
③ 相关度及重要性计算:通过关键词频率、 位置、表面特征及超链分析等因素来决定 某一个网页针对某一个关键词的重要性。
单词-文档矩阵
例1
文档集合
简单的倒排索引
带有单词频率的倒排索引
2 搜索引擎的诞生与发展
2.2 搜索引擎的分类
• 根据检索方式分类: 分类目录、关键词搜索引擎、混合搜索引擎 • 根据信息覆盖范围及适用用户群分类: 综合搜索引擎、专用搜索引擎(垂直搜索引擎) • 根据搜索范围分类: 独立搜索引擎、集成搜索引擎(元搜索引擎)
元搜索引擎

又称集合式搜索引擎。即将多个搜索引擎 集成在一起,并提供一个统一的检索界面。
• 索引器的功能是理解搜索器所搜索的纯文 本信息,从中抽取出索引项(属性),生 成倒排索引文件,进而建立索引数据库。 • 倒排索引即由索引项查找相应的文档。 • 索引项有客观索引项和内容索引项
倒排索引
பைடு நூலகம்
具体步骤
具体步骤
① 分析网页:提取正文信息并进行分词;统 计词出现的频率及位置;提取其它相关信 息,如被其他网页链接次数等; ② 建立倒排索引:形成由文档号到索引词的 正向索引;重组正向索引,建立从关键词 到文档号集合的倒排索引;
// version number // URL // original URL // time of harvest // IP address // If included, the data must be compressed // data length // a blank line
XXXXXXXX XXXXXXXX …. XXXXXXXX
第八章 索引数据库与搜索引擎
1 索引数据库与索引机制 2 搜索引擎的诞生与发展
3 搜索引擎的体系结构
4 搜索引擎实例
引言
互联网信息的爆炸性增长 表层网络 • 链接相连 • 网站110,460,149
深层网络 • 数据库、动态信息 • 约为表层网络500倍
注:引自NetCraft
搜索引擎成为最重要的Web信息检索工具 全面、准确、快速
4)并行爬取策略
• 并行爬取策略是针对多个并行搜索器而言 的。搜索引擎要采用一定的策略协调各个 搜索器的行为。 • 搜索器一般将Web空间按照域名、IP地址 或国家域名划分,每个搜索器负责一个子 空间的穷尽搜索。 • 搜索器的实现常用分布式、并行计算技术 ,以提高信息发现和更新的速度。
3.2 索引器
// the followings are data part
// data end // insert a new line
网页存储格式
1)网页选取策略
• 广度优先:是指网络蜘蛛会先抓取起始网页中链 接的所有网页,然后再选择其中的一个链接网页, 继续抓取在此网页中链接的所有网页。
• 深度优先: 是指网络蜘蛛会从起始页开始,一个 链接一个链接跟踪下去,处理完这条线路之后再 转入下一个起始页,继续跟踪链接。
1 索引数据库与索引机制
• 搜索引擎的核心是索引数据库。索引数据 库的核心是倒排索引文件。倒排索引文件 即“由文档特征值指向文档标识”的文件
2 搜索引擎的诞生与发展
2.1 搜索引擎的诞生
• 起源:FTP文件搜索(以Archie为代表) • 第一代搜索引擎:分类目录(以雅虎为代表)
• 第二代搜索引擎:关键词搜索引擎(以Google为 代表)
一个有趣的结合,实用强大 免费有趣的相同。 然 看着有点头晕,但是让我们省了不少力气.提高了搜索效率。
• 搜索器首先将文档格式过滤掉,变成纯文本文件 信息送回,然后将其放到“网页数据库”中。
该库里还记录了这些网页的URL,整个网页的 HTML代码,网页标题等等信息。
version: 1.0 url: / origin: / date: Tue, 15 Apr 2003 08:13:06 GMT ip: 162.105.129.12 unzip-length: 30233 length: 18133
相关主题