当前位置:文档之家› 信息检索课件-2 搜索引擎的架构

信息检索课件-2 搜索引擎的架构

词典中 词条化中的问题-词条如何界定?
现代信息检索
词条化
一系列问题:
Finland’s capital Finland? Finlands? Finland’s? Hewlett-Packard 看成Hewlett 和 Packard 两个词条?
state-of-the-art: co-education lowercase, lower-case, lower case ?
• 其他的文档类型,如电子邮件和OFFICE文件,由 指定的格式和方法来定义文档的结构,需要使用 相应的解析工具实现格式的解析。
2、词条切分
• 词条切分( tokenizing)是文本预处理中的重要步骤。 切分后的词素,通常直接被作为检索项使用。文 档和查询中的文本必须以同样的方式转换为词条。
• 对于给定的文本,可能会有多种切分结果,这可 能会影响到检索。
Information Retrieval
Talk 2. Architecture of Search Engine
Luo jing 2014.9
Outline
1. 搜索引擎的软件架构 2. 索引组件 3. 查询处理组件
搜索引擎的软件架构
• 软件体系结构 • 搜索引擎的架构
软件体系结构
• 软件架构是指在一定的设计原则基础上, 从不同角度对组成系统的各部分进行搭配 和安排。
内容存取。
回索引组件
文本预处理
• 文档格式解析 • 词条切分 • 去除停用词 • 词干提取 • 超链接的抽取与分析 • 信息抽取 • 文本分类器
1、文档格式解析
• 文档格式解析器使用标记语言中的句法(syntax)知 识来识别文档的结构。
• 例如:<h2>Search</h2> HTML和XML都使用标签(tag)来定义文档的元素,此 例中“Search”是HTML文档中的二级标题。
早期的IR系统可能不索引数字
但是数字却常常很有用:比如在Web上查找错误代码 (一种处理方法是采用n-gram)
• 主题爬虫(topical crawler)构建垂直搜索 引擎(vertiacal search),专门搜索某一特 定领域或主题的信息。
• 企业搜索或者个人硬盘搜索爬虫。
2、信息推送(Information Feed)
• 搜索引擎还希望可以接受来自其它信息来 源主动馈送(feed)的信息。
• 网络爬虫通过监测信息源,可以精确的知 道信息源更新的信息,从而节约大量的网 络带宽。
• RSS(Really Simple Syndication,简易信息 聚合)是互联网上信息馈送的通用标准。
• 音频和视频流也可以被馈送。
3、文本转换-格式转换
• 搜索引擎内部工作在纯文本数据上。 • 网络文档格式有HTML、XML、PDF、
Microsoft Office、WPS等。 • 在搜索引擎对其进行索引之前,需要将这
些文档转换成统一的纯文本并提取元数据。 • 对于PDF和Office文档,需要第三方的转换
程序给与支持。
文本转换-编码转化
• ASCII每个字符的取值范围为1-128,用7个 二进制位表示。
• 扩展的ASCII用8个二进制位表示1-256范围 的字符。
• 在中日韩等字符集中,具有上千个字符。 • 目前经常采用的统一编码集是一种变长的
• 网络爬虫的实现有很多方式,但是基本原 理都是通过追踪网页上的URL来找到并下载 页面。
• 由于网络上网页数量巨大,而且更新频繁, 交叉连接和相互引用的情况复杂,如何爬 虫以保证高的覆盖度和时新性,是一项极 具挑战的任务。
• 网络爬虫既可以面向整个互联网,也可以 被限制在一个或者多个专门的站点。例如 新建网站自身的站内搜索。
关于一篇文档的信息。如文档类型、文档 结构、来源、日期、长度等信息。
• 爬虫 • 信息推送 • 文本转换 • 文档数据库
1、爬虫
• 在大多数搜索引擎中,爬虫(crawler、 robot、spider)组件对于搜索引擎来说具有 获取文档来源的首要任务。
• 爬虫有不同种类,但是网络爬虫是最主要 的爬虫。
搜索引擎组件
索引 文档 数据库
日志
网页、文档
索引
查询处理 相关文档
返回
索引组件
文档数据库
文本采集
索引创建
网页、文档
预处理
索引
返回
文本采集
• 文本采集组件用于发现文档。 • 文本采集通常通过爬行(crawing),建立
检索的文档集合、元数据(metadata)库。 • 元数据不表示文档的文本内容,但是表示
• 在中日韩语言中,分词是个更复杂的问题。
现代信息检索
词条化(Tokenization)
输入: “Friends, Romans and Countrymen” 输出: 词条(Token)
Friends Romans Countrymen
词条 就是一个字符串实例 词条在经过进一步处理之后将放入倒排索引中的
UNICODE编码:UTF-8。
4、文档数据库
• 为快速生成摘要以及分析任务,有必要在搜
索引擎本地保存原始文档的副本。
• 文档数据库管理的数据包括非结构化的文档内
容和结构化的元数据。
• 小规模的文档集,可以采用关系数据库存储这
些文档和元数据。
• 大规模的场景中,通常采用专门设计的文档数 据库,存储大规模的文档数据库,并提供高速的
• 包括该系统的各个组件,组件的外部可见 属性及组件之间的相互关系。
搜索引擎的架构
• 搜索引擎的架构为搜索引擎提供组成部分 并定义各个组件关系的高层描述。搜索引 擎的两个主要目标是:
– 效果:对于用户的的查询,返回最准确的相关 性排序文档。
– 效率:尽可能快速的返回满足用户的查询的检 索结果。
• 为了提供和处理;为了 高效率的服务,搜索引擎采用特殊的数据 结构和缓存技术.
San Francisco: 到底是一个还是两个词条?
如何判断是一个词条?
现代信息检索
词条化中数字的处理
3/20/91
Mar. 12, 1991
20/3/91
55 B.C.
B-52
PGP 密钥:324a3df234cb23e
(800) 234-2333
通常中间有空格
相关主题