当前位置：文档之家› 信息检索课件-2 搜索引擎的架构

信息检索课件-2 搜索引擎的架构

词典中词条化中的问题-词条如何界定?
现代信息检索
词条化
一系列问题:
Finland’s capital Finland? Finlands? Finland’s? Hewlett-Packard 看成Hewlett 和 Packard 两个词条?
state-of-the-art: co-education lowercase, lower-case, lower case ?
• 其他的文档类型，如电子邮件和OFFICE文件，由指定的格式和方法来定义文档的结构，需要使用相应的解析工具实现格式的解析。
2、词条切分
• 词条切分( tokenizing)是文本预处理中的重要步骤。切分后的词素，通常直接被作为检索项使用。文档和查询中的文本必须以同样的方式转换为词条。
• 对于给定的文本，可能会有多种切分结果，这可能会影响到检索。
Information Retrieval
Talk 2. Architecture of Search Engine
Luo jing 2014.9
Outline
1. 搜索引擎的软件架构 2. 索引组件 3. 查询处理组件
搜索引擎的软件架构
• 软件体系结构 • 搜索引擎的架构
软件体系结构
• 软件架构是指在一定的设计原则基础上，从不同角度对组成系统的各部分进行搭配和安排。
内容存取。
回索引组件
文本预处理
• 文档格式解析 • 词条切分 • 去除停用词 • 词干提取 • 超链接的抽取与分析 • 信息抽取 • 文本分类器
1、文档格式解析
• 文档格式解析器使用标记语言中的句法(syntax)知识来识别文档的结构。
• 例如：<h2>Search</h2> HTML和XML都使用标签(tag)来定义文档的元素，此例中“Search”是HTML文档中的二级标题。
早期的IR系统可能不索引数字
但是数字却常常很有用：比如在Web上查找错误代码 (一种处理方法是采用n-gram)
• 主题爬虫（topical crawler）构建垂直搜索引擎（vertiacal search），专门搜索某一特定领域或主题的信息。
• 企业搜索或者个人硬盘搜索爬虫。
2、信息推送（Information Feed）
• 搜索引擎还希望可以接受来自其它信息来源主动馈送（feed）的信息。
• 网络爬虫通过监测信息源，可以精确的知道信息源更新的信息，从而节约大量的网络带宽。
• RSS（Really Simple Syndication，简易信息聚合）是互联网上信息馈送的通用标准。
• 音频和视频流也可以被馈送。
3、文本转换-格式转换
• 搜索引擎内部工作在纯文本数据上。 • 网络文档格式有HTML、XML、PDF、
Microsoft Office、WPS等。 • 在搜索引擎对其进行索引之前，需要将这
些文档转换成统一的纯文本并提取元数据。 • 对于PDF和Office文档，需要第三方的转换
程序给与支持。
文本转换-编码转化
• ASCII每个字符的取值范围为1-128，用7个二进制位表示。
• 扩展的ASCII用8个二进制位表示1-256范围的字符。
• 在中日韩等字符集中，具有上千个字符。 • 目前经常采用的统一编码集是一种变长的
• 网络爬虫的实现有很多方式，但是基本原理都是通过追踪网页上的URL来找到并下载页面。
• 由于网络上网页数量巨大，而且更新频繁，交叉连接和相互引用的情况复杂，如何爬虫以保证高的覆盖度和时新性，是一项极具挑战的任务。
• 网络爬虫既可以面向整个互联网，也可以被限制在一个或者多个专门的站点。例如新建网站自身的站内搜索。
关于一篇文档的信息。如文档类型、文档结构、来源、日期、长度等信息。
• 爬虫 • 信息推送 • 文本转换 • 文档数据库
1、爬虫
• 在大多数搜索引擎中，爬虫（crawler、 robot、spider）组件对于搜索引擎来说具有获取文档来源的首要任务。
• 爬虫有不同种类，但是网络爬虫是最主要的爬虫。
搜索引擎组件
索引文档数据库
日志
网页、文档
索引
查询处理相关文档
返回
索引组件
文档数据库
文本采集
索引创建
网页、文档
预处理
索引
返回
文本采集
• 文本采集组件用于发现文档。 • 文本采集通常通过爬行（crawing），建立
检索的文档集合、元数据（metadata）库。 • 元数据不表示文档的文本内容，但是表示
• 在中日韩语言中，分词是个更复杂的问题。
现代信息检索
词条化(Tokenization)
输入: “Friends, Romans and Countrymen” 输出: 词条(Token)
Friends Romans Countrymen
词条就是一个字符串实例词条在经过进一步处理之后将放入倒排索引中的
UNICODE编码：UTF-8。
4、文档数据库
• 为快速生成摘要以及分析任务，有必要在搜
索引擎本地保存原始文档的副本。
• 文档数据库管理的数据包括非结构化的文档内
容和结构化的元数据。
• 小规模的文档集，可以采用关系数据库存储这
些文档和元数据。
• 大规模的场景中，通常采用专门设计的文档数据库，存储大规模的文档数据库，并提供高速的
• 包括该系统的各个组件，组件的外部可见属性及组件之间的相互关系。
搜索引擎的架构
• 搜索引擎的架构为搜索引擎提供组成部分并定义各个组件关系的高层描述。搜索引擎的两个主要目标是：
– 效果：对于用户的的查询，返回最准确的相关性排序文档。
– 效率：尽可能快速的返回满足用户的查询的检索结果。
• 为了提供和处理；为了高效率的服务，搜索引擎采用特殊的数据结构和缓存技术.
San Francisco: 到底是一个还是两个词条？
如何判断是一个词条？
现代信息检索
词条化中数字的处理
3/20/91
Mar. 12, 1991
20/3/91
55 B.C.
B-52
PGP 密钥：324a3df234cb23e
(800) 234-2333
通常中间有空格

e商务文档

信息检索课件-2 搜索引擎的架构

相关文档推荐：