当前位置:文档之家› 第二章信息检索基础理论精品文档

第二章信息检索基础理论精品文档


(4) 点击率方法
“鼠标投票” 代表:Direct Hit
(5) 分类和聚类
分类:将一篇文章/文本自动的识别出来, 按照先验的类别进行匹配,确定。
聚类:将一组的文章/文本/信息进行相 识性的比较,将比较相识的文章/文本/ 信息归为同一组的技术。
模糊聚类:没有先验的聚类因子,完全按 照算法来进行识别和类大小,类的多少, 类的误差等都是不确定因素。
“相关性”(relevance),是指信息检索系 统针对用户的查询(query)从文档集中检出 的文档与查询之间的一种匹配关系。
• 现代信息检索以自然语言文本为对象,从严格 意义上讲,文档与查询之间不再是数据库检索 中的那种简单的匹配关系。但“匹配”这一术 语一直在使用,这里也接受这种说法。
手检相关性
依赖于用户智能
• 知识结构、项目进展阶段、用户心理、认知行 为、认知能力
提高手检相关性的方法:
• 分析概念及学科属性;对检索工具的了解 • 调整检索策略
机检相关性
系统相关性
• (1) 词频方法 • (2) 位置方法 • (3) 引用率方法 • (4影响检索效果的主要因素
存储 检索 信息系统组织结构、检索系统功能问题 检索策略、检索方法问题
提高检索效果的措施
熟悉各种信息检索系统特征 认真分析课题需求 灵活掌握检索方法和提高制定检索
策略的能力
网络信息资源检索效果评价
索引数据库(范围、更新频率、索引建立 的方式)
信息组织管理评价指标 信息检索功能评价指标(检索方式、检索技
● 功能:
负责处理用户输入的检索词或提问式,并将它们与数据库 中存储的数据进行匹配运算,然后把运算结果返回给用户。
●主要操作流程:
——接收用户提问 ——提问校验
对提问式进行语法、格式、用词等的检查。
——提问加工 对源提问式进行解释性或编译性的加工,以便机器处
理。常用的加工方法有:表展开法,逆波兰法,准波兰法, 范式法等。
信息检索模型决定于:
从什么样的视角去看待查询式和文档
基于什么样的理论去看待查询式和文档的 关系
如何计算查询式和文档之间的相似度
信息检索系统的形式化表示
通常,可以把一个信息检索系统形式化地描述为一个 四元组: System=(D,T,Q, ρ)
其中: D={ d1,d2, d3…… dn },表示系统中经过标引 的或直接采集的文献集合;n为数据库容量(n≥0) T={ t1,t2,t3……tm },表示系统所有可能存在的 可检项的集合; Q={ q1,q2,q3……qk },表示所有提问的集合; ρ: Q×D→R, ρ称为映射函数或匹配函数, Q×D是 提问集合Q与文献集合D的笛卡尔乘积,R为函数值的 集合。
术、检索限定) 检索结果评价指标(排序) 检索界面的评价指标
2.2 信息检索系统和工具
类型
手工检索系统 穿孔卡片检索系统 缩微检索系统 光盘检索系统 计算机信息检索系统 网络信息检索系统
2.2.2 印刷型检索工具的类型和结构
文献检索工具
• 目录 题录 索引 文摘
存储是为了检索,检索又必须先进行存储。
信息检索的基本原理
信息 集合
特征化 表示
匹配与选择
特征化 表示
需求 集合
计算机信息 检索原理
示意图
2.1.2 信息检索的相关性问题
定义:检索结果与用户需求一致性程度 影响因素:
用户信息需求的表达 相关度判断的算法 用户的主观判断
手检相关性、机检相关性
技术。绝大部分链接分析算法都有共同的出发点:
更多地被其他页面链接的页面是质量更好的页面,
并且从更重要的页面出发的链接有更大的权重。 这个循环定义可以通过迭代算法巧妙打破。
最著名的链接分析算法是Stanford大学提出 并应用到Google搜索引擎中的PageRank算法以 及IBM用于CLEVER搜索引擎的HITS算法。
模型 信息检索系统的形式化表示 布尔检索模型 向量空间模型 概率检索模型 其他信息检索模型
信息检索的基本原理
信息 集合
特征化 表示
匹配与选择
特征化 表示
需求 集合
系统对信息集合与需求集合的匹配与选择
数学工具---数学模型
什么是模型?
模型是采用数学工具,对现实世界某种事物或 某种运动的抽象描述
面对相同的输入,模型的输出应该能够无限地 逼近现实世界的输出, 例如:天气的预测模型
模型和实现的区别:一个模型可以用多种方法 实现, 例如,布尔模型可以倒排文档(inverted file)实现,也可以用B-tree实现。
信息检索的数学模型:运用数学的语言和工 具,对IR中的信息及其处理过程加以翻译 和抽象,表达为某种数学公式。
事实和数据检索工具
信息检索工具/系统的基本结构
信息源
用户
信息选择与采集 标引处理
创建数据库
词汇管理 工具
用户接口
提问处理/ 检索匹配
DB
DB
DB
数据库生成
数据库查询
2.2.3 计算机检索系统的结构及工作 原理
联机 光盘 网络 物理结构 逻辑结构
(1) 信息选择与采集子系统 (2) 标引处理子系统 (3) 建库子系统 (4) 词表管理子系统 (5) 用户接口子系统 (6) 提问处理 / 检索匹配子系统
用户相关性
(1) 基于词频统计的相关性
当用户输入检索词时,搜索引擎去找那些检索词 在文章(网页)中出现频率较高的,位置较重要 的,再加上一些对检索词本身常用程度的加权, 最后排出一个结果来(检索结果页面) 。
早期的搜索引擎结果排序都是基于词频统计的, 如Infoseek,Excite,Lycos等,它们基本上是 沿用了网络时代之前学术界的研究成果,工业界 的主要精力放在处理大访问量和大数据量上,对 相关性排序没有突破。

PageRank定义的是在WEB中页面的访问概
率。访问概率越大的页面的PageRank值也越大。
具体的计算公式是:
Pr(t)=(1-d)/T+d(Pr(t1)/C(t1)+
Pr(t2)/C(t2)+…+Pr(tn)/C(tn))
即,每个页面的PageRank (Pr)是无意中直 接浏览到的概率和从上一页中继续访问的概率总 和。其中,T是节点(页面)总数,C(t)是从页面 t指出的超链接总数,d称为阻尼因子(damping factor),一般取值为0.85。概率Pr(t)反映了节 点t的重要程度。
(2)标引处理子系统
● 功能 标引(indexing)是指对文献主题特征进行分析并
使之显性化,以便为存储和检索这两个环节提供某种 连接的文献加工操作。标引处理子系统将决定着数据 库的标引深度(或网罗度)和检索点,并直接影响到 系统的检索方式和检索功能。 ● 标引处理的类型
—— 人工赋词标引 —— 机器标引 —— 无标引(或全标引) ●标引要求 不漏标——全面 不错标——准确 不滥标——简练
HITS是IBM Almaden研究中心开发的另一种链 接分析算法。它认为每个WEB页面都有被指向、 作为权威(Authority)和指向其他页面作为资 源中心(Hub)的两方面属性,其取值分别用 A(p)和H(p)表示。A(p)值为所有指向p的页面q 的中心权重H(q)之和,同样,页面p的中心权 重H(p)值是所有p所指向的页面q的权威权重A(q) 之和,如下式:
(5)用户接口子系统
● 功能:
用于人机交互,承担用户与系统之间的通讯任务。
● 界面风格(5种)
——命令/指令语言(command language)
——菜单选择(menu selection)
——表格填充(form fill-in)
——直接操纵(direct manipulation)
——自然语言(natural language)
(1)信息选择与采集子系统
● 要求 快速、经济、广泛、连续
●功能 信息选择与采集子系统将决定信息检索系统中 数据库的类型及收录范围,是信息检索与利用 的起点。 ●工作方式 对通常的计算机化检索系统来说,信息选择 与采集主要由人工完成,但对于网络信息检索 系统来说,则主要通过网络搜索机器人Robot 自动进行,并且可以定期更新。
● 接口技术(2种):
——字符用户界面(CUI------Character User Interface)
——图形用户界面(GUI------Graphic User
Interface)
WIMP(Window、Icon、
Menu、Pointing device)
(6)提问处理 / 检索匹配子系统 (技术核心)
相关性判断方法的缺点分析
标引停留在字符层次 苹果?
不能区分同形异义词
公车?
不能联想
• 自行车 单车 脚踏车…
相关性研究的热点
基于内容的理解 联想功能及语义处理 相关反馈技术 提供信息导引功能
2.1.3 信息检索的效果评价
评价指标体系
• 查全率 • 查准率 • 漏检率 • 误检率
信息检索经典模型
1 布尔模型(1950s末)
布尔逻辑+集合论
◆ 扩展布尔模型(统一模型)(1980s初) 2 向量空间模型
(3)建库子系统
主要作业内容包括: ● 数据录入 ● 错误检查与处理 ● 数据格式转换 在程序控制下自动完成。例如,支持联机
检索的数据库一般要在主文档基础上再产生出 主文档索引、倒排文档和词典文档。
● 文档更新维护 由程序控制,定期进行更新或上载数据。
(4)词表管理子系统
在文本信息检索系统,各种词表系统(如主题词表、后 控词表等)通常作为一个重要成分而存在,词表中的 词汇可以在用户检索信息时实现对检索效果的有效控 制。词汇管理子系统有时也可独立存在。
相关主题