当前位置：文档之家› 第二章信息检索基础理论精品文档

第二章信息检索基础理论精品文档

(4) 点击率方法
“鼠标投票” 代表：Direct Hit
(5) 分类和聚类
分类：将一篇文章／文本自动的识别出来，按照先验的类别进行匹配，确定。
聚类：将一组的文章／文本／信息进行相识性的比较，将比较相识的文章／文本／信息归为同一组的技术。
模糊聚类：没有先验的聚类因子，完全按照算法来进行识别和类大小，类的多少，类的误差等都是不确定因素。
“相关性”(relevance)，是指信息检索系统针对用户的查询(query)从文档集中检出的文档与查询之间的一种匹配关系。
• 现代信息检索以自然语言文本为对象，从严格意义上讲，文档与查询之间不再是数据库检索中的那种简单的匹配关系。但“匹配”这一术语一直在使用，这里也接受这种说法。
手检相关性
依赖于用户智能
• 知识结构、项目进展阶段、用户心理、认知行为、认知能力
提高手检相关性的方法：
• 分析概念及学科属性；对检索工具的了解 • 调整检索策略
机检相关性
系统相关性
• (1) 词频方法 • (2) 位置方法 • (3) 引用率方法 • (4影响检索效果的主要因素
存储检索信息系统组织结构、检索系统功能问题检索策略、检索方法问题
提高检索效果的措施
熟悉各种信息检索系统特征认真分析课题需求灵活掌握检索方法和提高制定检索
策略的能力
网络信息资源检索效果评价
索引数据库（范围、更新频率、索引建立的方式）
信息组织管理评价指标信息检索功能评价指标(检索方式、检索技
● 功能：
负责处理用户输入的检索词或提问式，并将它们与数据库中存储的数据进行匹配运算，然后把运算结果返回给用户。
●主要操作流程：
——接收用户提问 ——提问校验
对提问式进行语法、格式、用词等的检查。
——提问加工对源提问式进行解释性或编译性的加工，以便机器处
理。常用的加工方法有：表展开法，逆波兰法，准波兰法，范式法等。
信息检索模型决定于：
从什么样的视角去看待查询式和文档
基于什么样的理论去看待查询式和文档的关系
如何计算查询式和文档之间的相似度
信息检索系统的形式化表示
通常，可以把一个信息检索系统形式化地描述为一个四元组： System=（D，T，Q， ρ)
其中： D={ d1，d2， d3…… dn }，表示系统中经过标引的或直接采集的文献集合；n为数据库容量（n≥0） T={ t1，t2，t3……tm }，表示系统所有可能存在的可检项的集合； Q={ q1，q2，q3……qk }，表示所有提问的集合； ρ: Q×D→R， ρ称为映射函数或匹配函数， Q×D是提问集合Q与文献集合D的笛卡尔乘积，R为函数值的集合。
术、检索限定) 检索结果评价指标（排序）检索界面的评价指标
2.2 信息检索系统和工具
类型
手工检索系统穿孔卡片检索系统缩微检索系统光盘检索系统计算机信息检索系统网络信息检索系统
2.2.2 印刷型检索工具的类型和结构
文献检索工具
• 目录题录索引文摘
存储是为了检索，检索又必须先进行存储。
信息检索的基本原理
信息集合
特征化表示
匹配与选择
特征化表示
需求集合
计算机信息检索原理
示意图
2.1.2 信息检索的相关性问题
定义：检索结果与用户需求一致性程度影响因素：
用户信息需求的表达相关度判断的算法用户的主观判断
手检相关性、机检相关性
技术。绝大部分链接分析算法都有共同的出发点：
更多地被其他页面链接的页面是质量更好的页面，
并且从更重要的页面出发的链接有更大的权重。这个循环定义可以通过迭代算法巧妙打破。
最著名的链接分析算法是Stanford大学提出并应用到Google搜索引擎中的PageRank算法以及IBM用于CLEVER搜索引擎的HITS算法。
模型信息检索系统的形式化表示布尔检索模型向量空间模型概率检索模型其他信息检索模型
信息检索的基本原理
信息集合
特征化表示
匹配与选择
特征化表示
需求集合
系统对信息集合与需求集合的匹配与选择
数学工具---数学模型
什么是模型？
模型是采用数学工具，对现实世界某种事物或某种运动的抽象描述
面对相同的输入，模型的输出应该能够无限地逼近现实世界的输出，例如：天气的预测模型
模型和实现的区别：一个模型可以用多种方法实现，例如，布尔模型可以倒排文档（inverted file）实现，也可以用B-tree实现。
信息检索的数学模型：运用数学的语言和工具，对IR中的信息及其处理过程加以翻译和抽象，表达为某种数学公式。
事实和数据检索工具
信息检索工具/系统的基本结构
信息源
用户
信息选择与采集标引处理
创建数据库
词汇管理工具
用户接口
提问处理/ 检索匹配
DB
DB
DB
数据库生成
数据库查询
2.2.3 计算机检索系统的结构及工作原理
联机光盘网络物理结构逻辑结构
(1) 信息选择与采集子系统 (2) 标引处理子系统 (3) 建库子系统 (4) 词表管理子系统 (5) 用户接口子系统 (6) 提问处理 / 检索匹配子系统
用户相关性
(1) 基于词频统计的相关性
当用户输入检索词时，搜索引擎去找那些检索词在文章（网页）中出现频率较高的，位置较重要的，再加上一些对检索词本身常用程度的加权，最后排出一个结果来(检索结果页面) 。
早期的搜索引擎结果排序都是基于词频统计的，如Infoseek，Excite，Lycos等，它们基本上是沿用了网络时代之前学术界的研究成果，工业界的主要精力放在处理大访问量和大数据量上，对相关性排序没有突破。

PageRank定义的是在WEB中页面的访问概
率。访问概率越大的页面的PageRank值也越大。
具体的计算公式是：
Pr(t)=(1-d)/T+d(Pr(t1)/C(t1)+
Pr(t2)/C(t2)+…+Pr(tn)/C(tn))
即，每个页面的PageRank (Pr)是无意中直接浏览到的概率和从上一页中继续访问的概率总和。其中，T是节点（页面）总数，C(t)是从页面 t指出的超链接总数，d称为阻尼因子（damping factor），一般取值为0.85。概率Pr(t)反映了节点t的重要程度。
（2）标引处理子系统
● 功能标引（indexing）是指对文献主题特征进行分析并
使之显性化，以便为存储和检索这两个环节提供某种连接的文献加工操作。标引处理子系统将决定着数据库的标引深度（或网罗度）和检索点，并直接影响到系统的检索方式和检索功能。 ● 标引处理的类型
—— 人工赋词标引 —— 机器标引 —— 无标引（或全标引） ●标引要求不漏标——全面不错标——准确不滥标——简练
HITS是IBM Almaden研究中心开发的另一种链接分析算法。它认为每个WEB页面都有被指向、作为权威（Authority）和指向其他页面作为资源中心（Hub）的两方面属性，其取值分别用 A(p)和H(p)表示。A(p)值为所有指向p的页面q 的中心权重H（q）之和，同样，页面p的中心权重H(p)值是所有p所指向的页面q的权威权重A(q) 之和，如下式：
（5）用户接口子系统
● 功能：
用于人机交互，承担用户与系统之间的通讯任务。
● 界面风格（5种）
——命令/指令语言（command language）
——菜单选择（menu selection）
——表格填充（form fill-in）
——直接操纵（direct manipulation）
——自然语言（natural language）
（1）信息选择与采集子系统
● 要求快速、经济、广泛、连续
●功能信息选择与采集子系统将决定信息检索系统中数据库的类型及收录范围，是信息检索与利用的起点。 ●工作方式对通常的计算机化检索系统来说，信息选择与采集主要由人工完成，但对于网络信息检索系统来说，则主要通过网络搜索机器人Robot 自动进行，并且可以定期更新。
● 接口技术（2种）：
——字符用户界面（CUI------Character User Interface）
——图形用户界面（GUI------Graphic User
Interface）
WIMP（Window、Icon、
Menu、Pointing device）
（6）提问处理 / 检索匹配子系统（技术核心）
相关性判断方法的缺点分析
标引停留在字符层次苹果？
不能区分同形异义词
公车？
不能联想
• 自行车单车脚踏车…
相关性研究的热点
基于内容的理解联想功能及语义处理相关反馈技术提供信息导引功能
2.1.3 信息检索的效果评价
评价指标体系
• 查全率 • 查准率 • 漏检率 • 误检率
信息检索经典模型
1 布尔模型（1950s末）
布尔逻辑＋集合论
◆ 扩展布尔模型（统一模型）（1980s初） 2 向量空间模型
（3）建库子系统
主要作业内容包括： ● 数据录入 ● 错误检查与处理 ● 数据格式转换在程序控制下自动完成。例如，支持联机
检索的数据库一般要在主文档基础上再产生出主文档索引、倒排文档和词典文档。
● 文档更新维护由程序控制，定期进行更新或上载数据。
（4）词表管理子系统
在文本信息检索系统，各种词表系统（如主题词表、后控词表等）通常作为一个重要成分而存在，词表中的词汇可以在用户检索信息时实现对检索效果的有效控制。词汇管理子系统有时也可独立存在。

e商务文档

第二章信息检索基础理论精品文档

相关文档推荐：