当前位置:文档之家› 第三章信息检索系统

第三章信息检索系统


D2 {(comput, 0.1), (network, 0.5), …}
Inverted file:
comput {(D1,0.2), (D2,0.1), …} Inverted file is used during retrieval for higher efficiency.
19
(4)术语数据库:这是一种专门存储 名词术语信息、词语信息以及术语工 作和语言规范工作成果的源数据库, 如名词术语信息库、各种电子化辞书 等。
(5)图像数据库:这是一种用来存储 各种图像或图形信息及有关文字说明 资料的源数据库,主要应用于建筑、 设计、广告、产品、图片或照片等资 料类型的计算机存储与检索。
1信息检索系统的类型 2信息检索系统的构成 3标引处理 4 数据库的文档结构 5倒排文档的检索技术
3.1信息检索系统及其类型
3.1.1信息检索系统的概念
(1)定义:具有信息存储和信息查询功能的一 类信息服务设施或者工具
(2)构成要素: 明确的目标 信息资源 技术装备 方法与措施 功能
重要程度的一种方法,最早有卢恩提出。基本原理 给定一个由N篇文档组成的文档集合,计算出每篇文档中
每个不同的词的出现次数。 把每个不同的词在N篇文档的出现次数相加,得到词K的集
合频率。 按集合频率递减顺序排列这些词,并确定高频词和低频词
的阈值。挑选剩下的中频词作为标引词,并按照他们在相 应文档的出现频次确定权重。 缺点是什么?
(6)物理记录:硬件设备上一个基本存储单 位,块,block。
(2)文档的类型
若干个逻辑记录构成的信息集合称为文档 (file)。
文档是书目数据库和文献检索系统中数据组织 的基本形式。
(2)文档的类型
顺序文档 顺序文档(sequential file)是文档在计算机存储
df = document frequency
no. of documents containing the term distribution of the term
idf = inverse document frequency
the unevenness of term distribution in the corpus the specificity of term to a document The more the term is distributed evenly, the less it is specific to a document
What is the best representation of contents?
Char. string (char bigrams): not precise enough Word: good coverage, not precise Phrase: poor coverage, more precise Concept: poor coverage, precise
信息检索系统的逻辑构成
(3)建库子系统。该功能模块的任务是建立和维 护可直接用于计算机检索的数据库。主要工作包括 数据录入、错误检查与处理、数据格式转换、生成 和更新各种文档、建立各种索引数据库等。 (4)词表管理子系统。该功能模块的任务是建立 和管理维护系统中的主题词表和分类表,并使它们 和标引、建库等子系统相连接,支持用户的各种词 汇查询操作。该系统可以独立存在,也可以和建库 子系统中的词典文档合并在一起。
Document indexing
Goal = identify the important meanings and create an internal representation
Factors to consider:
Accuracy to represent meanings (semantics) Exhaustiveness (cover all the contents) Facility for computer to manipulate
Keyword selection and weighting
How to select important keywords?
Simple method: using middle-frequency words
Frequency/Informativity
frequency
informativity
3.4数据库的建立和维护
3.4.1数据库的类型
参考数据库 源数据库
参考数据库(Reference databases)
是指引用户到另一信息源以获得原文或其 他细节的一类数据库。它包括
书目数据库(Bibliographic databases) 指南数据库(Referral database或
源数据库(Source databases)
是指能直接提供原始资料或具体数据的数据库,用户 不必再查阅其他信息源。它可以分为: (1)数值数据库:这是一种专门提供以数值方式 表示的数据的源数据库,如统计数据库、财务数据库 等。 (2)文本-数值数据库:这是一种能同时提供文 本信息和数值数据的源数据库,如企业信息数据库、 产品数据库等。 (3)全文数据库:这是一种存储文献全文of indexing
Each document is represented by a set of weighted keywords (terms):
D1 {(t1, w1), (t2,w2), …}
e.g.
D1 {(comput, 0.2), (architect, 0.3), …}
3.1.2信息检索系统的类型
(1)按设备划分 书本式检索系统 卡片式检索系统 穿孔卡片检索系统 缩微胶卷检索系统 计算机检索系统 光盘检索系统 多媒体检索系统
3.1.2信息检索系统的类型
(2)按照功能划分 文献检索系统:狭义的信息检索系统 数据库管理系统:面向结构化数据 自动问答系统:自然语言处理、事实检索 管理信息系统:面向管理人员 决策支持系统:数据分析
nk the number of documentsin C that contain Tk
idfk

log
N nk

3.3标引处理
3.3.4中文自动标引
中文和西文(英文)的不同 中文标引关注词语切分,对于词语加权关
注较少。 词语切分方法 (1)词典切分法 (2)单汉字法
3.3标引处理
3.3.1基本概念
标引:indexing,对信息资源的各种检索 特征进行分析并使之显性化。
标引深度:衡量标引详尽性,标引词对每 条记录各方面内容表达和识别的详尽程度
标引专指度:衡量标引词对记录特定内容 描述的精细程度。
标引方式:人工标引和自动标引 抽词标引和赋词标引
3.2 信息检索系统的构成
3.2.1 计算机检索系统的物理结构
计算机检索系统由计算机硬件、软件、数据库和通讯网络构成。
(1)硬件:是包括具有一定性能的主计算 机、外围设备以及与数据处理或数据传送 有关的其他设备。
(2)软件:由系统维护软件与检索软件构 成。检索效果。
(3)数据库:在计算机存储设备上按一定 方式存储的相互关联的数据集合。
8
信息检索系统的逻辑构成
(5)用户接口子系统。它的全称为“系统-用
户接口”(system-user interface),简称 用户接口。它的任务是承担用户与系统之间的 通信功能,通常由用户模型、信息显示、命令 语言和反馈机制等部分构成。
(6)提问处理子系统。该功能模块的任务是负 责处理用户输入的提问式,并将它们与数据库 存储的数据进行比较运算,然后将运算结果输 入给用户。该模块主要由检索程序构成,包括: 接收提问、提问校验、提问加工和检索。
子字段(subfield)是字段的下一级数据单位。在有些 字段中,它们的值往往由多个子项构成。例如,作者 字段可能含有多个作者,出版字段含有出版者、出版 地和出版年,主题词字段含有若干个主题词。
(4)文档:若干个逻辑纪录构成的信息集合。
(5)逻辑记录:某些逻辑上相关联的数据组 织在一起的数据集合称为逻辑记录。
Directory database)两种
参考数据库
(1)书目数据库是指存储某个领域的二次 文献(如文摘、题录、目录等书目数据)的 一类数据库,如中国机械工程文摘数据库, 属于此类型数据库。
(2)指南数据库也称指示性数据库,是指 存储关于某些机构、人物、出版物、项目、 程序、活动等对象的简要描述,指引用户从 其他有关信息源获取更详细的信息的一类数 据库。如产品目录、机构名录、研发项目、 基金项目等数据库均属于此类型。
2020/3/3
5
3.2 信息检索系统的构成
3.2.2检索系统的逻辑结构
信息源选择与采集子系统 标引子系统
词表管理 子系统
提问处理子系统 用户接口子系统
建库子系统
2020/3/3
6
信息检索系统的逻辑构成
(1)信息源选择与采集子系统。该功能模块的任务主要 是根据系统需要,采取人工或者计算机自动方式,从众 多信息源中选择和采集符合需要的信息资源。在有些计 算机检索系统中,此部分还承担转换数据格式的任务。 (2)标引子系统。该功能模块的任务主要是对收集的信 息资源进行内外部特征分析,并借助词表系统,对每条 数据进行标引。目前,主题标引和分类标引主要是靠人 工标引,而抽词标引主要是由计算机完成。
Max.
Min. 123…
Rank
14
3.3标引处理
3.3.3自动标引中的词语加权方案
(2)逆文档频率法 英文Inverse Document Frequency,基于以下假设:
相关主题