1. 信息检索的原理:从下图可以看出,信息存储和信息检索有两个交汇处:一个是直接的,即表达信息主题内容的词语与表达需求主题内容的词语之间进行对比的交汇;另一个是间接的,即通过检索语言进行沟通,确保把存储用词和检索用词都统一到同一个检索语言体系中(对于自然语言检索系统来说,不存在存储与检索的间接交汇处)。
2.信息检索系统的物理结构一般包括硬件 软件 数据库3个部分。
信息检索系统的逻辑结构3.信息检索的研究内容包括以下几个方面:(1)信息检索理论研究(2)信息检索方法研究(3)信息检索技术研究(4)信息检索语言研究(5)信息检索系统研究(6)信息检索服务研究(7)信息检索评价研究。
4. 任何检索策略都包括3 个部分:文档表示 查询表示 匹配函数。
5..信息检索模型到底是什么?其描述如下:信息检索模型是一个四元组/D ,Q ,F ,R(qi, dj)/:(1)D 是文档集中的一组文档逻辑视图(表示),称为文档的表示;(2)Q 是一组用户信息需求的逻辑视图(表示),这种视图(表示)称之为查询;信息检索过图1-1 广义信息检索的基本图1-9 信息检索系统逻辑结构(3)F是一种机制,用于构建文档表示,查询及它们之间关系的模型;(4)R(qi, dj)是排序函数,该函数输出一个与查询qi ∈Q和文档表示dj ∈D有关的实数,这样就在文档之间根据查询qi定义了一个顺序。
6经典模型: 布尔模型向量模型概率模型。
7对于布尔模型而言,标引词权值变量都是二值的,即wi,j∈{0, 1},查询q是一个常规的布尔表达式。
用qdnf表示查询q的析取范式,qcc表示qdnf的任意合取分量。
文档dj和查询q的相似度可以定义为:地址是指该行所在展开表中的地址;匹配成功时转向地址AFD,给出一旦在检索词与文献记录中标引词匹配成功时,下一步应该处理的提问检索词在提问表中的地址;匹配不成功时转向NFD地址,给出一旦检索词与标引词匹配失败时应该转向展开表中的地址;“层级值” 栏表示当前检索词在提问式中的层次级别;.8.布尔模型优缺点:优点:一是实现起来比较容易,速度快,计算的代价相对较少;二是查询语言表达简单,用户可以使用任意复杂的查询表达式,故得到广泛的应用.缺点;1布尔逻辑式的构造不易全面反映用户的需求。
2匹配标准存在某些不合理的地方。
3检索结果不能按照用户定义的重要性排序输出。
9.( t1 and t2) or ( t3 not t4) 或者qj = ( t1 ∧t2) ∨( t3 t4)。
10.计算机信息检索的基本原理仍是“匹配运算”,但是却不同于手工检索的“匹配运算”方式。
计算机匹配过程中,需要将检索提问式转化成计算机可以识别的形式,并且要使用系统中特定的检索指令、检索词和检索策略,由计算机自动对数据库中各文档记录进行查找。
当检索标示、检索策略与数据库中的信息标示关系一致时,即为命中,将结果输出给用户。
11.逻辑提问式即为Q=A*B*C*D.表展开法是将每个逻辑提问式转换成一个展开表, 如果有N个提问式就可做N个展开表。
每个检索词对应表中的一行。
其一般格式如下:展开表的生成,根据算法描述的顺序方向划分为两大部分:前处理部分和后处理部分。
前处理部分,也叫正向扫描处理部分。
按照逻辑提问式各项因子出现的先后顺序从左到右依次处理。
前处理算法描述:后处理算法: 1. 从最后一行条件满足指向栏往上推,如果遇到空,则置入下面最临近的且级位小于该栏的条件满足指向栏的内容,或最后一行条件满足指向栏的内容 2. 从最后一行条件不满足指向栏往上推,如果遇到空,则置入下面最临近的且级位小于或等于该栏的条件不满足指向栏的内容,或最后一行条件不满足指向栏的内容 例:逻辑提问式(A+B)﹡(C+D)﹡E 的展开表形式11.布尔检索 截词检索怎么实现的?布尔检索就是利用布尔代数中的逻辑与、逻辑或、逻辑非等运算符,将检索提问式转换成布尔表达式,计算机根据表达式查找符合限定条件的文献。
所谓截词(truncation ),是指检索者将检索词在自己认为合适的地方截断;而截词检索,则是用截断的检索词的一个局部去数据库中进行检索,凡是能与这个词局部中的所有字符(串)相匹配的文献,即为命中文献。
一)字段检索:字段检索是限定检索词在数据库记录中出现的字段范围的一种检索方法。
(二)使用限制符的限制检索:大部分信息检索系统都提供了一类限制符,使用这类符号进行检索,可以从文献的外部特征方面来限制检索结果。
词频加权检索:词频加权检索是根据检索词在文档记录中出现的频率来决定该词的权值,而不是由检索者来指定检索词的权值。
在这一方面,词频加权就消除了人工干预因素。
级位 条件满足指向 检索词代号 地址条件不满足指向 字段号 比较条件 检索词A B C D E 12345 3 3 5 5 1 0 1 0 0 命中 不命中 不命中 不命中2 4 ( 略 )14.全文检索的技术指标既包含几种算法:一)索引膨胀系数二)检索速度邻接检索同记录检索15多媒体包含:磁盘、磁带、光盘等;另一是指信息的表现或传播形式,如声音、文字、图像、动画等。
多媒体的含义并非多媒体本身,二是处理与应用它的一整套技术。
多媒体技术的关键特征1)多样(2)集成性(3)交互性(4)实时性(5)互补性这5个特性缺一不可。
其中,多样性、实时性和互补性是基础,集成性是手段、方式或形式,交互性是核心或灵魂。
多媒体数据模型概述:数据模型就是在计算机数据世界中建立的计算机能接受的对现实世界中所要研究对象的抽象描述。
多媒体系统的数据模型的基本任务是:1.表示各种不同媒体数据的构造及其属性特征;2.指出不同媒体数据之间的相互关系。
多媒体数据模型概述:二)多媒体数据模型的体系结构一个完整的多媒体数据模型应该是对多媒体信息系统的信息和数据的内容、不同媒体对象或由它们合成的复合对象的表现、内容与表现之间的映射/对应关系进行组织结构上的抽象概括和规范描述的一个整体。
内容表现多媒体数据压缩的基本要求。
对数据进行压缩处理一般具有以下基本要求:(1)可还原(2)压缩比高(3)重现质量好(4)计算成本低(5)实时性好视频压缩的标准.;/视频压缩的一个重要标准是MPEG,即运动图像专家组(Moving Picture Expert Group)基于内容的多媒体信息检索原理:(一)基于文本的多媒体信息检索的局限性(二)基于内容的多媒体信息检索的特点及应用(三)基于内容的多媒体信息检索系统的体系结构基于内容的图像检索:基于内容特征的图像检索技术(content-based image retrieval,简称CBIR),主要依据图像的画面内容特征和主题对象特征(即图像的实际内容)来标引和检索。
基于内容的图像检索分类:颜色检索形状检索文理检索草图检索对象检索由于传统的搜索引擎在设计方面存在局限性(集中式的体系结构,通过网络爬行器收集信息),因此它们无法提供高准确度、搜索实时更新的数据库的服务。
因此,开发一个新的搜索框架,支持“点对点”,按照层次进行分布式搜索成为今后搜索引擎发展的趋势。
17.WWW是World Wide Web的简称,又常简称为Web。
目前Internet上Web信息资源的检索方法主要有三种基本形式:基于超文本/超媒体的信息浏览、基于目录的信息查询和基于搜索引擎的信息检索。
18超文本是由信息节点和表示信息节点间相关性的链构成的一个具有一定的逻辑结构和语义的网络:①数据库层;②超文本抽象机层;③用户接口层。
节点(Node)、链(Link)和网络(Web)是组成超文本的3个要素。
每个节点都有若干指针指向其他节点,或从其他节点指向该节点,这些指针称为链。
由多个链将节点连接起来就组成了一个网络,这就是超文本结构。
超媒体=超文本+多媒体19.HTML语言是一种简单的标记型语言,用于生成超文本。
确切地说,HTML并不是程序语言,而只是被放置在文本周围和内部的一组编码,使它通过浏览器以某种方式显示出来,并被赋予一些特定的属性,如能与另一个文件链接等超文本传输协议: HTTP是一个用于在客户端和服务器间请求和应答的协议。
20.超文本浏览器:Web Browser,也称网络浏览器或网页浏览器,简称浏览器。
浏览器是个显示网页伺服器或档案系统内的HTML文件,并让用户与这些文件互动的一种软件。
ftp:是FTP(档案传送协议)URL(统一资源定位符)21.搜索引擎的概念与基本功能?搜索引擎实际上就是对WWW站点资源和其他网络资源进行标引并提供检索服务的服务器或网站,是一个基于互联网的信息搜集、组织和用户查询的平台。
(一)一般检索功能布尔逻辑检索词组检索截词检索位置检索字段检索(二)高级检索功能加权检索自然语言检索多语种检索区分大小写的检索模糊检索概念检索22.搜索引擎的结构与原理:收集器索引器检索器用户接口1收集器负责信息的采集工作。
搜索引擎的信息采集机制按照人工程度划分,可分为人工采集和自动采集;按照信息时新性,可分为定期搜集和增量搜集两种。
2索引器的功能是理解收集器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表,使检索者能够快速地检索到所需信息。
建立索引需要进行以下处理:(1)信息语词切分和语词词法分析;(2)进行词性标注及相关的自然语言处理;(3)建立检索项索引。
3搜索引擎的检索器负责根据用户的检索请求,从索引数据库中快速查找相匹配的网页,并将结果按顺序以Web 方式呈现给用户。
检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。
4用户接口接受检索者提交的查询请求(包括查询内容及逻辑关系),搜索引擎根据检索者所输入的关键词在其索引中查找,并寻找相应的Web 页地址。
搜索引擎的类型:按信息搜集方法和服务提供方式的不同,搜索引擎可以分为五大类。
目录式搜索引擎 全文搜索引擎 元搜索引擎 集成搜索引擎 智能搜索引擎23.人工智能技术24.专家系统的特征 :根据费根鲍姆的定义,专家系统是一种智能的计算程序。
(1)具备某个应用领域的专家级知识;(2)能模拟专家的思维;(3)能达到专家级的解题水平。
25专家系统与传统的计算机程序的区别:(1)从编程的角度来看:专家系统=知识库+推理机 传统程序=数据+算法(2)传统程序不具备解释功能,而专家系统能对自己的行为作出解释。
(3)传统程序是根据算法来求解的,所以答案每次都是正确的。
而专家系统则像人类的专家一样工作,答案有错误的可能。
但其能从中吸取教训,改进其求解能力。
(4)从处理的对象来说,传统程序是面向数值计算和数据处理的,数据多是精确地,对数据的检索是基于模式的布尔检索;专家系统是面向符号处理的,数据、知识多是不精确、模糊的,对知识的匹配也是不精确地。