信息检索系统导论期末考试题库一、选择题1.下列哪项不属于信息检索的关键技术?(B )A.信息抽取B.文本挖掘C.自动文摘D.链接分析2.TREC测试集主要包括3个部分,下列选项中不是TREC测试集的一部分的是:(C )A.主题B.文档集合C.关键词D.相关性判断3.对向量空间模型、布尔模型及概率模型的表述有误的一项是:(D )A.向量空间模型与布尔模型相比具有较大的优势B.向量空间模型无法揭示索引项之间的关系,因而向量空间模型在理论上还是不够完善C.布尔模型是最早提出的信息检索模型D.概率模型也称二值独立检索模型。
它是在向量空间模型的基础上为解决检索中存在的一些不确定性而引入的。
4 利用文献后面所附的参考文献进行检索的方法称为(A )A.追溯法B.直接法C.抽查法D.综合法5、逻辑“与”运算符是用来组配()A.不同检索概念,用于扩大检索范围B.相近检索概念,扩大检索范围C.不同检索概念,用于缩小检索范围D.相近检索概念,缩小检索范围6、在《中国学术期刊全文数据库》中,不可以进行()检索A.逻辑与B.逻辑或C.逻辑非D.位置7、若想在《中国学术期刊全文数据库》中提高检索结果的查准率,可使用()A.在结果中检索B.优先算符C.或者D.位置检索9、下列检索式中,哪一种属于逻辑“与”?( B )A.室内装饰+室外装饰B.音乐﹡教学C.神雕侠侣–电视剧D.火星︱金星10、下列不属于查询构造方法的是:()A 分类查询B 单一词查询C 布尔查询D 上下文查询11、PageRank算法的理论基础是随机冲浪模型,该模型描述了网络用户对网页的访问行为。
下列不属于用户访问行为特点的是:()A 用户选择的起始网页是固定的B 用户会从起始网页含有的超链接中随机选择一个页面继续浏览C 当用户沿着超链接前进了一定数量的网页后,可能会对本主题厌倦,这时用户会重新随机选择一个网页进行浏览D 用户会重复以上的过程若干次12、信息过滤系统是应用信息过滤技术处理信息的应用系统,下列对其特点的说法错误的是:()A 信息过滤系统是针对无结构的或半结构化的数据设计的信息系统,这与传统的数据库应用有着本质的区别B 信息过滤系统只处理文本信息C 信息过滤系统一般处理的数据为输入信息流D 信息过滤系统要包含一组对用户过滤需求的描述13、《中国学术期刊全文数据库》提供的文献内容特征检索途径有()A.机构B.篇名/关键词/摘要C.中文刊名D.作者14、维护倒排文件通常需要的操作有( D )文档或文档集合。
A .插入 B. 插入和删除 C. 删除 D. 插入、删除、更新15、单一查询是指由一个()构成的查询。
()A 单词 B. 单词或词语 C. 词语 D. 单词或句子16、下面哪项不是863信息检索评测采用的评价指标( D )A: MAP B:R-Precision C:P@10 D:MRP16、下面那一项不是容易引起歧义的符号( D )A :句号B :撇号C :连字符D :分号17、下列哪一种符号可以用来构成合成词()A 句点B 撇号C 连字符D 其它符号18、下面哪一项不是信息检索按照理论基础的不同划分的模型( D )A:布尔模型 B :向量空间模型 C :概率模型 D :统计语言模型19、下面哪种算法属于著名的集合选择算法?(B )A. KMPB. CORIC. BMD. BF20、下列说法正确的是()A.形态还原就是词干还原,即去除屈折型语言的词尾形态变化,将其还原为词的原形B.系统检索出来的相关文档位置越靠前(排序(rank )值越小),MRR 就可能越高C.概率模型可以采用相关反馈原理,可开发出理论上更为坚实的方法D.向量空间模型是最早提出的信息检索模型21、下面关于平均排序倒数(MRR )计算公式正确的是()n r a n k q M R R A n q ∑==11..∑==r i i r M R R B 1i 1..个相关文档位置第 )(1111..L r MRR C β-=)(1)(11..11L R M MRR D ββ--= 22、在信息检索模型中,()是最早提出的信息检索模型()A 向量空间模型B 概率模型C 扩展模糊集合模型D 布尔模型47、知网是一个以英语和汉语的词语所代表的概念为抽象对象,以(A )为基本单位,掲示概念之间以及概念属性之间的关系为基本内容的常识知识库A字节B字段C词D比特23、关于向量空间模型的优点中,说法错误的是:(D )A 检索结果的相关性排序B 可以控制输出结果的数量C 能够进行相关性反馈D 揭示了索引项之间的关系24、下列选项中不属于信息检索模型的是(D)A:布尔模型B:向量空间模型C:概率模型D:实数型25、准确率与召回率的表达式分别为(A)A.相关文档数与检出文档数的比值,系统检出的相关文档数与实际相关文档数的比值B. 系统检出的相关文档数与实际相关文档数的比值,相关文档数与检出文档数的比值C.检出文档数与相关文档数的比值,相关文档数与检出文档数的比值D.相关文档数与检出文档数的比值, 检出文档数与相关文档数的比值26、下列不属于查询构造方法的是(C )A.单一词查询B上下文查询C相邻词查询D布尔查询27、查询处理技术中有单一查询、下文查询,D 三种查询扩展方法A、短语查询B、相邻词查询C、反馈查询D、布尔查询28、TREC测试集主要包括文档集合②主题③相关性判断④企业检索任务()A①②B①③C①②③D①②③④29、按照顺序表述文献检索常用的五个步骤是(D )A.明确要求和分析课题,选择检索系统,获取原文,确定检索途径和检索策略,实施检索以及调整检索策略B. 明确要求和分析课题,获取原文,确定检索途径和检索策略,实施检索以及调整检索策略选择检索系统C. 明确要求和分析课题,实施检索以及调整检索策略选择检索系统,获取原文,确定检索途径和检索策略D. 明确要求和分析课题,选择检索系统,确定检索途径和检索策略,实施检索以及调整检索策略,获取原文30、万方数据库使用布尔逻辑算符and / or / not .其中A and B 表示(A )A:查找包括A和B的文献,B;查找A与B其中之一的文献,C:查找有A无B的文献。
31、具有概念交叉限定关系的两个检索词之间应该使用(C )A.逻辑或B.逻辑非C.逻辑与D.优先32、具有相近含义的同义词或同族词在构成检索策略时应该使用(A )运算符予以组配。
A.逻辑与B.逻辑或C.逻辑非D.位置33.关于万方数据资源的说法中,正确的是( A )A:以科技信息为主,涵盖经济,金融,人文信息B:以经济信息为主,涵盖科技,金融,人文信息C:以金融信息为主,涵盖人文,经济,科技信息D:以人文信息为主,涵盖金融,经济,科技信息34、在Lucene中建立索引的主要步骤不包括( )A 文档解析B 内容分析C 得出结论D 生成索引35、下列哪项属于典型的基于划分的聚类方法()A k–means算法B 朴素贝叶斯算法C 决策树算法D 统计学方法36、下列哪项不属于信息过滤中应用的统计模型( )A 向量空间模型B 布尔模型C 语言模型D 相关性模型37、下列属于信息检索中的关键技术的是()A 信息融合B 信息抽取C 处理多源信息D 话题检测与跟踪38、下列属于信息检索中的基础研究课题是()A 文本挖掘B 对抗式信息检索B 数字图书馆 D 基因信息检索39属于向量空间模型的缺点的是()A 检测结果的相关性排序B 可控制输出的结果和数量C 能够进行相关性反馈D 认为索引项相互独立,未能结实词语间关系40、下列不属于文本操作技术中的断词操作技术的是()A 句点B 撇号C 连字符D 未登录词识别41、信息检索系统需要事先做一些准备工作,这两项准备工作是(B)A 信息的采集与分类B 信息的采集与加工C信息的分类与标引 D 信息的分类与摘要42、信息检索的处理对象是(C)A 结构化信息B信息集合C非结构化信息D相关信息43、下面不属于基于语言模型的检索模型的是(D)A、查询相似度模型B、统计翻译模型C、风险最小化模型D、隐性语义索引模型44、试图通过统计学和概率论对自然语言进行建模,从而获取自然语言中的规律和特性,以解决语言信息处理中的特定问题。
属于下列的哪种的模型(A)A、统计语言模型B、扩展布尔模型C、概率模型D、向量空间模型45、下列选项中不属于文本操作技术的中文词法分析的是(A)A、断词B、最大匹配法C、歧义词切分D、未登录词识别46、利用选定的检索工具由近及远地逐年查找,直到查到所需文献为止的检索方法是(A )A、倒查法B、顺查法C、追溯法D、抽查法47、下列那一个不是衡量一个语料的指标(A)A 准确率B标注的一致性C错误率D标注规范48、只知道某书的ISBN,应选择那种检索途径(D)A 分类检索B主题检索C著者检索D信息代码途径49、Google是那种类型的检索引擎(C)A 关键词型B目录型C集合型D专用型50、下列哪项不是web搜索引擎系统的子系统(D)A:web数据集系统B:网页预处理系统C:检索结果排序系统D:阅读理解系统51、TREC测试集主要包括几个部分(B)A 1个B 3个C 4 个D 5个52、信息检索的概念是(B)A 是指用来实现信息检索功能的计算机软件系统。
B 是指从非结构化的信息集合中找出与用户需求相关的信息。
C 信息检索是一门多学科的交叉的应用技术学科。
D 信息检索是利用各类媒体处理技术对信息进行加工,找出一定的机构。
53、一般来说,关键词出现在文献的不同字段表达的相关性不同,以表达的相关性从强到弱排序如下:( )A. 关键词>标题>文摘>正文B. 关键词>文摘>正文>标题C. 标题>关键词>文摘>正文D. 正文>文摘>关键词>标题54、信息检索模型按照理论基础的不同可划分为布尔模型、()、概率模型以及基础知识的模型。
(B )A、统计模型B、向量空间模型C、全文模型D、数据模型55、统计语言模型试图通过统计学和对自然语言进行建模,从而获得自然语言中的规律和特性。
(A )A 、概率论B、布尔模型C、高等数学D、向量56、面向用户的测度方法包括覆盖率、新颖率、相对查全率、(C )。
A、时间效率B、空间效率C、召回率负担D、出错率57、中文检索系统主要有两种检索方案:基于字的检索和(C )。
A、基于句子的检索B、基于文章的检索C、基于词的检索D、基于符号的检索58、信息检索的对象包括文字、(A )、音频、视频等。
A、图片B、文档C、网页D、数据59、下面不属于基于语言模型的检索模型的是(D)A、查询相似度模型B、统计翻译模型C、风险最小化模型D、隐性语义索引模型60、下列有关召回率与准确率正确的是(A )A、准确率为检索的相关文档数与检出文档数的比值。