第二章 信息检索基础
2014-5-26
18
数据检索以具有数量性质,并以数 值形式表示的数据为检索目的和对象, 检索的结果是经过测试、评价过的各种 数据。
数据文件组织方式不同,数据检索 的技术方法亦不同。对于顺序结构文件 ,常见方法有顺序检索、分块查找法、 两分检索等。
对于随机结构文件,常采用直接地 址法、杂凑(hash)法等。地理信息系 统中空间数据检索常涉及目标空间分布 范围(行政区域、地理范围或空间关系 等)及目标属性类型(地形高度、坡度 、土地利用现状等)两个方面的综合条 件。
根据研究文摘历史的专家弗西斯·威蒂( Francis J. Witty)介绍,一种用途类似于文摘 的工具首先出现在公元前两千年美索不达米亚 人用楔形文字写成的文献的陶制封套上。
我国最早带有内容摘要的图书目录是西 汉刘向、刘歆父子整理编撰的《别录》和《七 略》。古代使用文摘的人有学者、政治家,还 有教皇和僧侣。
第四阶段:网络检索阶段。
网络信息检索开始于20世纪90年代初。 1991年思维机等公司、明尼苏达大学、欧洲高 能粒子协会分别推出了因特网上的检索工具 WAIS、Gropher和WWW。
目前,WWW因其集文本、图像、声音等 多媒体信息于一体的巨大优点,已占信息服务 的主导地位。
在该阶段,系统大多采用分布式的网络化 管理,其信息资源的主要特点是:数字形式表 达、多媒体和多取复杂、 用户界面要求高等。
信息检索多语种化 多语种信息检索将依然是未来网络信息检索 的研究热点,现在对多语种信息检索的支持主 要体现在预先设定检索语言,
其检索结果也限制在预先设定的语言中 。而使用某一种语言直接进行多语种检索,提 供多语种的匹配结果将是多语种信息检索的下 一个方向。
这种单一检索界面的检索将在后台有一个多 语种词库,对用户提交某一语种的检索词自动 在词库中查找对应其他语种的检索词,再提交 给搜索引擎,以多语种检索结果输出给用户。 这种多语种、多信息检索需要机器翻译技术的 支持,并且需要对多语种检索得出的输出结果 相关度或重要性排序进行研究。
5 信息检索的意义
二 信息检索语言
2014-5-26
80
1 检索语言概述
光电信息检索系统:使用缩微照相记录 二次文献,以胶卷或胶片边缘部分若干黑白小 方块的不同组合做检索标志,利用光电检索元 件查找文献的检索系统。
计算机信息检索 起源于20世纪50年代初,1954年美国海 军兵器中心图书馆利用IBM701机开发计算机检 索系统,它标志着计算机信息检索阶段的开始 ,计算机信息检索可以分成四个发展阶段。
信息检索个性化 个性化是指各网站注重内容的特色化和注重 个性化的服务内容。个性化服务的实质在于提 供真正适应用户需要的产品。
事实上,网上已经开始出现专门收录某 一领域信息的网站,尤其是在一些热门领域, 如StockSite()提供股 市分析文章、股票分析工具、公司研究文章及 与商业和金融相关的新闻。
2014-5-26
38
文摘和索引工作,(都是二次文献)从编 辑、出版和基本目的几个方面来看有许多共性 。两者之间主要差别在于包含的情报内容。
索引刊物只提供文献资料出处,文摘刊物 除此之外,还提供专业内容。文摘是重要的, 但从利用方面来说,不见得它就一定比索引好
在大多数情况下,没有文摘的索引刊物往 往具有很好的及时性。这与文摘所能提供的对 文献内容的揭示具有几乎同等的重要意义。这 就是为什么在同一专业领域内,文摘和索引工 作往往是长期共存的原因所在。
机械信息检索阶段分为 机电信息检索系统:使用诸如打孔机、验 孔机、分类机等机电设备记录二次文献,用电 刷作为检索元件的信息检索系统。
电刷在电机旋转部分与静止部分之间传导 电流的主要部件之一。具有良好的滑动接触特 性(如摩擦系数、耐磨性等),对电阻率和接触 电阻等也有特殊要求,通常以石墨为主要原材 料。
Information Retrieval
第一章 信息检索基础
2014-5-26
2
一信息检索概述
1 信息检索原理 广义 狭义
2014-5-26
3
所谓信息检索,广义地说,是指将信息 按照一定的方式组织和存储起来,并能根据信 息用户的需要指出其中相关信息的过程,因此 它的全称又叫“信息存储与检索”。
信息整序可分为形式整序和内容整 序两类。它们是根据代表信息外在属性 的标识(如著者姓名、题名、序号等) 和内在属性的标识(如分类号、主题词 等)排列信息的。
如以信息的著者姓名为标识,可以 把所有信息按照著者姓名的字顺排列起 来。用户只要知道著者姓名,就可以按 著者姓名字顺的信息序列中(著者索引 )查到所需信息。
一般说来,一个计算机信息检索系 统应由三部分构成:计算机硬件、计算 机软件、数据库。目前计算机信息检索 主要有联机信息检索、光盘信息检索、 网络信息检索等。
3 信息检索发展历史
手工信息检索阶段 机械信息检索阶段 计算机信息检索系统阶段
2014-5-26
37
手工信息检索 信息检索直接发源于文摘索引工作和 参考咨询工作。文摘工作的历史可以追溯到远 古时代。
检索语言沟通了信息的存储和检索 两个过程,是标引员和检索者双方思想 的桥梁,是检索工具或检索系统的重要 组成部分。
2 信息检索类型
检索对象的形式 文献检索、数据检索、事实检索、多 媒体检索
文献检索是以文献(包括文摘、题 录或全文)为检索对象的信息检索。文 献检索是信息检索的主要形式,文献检 索是一种相关性检索,即不直接解答用 户所提出的技术问题本身。
信息检索可视化 信息检索中的可视化,是将数据库中不可见 的语义关系用图像形式可视化显示,并表达用 户检索过程。
可视化信息检索包含两个方面:一个是 检索过程的可视化,另一个是检索结果的可视 化。检索过程的可视化是指用户在检索过程中 各检索对象之间的关系以可视化的形式展现在 用户面前,用户顺着可视化的检索画面一步一 步地发现检索结果。
这种方式不需要更多的设备,不受 时间、地点限制,检索者只要有手工检 索工具即可。
计算机检索是通过计算机来模拟人 的手工检索过程,由计算机来处理检索 者的检索提问,将检索者输入检索系统 的检索提问(即检索标识)
按检索者预先制定的检索策略与系 统文档(机读数据库)中的存贮标识进 行类比、匹配运算,通过“人机对话” 检索出所需要的信息。
(3)信息特征标识与检索提 问标识的匹配
实际上就是将标识员对信息内容的 表达(信息特征标识)与检索者对信息 需要的表达(检索提问标识)进行相符 性比较的过程。信息检索就是通过信息 特征标识与检索提问标识的匹配来实现 的
为了实现这一匹配,标引员的标引 用语和检索者的检索用语必须采用一种 共同的语言,这就是检索语言。
4 信息检索发展趋势
信息检索智能化 智能化是信息检索未来的主要发展方向。 智能检索是基于自然语言的检索形式,机器根 据用户所提供的以自然语言表述的检索要求进 行分析,而后形成检索策略进行搜索。
2014-5-26
66
近年来,Internet上不断涌现的人工智能 产品,如智能搜索引擎、智能浏览器、智能代 理、知识共享智能体等,它们将提高网络信息 检索的智能化程度,促进智能信息检索的发展
但事实信息检索过程中所得到的 事实、概念、思想、知识等非数值性信 息和一些数值性信息须进行分析、推理 ,才能得到最终的答案,
因此要求检索系统必须有一定的逻 辑推理能力和自然语言理解功能。例如 ,要想得到中国发明专利历年的申请案 中,国外来华申请历年所占的百分比是 多少这一事实信息,就需要对历年的数 据进行统计,然后进行比较分析,才能 得出具体答案。
检索手段
手工信息检索、计算机信息检索
手工信息检索即通过手工进行的信 息检索,它主要利用各种印刷型检索工 具,如书本式目录、索引、文摘及参考 工具书等等来进行信息检索与查询。
2014-5-26
30
检寻图书资料的一种工具。将书刊 中的内容或项目分类摘录,标明页数, 按一定次序排列,附在一书之后,或单 独编印成册,以便读者查阅。旧称通检 或备检。也称引得。如:《十三经索引 》;《二十四史纪传人名索引》;《古 今人物别名索引》。
这个阶段的特点是联机数据库集中管理, 具有完备的数据库联机检索功能,但其数据通 信能力较差。
第三阶段:光盘检索阶段。
光盘检索阶段始于20世纪80年代中期。 1985年世界上第一个CD-ROM数据库BIBLIFILE 的问世,是光盘检索系统实用化的标志。
这个阶段比较特殊。在发达国家,光盘检 索是联机检索的支持和补充,但在通信技术不 太发达的国家,由于它本身的优点,确实是用 户获取信息的一个十分重要的手段。
20世纪60-80年代是联机检索试验和实 用化阶段。1960年美国麻省理工学院(MIT) 开始实施有关联机检索系统设计的“技术情报 计划”(TIP),系统发展公司(SDC)也在它 开发的全文检索系统protosynthex上进行了首 次联机检索演示,
该公司后来研制成功的联机信息检索软件 OBIT是联机检索阶段的正式开始。著名的联机 检索系统还有DIALOG系统(属于美国洛克希 德公司,1988年被Knight-Ridder公司购并)等 。
这些特点导致了信息处理从传统模式向 新型模式的转变,如体系结构从终端主机方式 到客户、服务器结构方式,网络环境从局域网 到Internet等开放网络,
应用接口从封闭界面到WWW等,信息结 构从结构化到非结构化,系统功能从单纯信息 检索到综合信息管理和服务等。
这些变化必将促使信息检索技术的不断发 展,以满足人们对提高信息利用能力的需要。 信息检索发展到今天,已经呈现联机检索、光 盘检索和网络检索三者并存的局面。
多媒体信息检索是指根据用户的要 求,对文本、图形、图像、音频、视频 等多媒体信息进行识别和获取所需信息 的过程。
但多媒体信息检索系统并不是简单 地对多种媒体进行检索,它必须既能对 以文本信息为代表的连续媒体的内容进 行检索,