当前位置:文档之家› 信息检索的概率模型-

信息检索的概率模型-

信息检索的概率模型
一、综述
一、信息检索技术
由于以因特网为主体的信息高速公路的不断普及和发展,信息技术已经渗透到我们社会生活的各个角落,正以前所未有的速度和能力改变着我们的生活的工
作方式,我们真正处于一个“信息爆炸”的时代。

一方面,因特网上面蕴含的海
量信息远远超过人们的想象;另一方面,面对信息的汪洋大海,人们往往感到束手无策,无所适从,出现所谓的“信息过载”和“信息迷向”的现象。

于是一个
极富挑战性的课题:如何帮助人们有效地选择和利用所感兴趣的信息,尽量剔除不相关的信息。

同时保证人们在信息选择方面的个人隐私权利?成为学术界和企
业界所十分关注的焦点。

随着在线文本的日益增多,其中包括新闻、电子杂志、电子邮件、技术报告、文档以及网上图书馆。

如此众多的信息,仅仅依靠大脑来收集和整理所需要的信
息显然是不够的。

所以,自动收集和整理所需要的各类信息成为信息产业面临新
的挑战和新的发展契机。

根据不同的应用背景和不同的使用目的,信息处理技术已经演化信息检索、信息过滤、信息分类、问题回答等方向。

由于目前网上信息的表现形式大多数为文本,而且文本也是广大用户所习惯接收的形式。

因此我们在下面主要讨论中文文本检索和相关的评价方案。

1、信息检索技术的发展
信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据
信息用户的需要找出有关的信息的过程和技术。

狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程。

信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务
项目。

1945年,Vannevar Bush的论文《就像我们可能会想的……》第一次提出
了设计自动的,在大规模的存储数据中进行查找的机器的构想。

这被认为是现在信息检索技术的开山之作。

进入50年代后,研究者们开始为逐步的实现这些设
想而努力。

在50年代中期,在利用电脑对文本数据进行检索的研究上,研究者
1。

相关主题