当前位置：文档之家› 信息检索的概率模型-

信息检索的概率模型-

信息检索的概率模型
一、综述
一、信息检索技术
由于以因特网为主体的信息高速公路的不断普及和发展，信息技术已经渗透到我们社会生活的各个角落，正以前所未有的速度和能力改变着我们的生活的工
作方式，我们真正处于一个“信息爆炸”的时代。

一方面，因特网上面蕴含的海
量信息远远超过人们的想象；另一方面，面对信息的汪洋大海，人们往往感到束手无策，无所适从，出现所谓的“信息过载”和“信息迷向”的现象。

于是一个
极富挑战性的课题：如何帮助人们有效地选择和利用所感兴趣的信息，尽量剔除不相关的信息。

同时保证人们在信息选择方面的个人隐私权利？成为学术界和企
业界所十分关注的焦点。

随着在线文本的日益增多，其中包括新闻、电子杂志、电子邮件、技术报告、文档以及网上图书馆。

如此众多的信息，仅仅依靠大脑来收集和整理所需要的信
息显然是不够的。

所以，自动收集和整理所需要的各类信息成为信息产业面临新
的挑战和新的发展契机。

根据不同的应用背景和不同的使用目的，信息处理技术已经演化信息检索、信息过滤、信息分类、问题回答等方向。

由于目前网上信息的表现形式大多数为文本，而且文本也是广大用户所习惯接收的形式。

因此我们在下面主要讨论中文文本检索和相关的评价方案。

1、信息检索技术的发展
信息检索（Information Retrieval）是指信息按一定的方式组织起来，并根据
信息用户的需要找出有关的信息的过程和技术。

狭义的信息检索就是信息检索过程的后半部分，即从信息集合中找出所需要的信息的过程。

信息检索起源于图书馆的参考咨询和文摘索引工作，从19世纪下半叶首先开始发展，至20世纪40年代，索引和检索成已为图书馆独立的工具和用户服务
项目。

1945年，Vannevar Bush的论文《就像我们可能会想的……》第一次提出
了设计自动的，在大规模的存储数据中进行查找的机器的构想。

这被认为是现在信息检索技术的开山之作。

进入50年代后，研究者们开始为逐步的实现这些设
想而努力。

在50年代中期，在利用电脑对文本数据进行检索的研究上，研究者
1。

e商务文档