当前位置:文档之家› 个性化网络信息检索系统

个性化网络信息检索系统

●鲍 君(北京师范大学信息管理系 北京 100088)个性化网络信息智能检索系统设计 摘 要:本文结合现有的智能技术,提出了一个个性化网络信息智能检索模型。

该模型能够对用户行为进行学习,从而建立一个反应用户兴趣的用户模型。

而针对网络分布式的特点建立的检索代理模型,则能够通过对大量用户数据的分析积累丰富的知识。

通过用户模型与检索代理模型的交互过程,向用户提供满意的检索结果。

关键词:信息检索;智能代理/检索模型;个性化信息服务Abstract:This paper puts forward a m odel of individual netw ork in formation intelligent retrieval according to the characteristics of distributed netw ork res ources and the users’interest.The system can learn what users need by studying their behaviors during the process of retrieval and then build a m odel for them,which can reflect their interest in certain field.Meanwhile,the retrieval agent,which runs on the server side,can learn abundant knowledge through interacting with a group of people.Therefore,the system can provide users with satis fying results by interaction between the user m odel and the retrieval agent m odel.K eyw ords:in formation retrieval;intelligent agent/retrieval m odel;individual in formation service 因特网的发展,使人们真正感受到信息化时代的气息。

然而,人们却越来越感受到因特网这个“数字时代的图书馆”并不像真正的图书馆那样支持有组织的信息管理和检索。

恰恰相反,其无限性和无序的组织方式,使之更像一个杂乱的信息仓库,各种形式的资源分布在不同的位置上,使其从根本上丧失了结构性,转瞬即逝的普通信息与具有持久价值的重要资料混杂在一起,这一切都对网络资源的利用造成了很大的困难。

搜索引擎的出现,曾一度给人们带来惊喜,并且目前也被广泛应用。

但由于多数搜索引擎处理信息的方法都比较原始,即通过对WWW页面进行索引和关键词匹配来满足用户的检索请求。

这种方法有其自身难以克服的缺点:①任何一个搜索引擎的索引也无法覆盖整个网络资源,因而,其返回结果是不完全的;②由于采用简单的关键词匹配模式,搜索引擎对一条检索请求可能返回数以千计的结果,而且其中常涉及一些无关的网址,用户必须在此基础上对结果进行二次筛选,这不仅增加了用户的负担,同时也降低了处理效率。

因而,人们期待着更为有效的网络检索工具的出现。

新的网络检索工具应尽可能满足不同用户的个性化需求,在检索的准确性和有效性方面达到要求。

1 个性化智能信息检索系统框架系统的总体设计思想是根据用户在特定领域中的兴趣偏好,在客户端定制一个用户模型,通过对用户行为的监测,来不断地修改和维护这一模型,从而提高用户模型与其实际兴趣偏好的吻合度。

用户模型的工作实际上就是对用户兴趣的推导和表征过程。

用户模型的作用主要包括:①获取与用户相关的信息;②对用户的能力和爱好确定表示方法;③预测用户潜在兴趣的转变并做出相应的调整。

用户模型是实现个性化服务的一个重要方面,模型的准确性是系统检索结果相关性高的基础。

用户模型的建立涉及到多个模块的协同工作,主要的功能模块包括:①用户界面;②查询模块;③用户行为监测模块;④知识库;⑤信息库管理模块;⑥智能代理模块。

系统框架如图1所示。

图1 系统总体框架111 用户界面用户界面是用户与系统交互的窗口,优化的界面不仅为用户的操作提供了极大的方便,也为系统更好地接收用户反馈信息提供了基础。

传统的用户界面一般只具有接收用户检索请求和反馈结果的功能。

而作为信息用户与智能信息检索系统的接口,它还应具备获取用户反馈信息和对用户行为进行动态监测的功能。

具体表现为:1)用户个人档案。

当用户首次登录时,系统允许用户通过注册建立起自己的个人档案,内容涉及用户身份、知识背景、兴趣领域等方面的内容。

用户档案的建立可以使系统便于对用户兴趣进行后续分析,且为具有相近兴趣的用户进行分组提供了基本的信息来源。

2)虚拟用户界面。

用户界面是由一系列单独的界面组合而成的整体,包括检索接收界面,交互式学习界面等。

界面之间彼此联系构成了与用户交流的有效平台。

系统可以根据用户的操作特点对界面布局进行动态改造,形成符合用户操作习惯的虚拟界面,突出用户的个性化特征,提高使用效率。

3)检索反馈控制。

用户对系统的返回结果拥有一定的控制权,体现在:用户可根据自身的操作习惯定制结果显示模式(排序方式、详尽程度等),处理方式(浏览、下载、打印等)。

此外,系统还建立了检索结果的评价机制,鼓励用户对检索结果给出量化的评价值,该值会被存储在网页数据库中,以方便系统进行学习,调整网页的相关度,使用户的下一次访问能够得到更为准确的结果。

112 查询模块查询模块处于整个系统的核心位置,在系统运作中起着十分重要的作用。

传统检索系统的主要功能集中在用户查询词与已标引的网页资源的简单匹配上。

这种仅局限在词形层次上的匹配方式,针对网络信息环境,其漏检率很高。

并且,由于缺乏对用户反馈信息的处理,系统的整体检索效率并没有很大的提升空间。

本系统充分考虑到上述问题,对查询模块做出了相应的改进,使其具有智能性,能够对用户的查询请求进行自主性判断,选择合适的处理方案,将最相似的检索结果提交给用户。

当用户从检索界面提交了一个查询请求后,查询模块首先访问知识库中的用户信息表,获取该用户的兴趣点,这里,用户的每一个兴趣点用一组关键词来表征,将其与查询词进行比较,验证它是否属于用户已存在的兴趣:①若属于用户兴趣,则直接利用描述该兴趣的关键词通过信息库管理模块与本地个性化信息库中的资源进行匹配。

系统中个性化信息库同样按照兴趣类存储。

②若查询词不属于任何一个用户已有的兴趣,那么它有可能涉及一个新的知识领域,系统将其提交给智能检索代理进行新的查询操作,并将查询结果按上述规则保存在本地信息库中,从而丰富信息库的内容。

通过访问兴趣表可对用户的查询进行扩充,扩大用户的知识面,丰富检索结果。

由于系统中描述用户兴趣点的关键词是从具有相近任务的智能代理(Agent)那里学习得到的,因而准确率很高,对用户有很好的提示作用。

这是本模块智能性的一个重要体现,它不再局限于用户某一次的检索输入,而是把检索请求进行概念上的扩充,并与用户的检索历史联系起来,这对检索效果的改善将起到至关重要的作用。

并且,检索模块能够根据用户的实时反馈对检索结果进行动态调整,即通过对检索结果重新排序使与用户相关的结果被排在更为显著的位置。

这一点是通过计算网页间的相关度值实现的。

113 用户行为监测模块用户行为监测模块是系统学习的主要手段,它是一种所谓的“被动式”学习,即在没有用户直接参与的情况下,通过对用户行为的观察来理解用户的意图,从而改进系统的服务模式。

这种学习过程对用户是透明的。

本系统中用户行为监测主要有以下几方面功能:1)记录用户对结果显示中每个页面链接的点击次数,用一个权值来代表它的点击频度,用户每点击一次,该权值就作相应的增加,以此来学习各超链接对用户的重要程度。

2)计算用户对页面的浏览时间,时间越长则认为该页面的相关度越高。

3)记录用户对文档特定部分的操作,如对某一部分的复制,往往这些部分含有用户所需的重要内容,模块通过对这些部分进行分析,可以准确抓住用户的兴趣点。

用户行为监测模块通过以上对用户行为的分析,将结果反馈到知识库的相关表中,使用户的下一次查询能够得到更优化的结果。

由于行为监测模块依据用户的实际行为做出兴趣推导,因而,具有客观性,是一种有效的学习方法。

对特定用户历史操作行为的分析过程,也是系统增强对用户的理解的过程,因而奠定了实现个性化服务的基础,同时,也是系统智能化的一个重要表征。

114 知识库智能系统的核心在于对用户的学习,从这个意义上讲,知识库的主要作用即在于记载对用户学习的成果。

体现在对用户兴趣的推导、总结、更新和维护。

为了在划分用户兴趣类别时有据可依,知识库还应起到规范知识体系的作用。

为此,系统中将知识按照一种分级索引模型进行组织,这种分级结构能够促进知识库的有效搜索和对知识库的动态管理。

该模型自然而动态地表达了知识的层次结构。

便于对其进行语义上的扩充,如当用户查询与某个知识点有关的兴趣时,很容易找到其更高层次上的相关知识,从而从概念上对查询作出扩充。

我们在建立知识体系时只将最常用的知识领域列在其中,在用户的使用过程—224—・第27卷2004年第4期・中,系统会根据用户不断提出的新的需求来扩充自身,使其不断完善。

随着用户对系统使用频率的增多,知识库也会因不断注入此用户的思想而变得具有个性特征。

知识库对用户兴趣的学习主要体现在以下方面:①用户可以根据自己的知识背景对知识体系中不适合自己的知识点进行人为修改,但对于已在实践中得到了广泛验证的体系结构,不允许用户修改,以防止用户的误操作,知识库管理程序会给用户设定相应的权限。

这是系统的“主动式”学习,它具有直观性的特点,并且有助于加快系统的学习速度。

②根据用户行为监测模块提交的用户行为分析结果,归纳出用户在一段时间内检索过的兴趣点,增加其在知识库中的权值,以巩固用户这方面的兴趣。

将新增兴趣按知识体系添加到相应位置,并赋予一个较大的权值,而对用户一段时间内没有访问过的兴趣,减少它的权值。

这样,一段时间以后,知识库中的兴趣点将会随用户潜在兴趣的迁移而相应地发生变化,进而实现对用户兴趣的动态追踪。

通过以上两种方式的学习,知识库能够很好地把握用户的兴趣点,并具有根据用户兴趣调整而做出反应的自适应能力,较好地实现了系统与用户的交互。

115 信息库管理模块信息库管理模块的职责是管理本地的个性化信息库(Pers onalized In formation Database,PI D),PI D中的信息按照兴趣类存储。

每个兴趣类都与知识库中的知识点相对应,依照知识库的变化,信息库管理模块会对个性化信息库进行定期检查,把不符合用户兴趣的类及其相应的资源删去,加进用户新产生的兴趣类,并利用智能Agent在网络上寻找相关信息,存储在本地信息库中。

相关主题