当前位置:文档之家› 基于数据挖掘的高校图书馆网站个性化推荐系统

基于数据挖掘的高校图书馆网站个性化推荐系统

2011年3月 情报探索 第3期(总161期) 

基于数据挖掘的高校图书馆网站个性化推荐系统 

蔡琬琰 

(新乡学院图书馆 河南453003) 

摘 要:通过分析和提取lit书馆数据库服务器上的网站描述文件和网站日志文件,获得图书馆网站浏览用户的浏览行为模 式,分析图书馆网站网页间的相关性,从而构建模拟的图书馆网站个性化推荐系统,节省搜索网页的时间。 关键词:数据挖掘 图书馆网站推荐系统数据过滤偏好度 中图分类号:G250.72 文献标识码:A doi:10.3969/j.issn.1005-8095.2011.03.030 

图书馆网站是实现传统图书馆向数字化、网络 

化图书馆转变.馆藏文献资源建设向网络信息资源 

建设转变,传统文献传递服务向网络信息导航服务 转变,封闭的办馆模式向开放的社会化办馆模式转 

变的表现形式和手段。图书馆网站的建立关系到图 

书馆在未来社会中的地位。由此,优化图书馆网站检 

索十分重要。本文利用数据挖掘技术就图书馆网站 

中网页个性化推荐系统进行分析。 l 高校图书馆网站的主要功能及存在问题 

1.1 图书馆网站的重要功能 目前图书馆网站的功用主要体现在3个方面: 

(1)介绍本馆的概况和服务,使更多的人了解并愿意 

利用图书馆馆藏,同时加强与用户的交流,方便用户 对图书馆各项工作提出建议。(2)提供联机检索,提 

示馆藏情况和流动情况,使用户节省获取图书馆资 

源所需的时间和精力。(3)提供电子资源信息服务, 

使用户更加方便地获得资料,这一点包括的内容很 

多,如数据库、电子图书、电子期刊等等,这将逐渐成 为图书馆网站最重要的服务内容[1】。 

1.2主要存在问题 (1)网站结构设计不合理,图书馆网站结构设计 不合理,整个网站布局混乱,无意中为用户利用图书 

馆网站获取信息资源设置了障碍,影响了用户使用 

的便利性和实效性[2]。(2)个性化服务程度不高,智 

能化服务内容不多。对大多数高校图书馆网站来说, 

不能根据用户个人的具体需要。提供高质量的、系统 

的信息服务,即不能全面客观地分析用户的信息需 求,对各种信息资源进行过滤,把用户所需要的个性 

化的精品信息资源提供给用户[31。 2个性化推荐系统在图书馆网站中的应用 

2.1 引入图书馆网站个性化推荐系统 高校图书馆的网站是通过利用互联网丰富的计 

算机语言及先进的通讯方式,把相关的资料与相应 的服务结合在一起,提供个性化、多元化和统一化的 

服务,并做到资源和服务的无缝链接也就是说。高校 图书馆的网站是一个以资源、服务和读者为中心的 

站点,是高校图书馆面向师生及所有用户的重要服 务窗口[4】。图书馆网站为读者提供信息资源服务的 

成效非常关键,应该让读者在虚拟空间中寻找资源 

和服务,以方便读者使用为出发点[5]。对图书馆网站 

的所有网页进行检索,读者只需输入感兴趣的内容 

即可以通过快捷的检索定位到图书馆网站中所有与 之相关的网页,方便快捷。另外网站的内容经常更 

新,如果更新的内容分别列在不同的类目下,读者为 

了了解更新的内容.常常花费大量的时间和精力去 

查找,如果不是对该网站非常熟悉,往往茫然不知其 果[6】。怎样设置虚拟空间,才能更好地为读者提供更 

好的服务,成了图书馆网站面临的一个重要问题,为 

了解决这个问题.我们引用了图书馆网站个性化推 

荐系统。 2.2个性化推荐系统分析 

2.2.1 图书馆网站文件的分析过滤 分析网站日志文件和记录文件,提取数据信息, 

把它作为分析用户偏好度和网页关联性的基础,这 

些数据信息包括用户名、用户访问时间、用户浏览时 间和用户浏览的网页等一]。表1就是经过分析、提取 

后的网站日志文件。 

裹1分析、提取后的网站日志文件 

用户名 访问时间 每秒浏览网页的流量(b/s)浏览网页 

收稿日期:2010—11—09 作者简介:蔡琬琰(1980~),女,本科,助理馆员,发表论文数篇,参与项目3项,著作1部。 

88 2011年3月 蔡琬琰:基于数据挖掘的高校图书馆网站个性化推荐系统 第3期(总161期) 

首先设定关联规则支持度和可信度的设定值, 

以便从网站日志文件和记录文件中分析、提取有效 

的具有应用意义的数据。在这个例子中,我们考虑了 如下3个因素: 

(1)访问时间。我们把“新乡学院图书馆网站”作 为模拟网站,对于新乡学院的学生来说,因为登录图 

书馆网站没有时间差别和限制。所以.只选取2009 

年6月份的日志文件,分析、提取和变换后的数据信 息如表2所示。 

裹2访问的时间因素(6月份的日志文件) 

用户名 访问时间 每秒浏览网页的流量(b/s)浏览网页 

(2)浏览用户自身的因素。学生要进入图书馆网 页个性化推荐系统,首先要输入自己的个人信息如 

图书证号和登录密码等.考虑到浏览用户自身的访 

问频度,访问频度高的学生具有较高的网站访问频 

率。便于对6月份数据进行分析研究。需要设定一个 

关于访问次数的条件值,通过分析网站近段时间的 

日志文件,把访问次数少于设定条件值的数据剔除, 结果如表3所示[引。 

裹3浏燕用户的因素(访问多于10次的用户) 

用户名 访问时间 每秒洳览网页的流量(b,s)浏览网页 

(3)用户偏好度因素。我们把用户偏好度定义为 该用户停留在某一页面浏览时间的长短。用户在某 

一页面停留时间长.表示该用户对该页面偏好度高, 

反之,表示该用户对该页面偏好度低。为了便于分 

析、提取有用数据信息,我们设定了用户浏览时间限 

定值.把用户对某一页面浏览时间长于2O秒的日志 

文件提取出来,如表4所示。 由于考虑了上面3个因素.所以剔除了很多无 

关的数据信息,留下了只是很小一部分对实验有用 

的数据信息。这可从表4的日志文件中看出。下面根 据用户日志文件来分析用户的浏览行为,以便提取 裹4用户偏好度(浏览时间高于2o秒) 

用户名 访问时间 每秒浏览网页的流量(b/s)浏览网页 

用户偏好度。 

2.2.2用户偏好度和网页相关性分析 

2.2.2.1用户偏好度分析 

为了有针对性地分析问题。提取网站日志文件 

中的单个用户名单位.由此可以分析、讨论单个用户 

的兴趣、爱好,即用户偏好度[9],结果如表5所示。 

裹5个别用户的网站日志文件 

用户名 访问时间 每秒浏览网页的流量(b,s)浏览网页 

通过对表5的分析,可以挖掘个别用户在网站 

13志文件中的数据信息,这些数据信息包括用户访 

问网页时间、用户浏览网页时间、用户名和用户浏览 

的网页。在实验中使用一个衡量用户偏好度的公式 

如下: 

pref={(f-fmin)(t-train)/[( x-fmin)(tmax— tmin)]l , (1) 式中:pref表示浏览用户对某网页的偏好度,f 

表示实验中某用户对某页面的查看次数,fmin表示 某浏览用户对某页面访问频率的最小值。fmax表示 

某浏览用户对某页面访问频率的最大值:t表示某用 户对某页面的访问浏览时间,tmin表示某用户对某 

页面最少浏览访问时间,tmax表示某用户对某页面 

最长浏览访问时间。由式(1)进行统计,根据统计结 

果.分析个别用户对某页面的兴趣爱好,即用户偏好 

度.结果如表6所示。 对分析、提取出来的数据信息进行统计过滤,把 

偏好度值最大的用户统计出来,结果见表7。 

2.2.2.2 网页相关性分析 

根据表7.可以提取单一用户对某页面的偏好 2011年3月 情报探索 第3期(总161期) 

裹6个别用户偏好度的网站日志文件 

用户名浏览频率浏览网页每秒浏览网页的流量(b/s)偏好度值 

用户名 浏览频率 浏览网页 每秒浏览网页的流量(b『s) 

度:通过对表7中数据信息的分析,可以提取网页问 

相关性的信息。由以上结果,根据单一用户对某页面 

的偏好度和网页间的相关性,向用户推荐下一个将 

要浏览的页面。由表5中的个别用户网站日志文件, 可以挖掘出个别用户在网站日志文件中的信息数 

据,构成一个列表。在实验中,以口代表用户访问网 

页时间,以b代表用户浏览的网页,以C代表用户浏 览页面的时间.以i代表用户名,那么,就可以把表5 

中个别用户的网站日志文件用( .口,b,c)序列表示出 

来。根据用户名和用户访问页面的时问,整理后即可 

形成“所有用户的浏览网页序列网站日志文件”,结 

果如表8所示。 

裹8所有用户的测览网页序列网站日志文件 

用户名 浏览网页序列(6.t7) 1 (A,20),(A1,30),(C,18),(el,40),(E,17),(E2,30), (C,9),(C,31) 2 (A,30),(A2,71),(E,25),(E3,36),(c,40),(c2,65), (A,21),(A2,42),(C,32),(c2,28) 3 (B,25),(n2,36),(c,16),(C1,28),(E,l8),(E2,39) 4 (c,56),(Cl,79),(E,38),(El,40),(E2,66) 5 (E,54),(E3,62),(C,27),(C2,73),(B,65),(B4,39) 

为了进一步提取有用的数据信息。剔除列表中 

单用户浏览中重复出现的浏览网页序列.在不影响 

数据挖掘结果的前提下,把用户浏览网页时间最短 

的重复序列也去掉,这就可以大大地减少实验工作 

量。结果如表9所示。 

剔除后的用户浏览网页序列表9实际上是表5 

通过一步步数据挖掘的结果,根据实验设定的用户 

浏览频度值和用户偏好度值,可知表9符合设定的 

条件。把挖掘的数据信息保存在数据库中,采用 

Apfiofi算法挖掘网页间关联性数据。 裹9别除詹的用户洲览网页序号 

用户名 浏览网页序列(6,c) (A,20),(AI,30),(C,18),(Cl,4o),(E,17),(E2,30) (A,30),(A2,71),(E,25),(E3,36),(C,40),(c2,65) (B,25),(B2,36),(C,16),(cl,28),(E,18),(E2,39) (C,56),(C1,79),(E,38),(El,40),(E2,66) (E,54),(E3,62),(C,27),(c2,73),(B,65),(B4,39) 

2.2.3关联网页推荐 

根据上节的数据挖掘结果,可以挖掘网页间的 

关联规则,对于相关性高的网页,可以在网页的引导 

栏里推荐给用户,这样可以大大节省用户浏览、查询 

页面的时间,提高学习效率,方便用户充分利用网站 

资源。 

2.2.4 推荐结果验证 

根据2.2.1的数据挖掘结果。分析、比较用户浏 

览网站日志文件挖掘前后形成的浏览序列,以证明 

网页个性化推荐系统推荐结果的正确性。比如,如果 

没有网页个性化推荐系统的帮助。某学生对A3和 

D2页面信息偏爱度较高,他进入图书馆网站网页推 荐系统后的浏览序列是S A 3 A S D—D2 

或S A_一A3 S D D2,那么,在网页个性化推荐 系统的帮助下。网站可以直接把D2页面超链接地 

推荐到A3页面上的导航工具栏中。 

总之。通过对网站描述文件和记录文件的数据 挖掘、信息过滤和分析。可以得到用户浏览行为模 

式,然后,分析用户偏好度和页面间的相关性,挖掘 

与用户浏览网页关联度高的页面.通过导航栏的方 

式推荐给用户:把用户浏览网站日志文件挖掘前后 

形成的浏览序列进一步分析、比较.以证明网页个性 

化推荐系统推荐结果的正确性。 

参考文献 [1]施燕.试论大学图书馆如何树立信息服务新形象 [J].四川图书馆学报,2003(3):67--69 [2] 陈军,陈萍.图书馆信息网站的现状分析与思考 [J].四川图书馆学报,2003(5):23—25 [3]何静,高静萍.国内外图书馆网站建设研究综述 [J].江西图书馆学刊,2008(3):27—28 [4] 关继舜.网络环境下高校图书馆网站服务的建设 与发展[J].现代情报,2010(7):132—134 [5]仇琛,温国强,秦邦廉.目标管理在图书馆网站建 设中的应用[J].图书馆论坛,2005(3):53—55 [6] 黄秀英.我国图书馆网站建设中存在的问题[J].情 报杂志。2005(5):134—135 [7] 刘嵘.高校图书馆网站建设初探[J].贵州大学学 报:社会科学版,2001(4):89—91 [8]HAIN J.Neural Ne 0r1(s A Comprehensive Founda. tion[M].影印版.北京:清华大学出版社.2001:811-822 [9]Kantard.数据挖掘一概念、模型、方法和算法『M]. 四清,等,译.北京:清华大学出版社,2003:102—103

相关主题