当前位置：文档之家› 基于数据挖掘的高校图书馆网站个性化推荐系统

基于数据挖掘的高校图书馆网站个性化推荐系统

２０１１年３月　情报探索　第３期（总１６１期）　

蔡琬琰　

（新乡学院图书馆　河南４５３００３）　

摘　要：通过分析和提取ｌｉｔ书馆数据库服务器上的网站描述文件和网站日志文件，获得图书馆网站浏览用户的浏览行为模　式，分析图书馆网站网页间的相关性，从而构建模拟的图书馆网站个性化推荐系统，节省搜索网页的时间。　关键词：数据挖掘　图书馆网站推荐系统数据过滤偏好度　中图分类号：Ｇ２５０．７２　文献标识码：Ａ　ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００５－８０９５．２０１１．０３．０３０　

图书馆网站是实现传统图书馆向数字化、网络　

化图书馆转变．馆藏文献资源建设向网络信息资源　

建设转变，传统文献传递服务向网络信息导航服务　转变，封闭的办馆模式向开放的社会化办馆模式转　

变的表现形式和手段。图书馆网站的建立关系到图　

书馆在未来社会中的地位。由此，优化图书馆网站检　

索十分重要。本文利用数据挖掘技术就图书馆网站　

中网页个性化推荐系统进行分析。　ｌ　高校图书馆网站的主要功能及存在问题　

１．１　图书馆网站的重要功能　目前图书馆网站的功用主要体现在３个方面：　

（１）介绍本馆的概况和服务，使更多的人了解并愿意　

利用图书馆馆藏，同时加强与用户的交流，方便用户　对图书馆各项工作提出建议。（２）提供联机检索，提　

示馆藏情况和流动情况，使用户节省获取图书馆资　

源所需的时间和精力。（３）提供电子资源信息服务，　

使用户更加方便地获得资料，这一点包括的内容很　

多，如数据库、电子图书、电子期刊等等，这将逐渐成　为图书馆网站最重要的服务内容［１】。　

１．２主要存在问题　（１）网站结构设计不合理，图书馆网站结构设计　不合理，整个网站布局混乱，无意中为用户利用图书　

馆网站获取信息资源设置了障碍，影响了用户使用　

的便利性和实效性［２］。（２）个性化服务程度不高，智　

能化服务内容不多。对大多数高校图书馆网站来说，　

不能根据用户个人的具体需要。提供高质量的、系统　

的信息服务，即不能全面客观地分析用户的信息需　求，对各种信息资源进行过滤，把用户所需要的个性　

化的精品信息资源提供给用户［３１。　２个性化推荐系统在图书馆网站中的应用　

２．１　引入图书馆网站个性化推荐系统　高校图书馆的网站是通过利用互联网丰富的计　

算机语言及先进的通讯方式，把相关的资料与相应　的服务结合在一起，提供个性化、多元化和统一化的　

服务，并做到资源和服务的无缝链接也就是说。高校　图书馆的网站是一个以资源、服务和读者为中心的　

站点，是高校图书馆面向师生及所有用户的重要服　务窗口［４】。图书馆网站为读者提供信息资源服务的　

成效非常关键，应该让读者在虚拟空间中寻找资源　

和服务，以方便读者使用为出发点［５］。对图书馆网站　

的所有网页进行检索，读者只需输入感兴趣的内容　

即可以通过快捷的检索定位到图书馆网站中所有与　之相关的网页，方便快捷。另外网站的内容经常更　

新，如果更新的内容分别列在不同的类目下，读者为　

了了解更新的内容．常常花费大量的时间和精力去　

查找，如果不是对该网站非常熟悉，往往茫然不知其　果［６】。怎样设置虚拟空间，才能更好地为读者提供更　

好的服务，成了图书馆网站面临的一个重要问题，为　

了解决这个问题．我们引用了图书馆网站个性化推　

荐系统。　２．２个性化推荐系统分析　

２．２．１　图书馆网站文件的分析过滤　分析网站日志文件和记录文件，提取数据信息，　

把它作为分析用户偏好度和网页关联性的基础，这　

些数据信息包括用户名、用户访问时间、用户浏览时　间和用户浏览的网页等一］。表１就是经过分析、提取　

后的网站日志文件。　

裹１分析、提取后的网站日志文件　

用户名　访问时间　每秒浏览网页的流量（ｂ／ｓ）浏览网页　

收稿日期：２０１０—１１—０９　作者简介：蔡琬琰（１９８０～），女，本科，助理馆员，发表论文数篇，参与项目３项，著作１部。　

８８　２０１１年３月　蔡琬琰：基于数据挖掘的高校图书馆网站个性化推荐系统　第３期（总１６１期）　

首先设定关联规则支持度和可信度的设定值，　

以便从网站日志文件和记录文件中分析、提取有效　

的具有应用意义的数据。在这个例子中，我们考虑了　如下３个因素：　

（１）访问时间。我们把“新乡学院图书馆网站”作　为模拟网站，对于新乡学院的学生来说，因为登录图　

书馆网站没有时间差别和限制。所以．只选取２００９　

年６月份的日志文件，分析、提取和变换后的数据信　息如表２所示。　

裹２访问的时间因素（６月份的日志文件）　

用户名　访问时间　每秒浏览网页的流量（ｂ／ｓ）浏览网页　

（２）浏览用户自身的因素。学生要进入图书馆网　页个性化推荐系统，首先要输入自己的个人信息如　

图书证号和登录密码等．考虑到浏览用户自身的访　

问频度，访问频度高的学生具有较高的网站访问频　

率。便于对６月份数据进行分析研究。需要设定一个　

关于访问次数的条件值，通过分析网站近段时间的　

日志文件，把访问次数少于设定条件值的数据剔除，　结果如表３所示［引。　

裹３浏燕用户的因素（访问多于１０次的用户）　

用户名　访问时间　每秒洳览网页的流量（ｂ，ｓ）浏览网页　

（３）用户偏好度因素。我们把用户偏好度定义为　该用户停留在某一页面浏览时间的长短。用户在某　

一页面停留时间长．表示该用户对该页面偏好度高，　

反之，表示该用户对该页面偏好度低。为了便于分　

析、提取有用数据信息，我们设定了用户浏览时间限　

定值．把用户对某一页面浏览时间长于２Ｏ秒的日志　

文件提取出来，如表４所示。　由于考虑了上面３个因素．所以剔除了很多无　

关的数据信息，留下了只是很小一部分对实验有用　

的数据信息。这可从表４的日志文件中看出。下面根　据用户日志文件来分析用户的浏览行为，以便提取　裹４用户偏好度（浏览时间高于２ｏ秒）　

用户名　访问时间　每秒浏览网页的流量（ｂ／ｓ）浏览网页　

用户偏好度。　

２．２．２用户偏好度和网页相关性分析　

２．２．２．１用户偏好度分析　

为了有针对性地分析问题。提取网站日志文件　

中的单个用户名单位．由此可以分析、讨论单个用户　

的兴趣、爱好，即用户偏好度［９］，结果如表５所示。　

裹５个别用户的网站日志文件　

用户名　访问时间　每秒浏览网页的流量（ｂ，ｓ）浏览网页　

通过对表５的分析，可以挖掘个别用户在网站　

１３志文件中的数据信息，这些数据信息包括用户访　

问网页时间、用户浏览网页时间、用户名和用户浏览　

的网页。在实验中使用一个衡量用户偏好度的公式　

如下：　

ｐｒｅｆ＝｛（ｆ－ｆｍｉｎ）（ｔ－ｔｒａｉｎ）／［（　ｘ－ｆｍｉｎ）（ｔｍａｘ—　ｔｍｉｎ）］ｌ　，　（１）　式中：ｐｒｅｆ表示浏览用户对某网页的偏好度，ｆ　

表示实验中某用户对某页面的查看次数，ｆｍｉｎ表示　某浏览用户对某页面访问频率的最小值。ｆｍａｘ表示　

某浏览用户对某页面访问频率的最大值：ｔ表示某用　户对某页面的访问浏览时间，ｔｍｉｎ表示某用户对某　

页面最少浏览访问时间，ｔｍａｘ表示某用户对某页面　

最长浏览访问时间。由式（１）进行统计，根据统计结　

果．分析个别用户对某页面的兴趣爱好，即用户偏好　

度．结果如表６所示。　对分析、提取出来的数据信息进行统计过滤，把　

偏好度值最大的用户统计出来，结果见表７。　

２．２．２．２　网页相关性分析　

根据表７．可以提取单一用户对某页面的偏好　２０１１年３月　情报探索　第３期（总１６１期）　

裹６个别用户偏好度的网站日志文件　

用户名浏览频率浏览网页每秒浏览网页的流量（ｂ／ｓ）偏好度值　

用户名　浏览频率　浏览网页　每秒浏览网页的流量（ｂ『ｓ）　

度：通过对表７中数据信息的分析，可以提取网页问　

相关性的信息。由以上结果，根据单一用户对某页面　

的偏好度和网页间的相关性，向用户推荐下一个将　

要浏览的页面。由表５中的个别用户网站日志文件，　可以挖掘出个别用户在网站日志文件中的信息数　

据，构成一个列表。在实验中，以口代表用户访问网　

页时间，以ｂ代表用户浏览的网页，以Ｃ代表用户浏　览页面的时间．以ｉ代表用户名，那么，就可以把表５　

中个别用户的网站日志文件用（　．口，ｂ，ｃ）序列表示出　

来。根据用户名和用户访问页面的时问，整理后即可　

形成“所有用户的浏览网页序列网站日志文件”，结　

果如表８所示。　

裹８所有用户的测览网页序列网站日志文件　

用户名　浏览网页序列（６．ｔ７）　１　（Ａ，２０），（Ａ１，３０），（Ｃ，１８），（ｅｌ，４０），（Ｅ，１７），（Ｅ２，３０），　（Ｃ，９），（Ｃ，３１）　２　（Ａ，３０），（Ａ２，７１），（Ｅ，２５），（Ｅ３，３６），（ｃ，４０），（ｃ２，６５），　（Ａ，２１），（Ａ２，４２），（Ｃ，３２），（ｃ２，２８）　３　（Ｂ，２５），（ｎ２，３６），（ｃ，１６），（Ｃ１，２８），（Ｅ，ｌ８），（Ｅ２，３９）　４　（ｃ，５６），（Ｃｌ，７９），（Ｅ，３８），（Ｅｌ，４０），（Ｅ２，６６）　５　（Ｅ，５４），（Ｅ３，６２），（Ｃ，２７），（Ｃ２，７３），（Ｂ，６５），（Ｂ４，３９）　

为了进一步提取有用的数据信息。剔除列表中　

单用户浏览中重复出现的浏览网页序列．在不影响　

数据挖掘结果的前提下，把用户浏览网页时间最短　

的重复序列也去掉，这就可以大大地减少实验工作　

量。结果如表９所示。　

剔除后的用户浏览网页序列表９实际上是表５　

通过一步步数据挖掘的结果，根据实验设定的用户　

浏览频度值和用户偏好度值，可知表９符合设定的　

条件。把挖掘的数据信息保存在数据库中，采用　

Ａｐｆｉｏｆｉ算法挖掘网页间关联性数据。　裹９别除詹的用户洲览网页序号　

用户名　浏览网页序列（６，ｃ）　（Ａ，２０），（ＡＩ，３０），（Ｃ，１８），（Ｃｌ，４ｏ），（Ｅ，１７），（Ｅ２，３０）　（Ａ，３０），（Ａ２，７１），（Ｅ，２５），（Ｅ３，３６），（Ｃ，４０），（ｃ２，６５）　（Ｂ，２５），（Ｂ２，３６），（Ｃ，１６），（ｃｌ，２８），（Ｅ，１８），（Ｅ２，３９）　（Ｃ，５６），（Ｃ１，７９），（Ｅ，３８），（Ｅｌ，４０），（Ｅ２，６６）　（Ｅ，５４），（Ｅ３，６２），（Ｃ，２７），（ｃ２，７３），（Ｂ，６５），（Ｂ４，３９）　

２．２．３关联网页推荐　

根据上节的数据挖掘结果，可以挖掘网页间的　

关联规则，对于相关性高的网页，可以在网页的引导　

栏里推荐给用户，这样可以大大节省用户浏览、查询　

页面的时间，提高学习效率，方便用户充分利用网站　

资源。　

２．２．４　推荐结果验证　

根据２．２．１的数据挖掘结果。分析、比较用户浏　

览网站日志文件挖掘前后形成的浏览序列，以证明　

网页个性化推荐系统推荐结果的正确性。比如，如果　

没有网页个性化推荐系统的帮助。某学生对Ａ３和　

Ｄ２页面信息偏爱度较高，他进入图书馆网站网页推　荐系统后的浏览序列是Ｓ　Ａ　３　Ａ　Ｓ　Ｄ—Ｄ２　

或Ｓ　Ａ＿一Ａ３　Ｓ　Ｄ　Ｄ２，那么，在网页个性化推荐　系统的帮助下。网站可以直接把Ｄ２页面超链接地　

推荐到Ａ３页面上的导航工具栏中。　

总之。通过对网站描述文件和记录文件的数据　挖掘、信息过滤和分析。可以得到用户浏览行为模　

式，然后，分析用户偏好度和页面间的相关性，挖掘　

与用户浏览网页关联度高的页面．通过导航栏的方　

式推荐给用户：把用户浏览网站日志文件挖掘前后　

形成的浏览序列进一步分析、比较．以证明网页个性　

e商务文档

基于数据挖掘的高校图书馆网站个性化推荐系统

相关文档推荐：