面对巨大而复杂的网络系统以及浩如烟海的信息资 源,研究人员将传统的数据挖掘技术和相结合,进行Web 挖掘,从半结构或无结构的页面中,以及使用者的Web Web 活动中,抽取感兴趣的、潜在的模式,分析、研究,并加以利用。
挖掘可分为类:内容挖掘、结构挖掘和Web 3Web Web 日志挖掘。
而日志挖掘作为挖掘的一个重要组Web Web Web 成部分,有其独特的理论和实践意义。
所谓日志,是指在服务器上有关访问的各种日Web Web 志文件,包括访问日志、引用日志、代理日志、错误日志等文件。
这些文件里包含了大量的用户访问信息,如用户的IP 地址、所访问的、访问日期和时间、访问方法或URL (GET 、访问结果功、失败、错误、访问的信息大小等。
POST)()而日志挖掘,就是通过对日志记录的挖掘,发Web Web 现用户访问页面的模式,从而进一步分析和研究日Web Web 志记录中的规律,以期改进站点的性能和组织结构,提Web 高用户查找信息的质量和效率,并通过统计和关联的分析找出特定用户与特定地域、特定时间、特定页面等要素之间的内在联系,这在电子商务等领域是大有作为的。
日志挖掘技术1 Web 目前,日志挖掘技术主要分为两大类:基于事Web Web 务的方法和基于数据立方体的方法。
基于事务的日志挖掘技术1.1 Web Web 基于事务的日志挖掘技术最早是由等人Web Web ,Chen [1]提出的图。
他将数据挖掘技术应用于服务器日志文(1)Web 件,提出最大向前引用算法的概念。
他将用户会话分割MF 成一系列的事务,然后采用与关联规则相类似的方法挖掘频繁访问序列,从而取得用户访问模式。
基于事务的日志挖掘技术的基本流程是:Web 预处理过程服务器日志中的内容非常丰富,(1) Web 但是由于本地缓存、代理服务器、防火墙的存在,使得直接在数据上进行挖掘变得十分困难和不准确。
因此,Web log 在实施数据挖掘之前,首先必须对文件进行数据净Web Log 化、用户识别、会话识别、页面过滤、路径补充等一系列的工作[9]。
数据净化是指删除日志中与挖掘(Data Cleaning)Web 算法无关的数据,同时将有用的日志记录信息转换为适Web 当的数据格式。
用户识别和会话识别是从日志中的每一条记录中识别出相应的用户,并将日志中的多条记录分割为不同的事务。
页面过滤是针对页面的帧结构,对Web Web (Frame)日志记录进一步过滤,而路径补充则是考虑到用户可能在浏览器中使用方式而使日志中遗漏了访问信息。
Back Web 序列模式识别事务分割完成以后,接下来就(2) Web 是实施序列模式识别的工作。
第一步,通过算法""MF 将日志数据中原始序列,转换为(Maximal Forward Refences)最大向前引用集,其中的每一个访问子序列都代表一个从用户访问点出发的最大向前引用,其目的是过滤掉为了取消访问而产生的回退引用的影响,从而使我们能专注于挖掘有意义的用户访问序列。
第二步,从最大向前引用集中找出大"引用序列,也就是频繁出现的"(Large Reference Sequences)引用序列。
其方法和挖掘关联规则[3]的方法相类似,但不同的是,在挖掘访问模式时,一个引用序列必须是包含在最大向前引用中的连续引用,而在挖掘关联规则时,一个 大项目集仅仅是一个事务中的项目的集合。
为了找出大""引用序列,等人提出了和Chen FS(Full Scan)SS(Selective 两种算法。
算法从本质上说,是利用了一些和Scan)FSHash 日志挖掘技术的研究与应用Web 肖立英,李建华,谭立球(中南大学铁道校区信息技术研究中心长沙), 410075摘要: 介绍了目前世界上两种主要的日志挖掘技术基于事务和基于数据立方体。
同时,提出了一个基于日志挖掘技术的应Web (Web )Web 用,即用户自适应的站点,介绍了这一系统的实现方法和主要特色。
Web 关键词:数据挖掘;挖掘;日志挖掘;用户自适应的站点Web Web Web Research and Application of Web Log MiningXIAO Liying, LI Jianhua, TAN Liqiu(Information Technology Research Center, Tiedao Campus,South-Central University, Changsha,410075)【】Abstract In this paper, the two methods of Web Log Mining (Web Session and Data Cube) are introduced. And then this paper presents the design of the adaptive site which is an application of the Web Log Mining. 【】;;;Key words Data mining Web mining Web log mining Adaptive Web site第卷 第期287№Vol.28 7计 算 机 工 程Computer Engineering年月20027 July 2002・开发研究与设计技术・ 中图分类号: TP182文章编号:———10003428(2002)07 027602文献标识码:A——276Web 日志 预处理过程序列模式识别图一 Chen 为代表的基于Web 事务的方法 序列模式分析 图为代表的基于事务的方法1 Chen Web 日志Web 预处理过程序列模式识别序列模式分析技术,以解决前面所提到的访问模式与关联规则的差Prune 异问题,它要求每次都必须对事务数据库进行扫描。
而SS 算法,则适当地利用了候选的引用序列,减少扫描事务数据库的次数,从而降低磁盘读写的开销。
因此算法相对I/O SS 算法更先进,效率更高。
第三步,从大引用序列中确定FS "最大引用序列,即频繁访问"(Maximal Reference Sequences)序列。
这一步非常简单和直观,只要找出没有包含在其他任何大引用序列中的大引用序列即可。
序列模式分析掌握了用户的访问序列模式,即频(3) 繁访问序列,就可以对所获得的知识进一步加以分析和利用。
例如,改善网站的组织结构,按照大多数访问者的浏览模式对网站加以重组等。
此外,个性化的用户交互和可视化的结果呈现,也是模式分析研究的新内容。
基于数据立方体的日志挖掘技术1.2 Web 等人Han [2]提出基于数据立方体的日志挖掘技术如Web 图所示,他根据服务器日志文件,建立数据立方体2Web ,然后对数据立方体进行数据挖掘和联机分析处(Data Cube)理。
和基于事务的日志挖掘技术相似,基于数 (OLAP)Web 据立方体的日志挖掘同样要经过预处理、模式识别、模Web 式分析个步骤:3预处理过程对进行清洗、过滤和转换,(1) Web Log 抽取感兴趣的数据。
模式识别,即建立数据立方体,进行联机分析处理(2) 。
将所访问的、访问方法、访问资源的类型和(OLAP)URL 大小、请求和停留的时间、访问者的域名和、用户、服务IP 器状态等作为的维变量,将对不同页面和文件的Data Cube 请求次数、来自不同域名的请求次数、事件、会Internet 话、带宽、错误次数、不同浏览器种类、用户所在组织等作为的度量变量建立数据立方体。
然后,运用逐层Data Cube 细化分析、汇总分析、切片分析(Drill-down)(Drill-up)(Slice)和切块分析等技术对进行联机分析处理。
逐(Dice)Data Cube 层细化分析是从一般到特殊的分析过程,如时间上从年、""月到日的逐步细化;汇总分析是从特殊到一般的分析过""""程,例如地域上从某个区域到某个国家;切片分析方法是在多维数组的某一维上选定一维成员,得到一个多维数组的子集。
切块分析方法是在多维数组的某一维上选定某一区间的维成员后得到的结果。
模式分析,数据挖掘利用成熟的数据挖掘技术(3) [12]如特征、性能、分类、关联、预测、时间序列分析、趋势(分析等进行流量分析、典型的事件序列和用户行为模)Web 式分析、事务分析等。
例如,应该在怎样的上下文环境下使用特定的成分和特征?典型的事件序列是什么?不同的用户群在使用和访问模式方面有什么不同?在不同的过程里用户在使用和访问模式方面有什么不同?在某一特定的环境下最普遍的用户访问模式是怎样的?用户行为随时间的不同有什么变化?用户的使用模式将如何随着系统性能、服务质量的不同而变化?网络流量的分配与时间的关系如何?综上所述,基于事务和基于数据立方体的两种方Web 法,各有其特点。
基于事务的日志挖掘技术,侧重于用Web 户序列模式的挖掘和分析,即找出每一个用户的频繁访问序列,从而进行以事务和序列为出发点的知识发现,这正是与应用的特性相符合。
而基于数据立方体的日志挖掘,侧Web 重于将日志转变为结构化的数据立方体,能从多角度、Web 全面地进行挖掘和分析,并能引进各种成熟的数据挖掘技术,有利于挖掘与数据挖掘技术的迅速融合与发展。
Web 其他的日志挖掘技术1.3 Web 除了以上介绍的两种主要的日志挖掘技术以外,许Web 多研究人员根据实际的需要,开发出一些简单、新颖、高效的日志挖掘方法。
例如,建立关联矩阵,Web URL_UserID 通过相似性分析和聚类算法,获得相似客户群体和相关Web 页面,并进一步发现频繁访问路径[10]。
又比如,针对电子商务中的时间特性,研究基于的时间序列模式挖掘Web [11]等。
应用示例—用户自适应的站点2 Web 在网络应用中,用户常常为繁琐的信息查找而苦恼,对于许许多多自己曾经访问的页面,并没有有效的工具帮助整理、保存自己感兴趣的信息和方便下一次的访问。
而作为网站的建设者,也都希望能提供高质量的、高效率的服务,以吸引更多的访问者。
针对这样的需求,我们设计了一种基于日志挖掘技术的用户自适应的站点见图。
通过Web Web (3)日志挖掘技术,可以获得用户访问模式,在下一次用户Web 访问主页时,使用所挖掘到的信息,动态地提供个性化的页面,这就是用户自适应的站点的含义。
Web"Web "本系统首先将日志文件中的数据经过预处理放入原始数据库,然后采用模式识别的技术获取用户的访问模式,放入用户访问模式数据库,再通过数据挖掘和模式分析,形成知识数据库。