当前位置:文档之家› Web日志挖掘最新

Web日志挖掘最新


Web日志挖掘的方法
+ 数据预处理阶段
+ 模式识别阶段 + 模式分析阶段
数据预处理阶段
从学习者的访问日志中得到的原始日志记录 并不适于挖掘,必须进行适当的处理才能 进行挖掘。因此,需要通过日志清理,去 除无用的记录;对于某些记录,我们还需 要通过站点结构信息,把URL路径补充成完 整的访问序列;然后划分学习者,并把学 习者的会话划分成多个事务
+ 个性挖掘:针对单个用户的使用记录对该
用户进行建模,结合该用户基本信息分析 他的使用习惯、个人喜好,目的是在电子 商务环境下为该用户提供与众不同的个性 化服务。 + 站点修改:站点的结构和内容是吸引用户 的关键。Web 用法挖掘通过挖掘用户的行 为记录和反馈情况为站点设计者提供改进 的依,比如页面连接情况应如何组织、那 些页面应能够直接访问等
一旦学习者会话和事务识别完成,就可以采用下面 的技术进行模式发现。模式发现, 是对预处理后的 数据用数据挖掘算法来分析数据。分有统计、分 类、聚类、关等多种方法。 ① 路径分析。它可以被用于判定在一个站点中最频 繁访问的路径,还有一些其它的有关路径的信息 通过路径分析可以得出。路径分析可以用来确定 网站上的频繁访问路径, 从而调整和优化网站结 构, 使得用户访问所需网页更加简单快捷, 还可以 根据用户典型的浏览模式用于智能推荐和有针对 性的电子商务活动。例如:70% 的学习者在访问 / E-Business /M2时,是从/EB开始,经过/ EBusiness /SimpleDescription,/ E-Business /M1; 65%的学习者在浏览4个或更少的页面内容后就离 开了。利用这些信息就可以改进站点的设计结构。
2014-12-9
日志的简单分析 + 1、注意那些被频繁访问的资源 + 2、注意那些你网站上不存在资源的请求。常见的 扫描式攻击还包括传递恶意参数等: + 3、观察搜索引擎蜘蛛的来访情况 + 4、观察访客行为
作用 + 1.对访问时间进行统计,可以得到服务器在某些 时间段的访问情况。 + 2.对IP进行统计,可以得到用户的分布情况。 + 3.对请求URL的统计,可以得到网站页面关注情况。 + 4.对错误请求的统计,可以更正有问题的页面。
2014-12-9
+ ③ 序列模式。在时间戳有序的事务集中,
序列模式的发现就是指那些如“一些项跟 随另一个项”这样的内部事务模式。它能 发现数据库中如“在某一段时间内,客户 购买商品A,接着会购买商品B,尔后又购 买商品C,即序列A→B→C出现的频率高” 之类的信息。序列模式描述的问题是:在 给定的交易序列数据库中,每个序列按照 交易的时间排列的一组交易集,挖掘序列 函数作用是返回该数据库中高频率出现有 序列
+ web内容挖掘 Web内容挖掘是从文档内容及其描述中抽 取知识的过程,是挖掘Intemet的页面信息。
+ web结构挖掘 是从WWW的组织结构和超链关系中推导知 识。互联网中不仅包含网页,还包含指向 网页的超级链接。挖掘Web结构的目的是发 现页面的结构,并在此基础上对页面进行 分类、聚类等,从而找到权威页面。
2014-12-9
+ ⑤聚类分析。可以从Web访问信息数据中聚
类出具有相似特性的学习者。在Web事务日 志中,聚类学习者信息或数据项能够便于 开发和设计未来的教学模式和学习群体。 聚类是将数据集划分为多个类,使得在同 一类中的数据之间有较高的相似度,而在 不同类中的数据差别尽可能大。在聚类技 术中,没有预先定义好的类别和训练样本 存在,所有记录都根据彼此相似程度来加 以归类。主要算法有k—means、DBSCAN等。
2014-12-9
+ ④ 分类分析。发现分类规则可以给出识别
一个特殊群体的公共属性的描述,这种描 述可以用于分类学习者。分类包括的挖掘 技术将找出定义了一个项或事件是否属于 数据中某特定子集或类的规则。该类技术 是最广泛应用于各类业务问题的一类挖掘 技术。分类算法最知名的是决策树方法, 此外还有神经元网络、Bayesian分类等。例 如:在/ E-Business /M4学习过的学习者中有 40%是20左右的女大学生
模式分析阶段
+ ② 关联规则。 指的是面集合,这些页面之间并无顺序 关系.如果关联规则中的页面之间没有超级链 接存在.这就是一个我们感兴趣的关联规则。 关联规则挖掘主要集中在频繁遍历路径的生成 上。遍历路径就是由用户会话请求页面所组成 的序列。由于用户会话中既包含请求页面又包 含路径补充时添加的页面,因此挖掘频繁遍历 路径时,首先在每个用户会话中找出所有的最 大向前路径。挖掘频繁遍历路径问题就转化为 在所有用户会话的最大向前路径中发现频繁出 现的连续子序列问题。要寻找这些频繁遍历路 径,必须定义这些连续子序列的长度和支持度, 所谓支持度就是包含频繁遍历的 + 用户会话数目。
日志分析的价值或应用
+ 相关产品推荐。通过以上的关联分析,有了用户
频繁访问路径和链接之间的兴趣度,可以构建个 性化推荐系统模型。对于实证例子,我们可以在 置信度高于最低置信度的相关链接之间,建立某 种信息快速互联的桥梁,亦或是在网页规划中, 充分考虑链接之间的关联关系,从而为更人性化、 合理化的网页设计提供决策依据。如:当客户浏 览/newimg/num1.gif时,有 0.91的概率会浏览/newimg/num4.gif,那么,在两者 之间就存在很高的关联性,从而我们有必要对这 两个链接建立某种跟紧密的联系。
Web挖掘
+ web挖掘(Web Mining)定义为:从与www
相关的资源和行为中抽取感兴趣的、有用 的模式和隐含信息,即提取和“挖掘”web知 识 + Web上包含有大量页面,这些页面中被用户 访问和使用的信息以及连接这些页面的超 文本链接,都可以成为数据挖掘应用的对 象。按处理对象的不同,将web挖掘分为内 容挖掘、结构挖掘和使用记录挖掘(日志) 三类。
日志文件的格式及其包含的信息
①20061017 00:00:00②202.200.44.43 ③ 218.77.130.24 80 ④GET ⑤/favicon.ico ⑥ Mozilla/5.0+(Windows;+U; +Windows+NT+5.1;+zh-CN;+rv: 1.8.0.3)+Gecko/20060426 +Firefox/1.5.0.3。 ①访问时间;②用户IP地址;③访问的URL, 端口;④请求方法(“GET”、“POST”等); ⑤ 访问模式;⑥agent,即用户使用的操作系 统类型和浏览器软件。
Web日志挖掘
2014.10.28
背景
+ + + + + + + + + + +
2014-12-9
随着互联网络的飞速发展 , 问题己经不是不知 道信息 , 而是把握不住隐藏在信息后面的信息 , 如何 从海量的文本及多媒体数据或用户访问信息中发现 有用的知识更是突破了人类的极限。 Web 日志挖 掘为解决这个问题提出了一条道路。在 Web 服务 器上收集了大量的 Web 日志。这些海量的数据是 一种宝贵的财富 , 分析和挖掘这些日志信息是站点 管理人员非常感兴趣的事情。从大量的用户数据、 日志数据中运用数据挖掘算法可以挖掘出有意义的 用户访问模式、 规则以及相关的潜在用户群等等 , 这 些隐藏的信息有着重要的应用价值。
2014-12-9
+ ⑥统计。统计方法是从Web 站点中抽取知
识的最常用方法, 它通过分析会话文件, 对浏 览时间、浏览路径等进行频度、平均值等 统计分析。虽然缺乏深度, 但仍可用于改进 网站结构, 增强系统安全性, 提高网站访问的 效率等。 ⑦协同过滤。协同过滤技术采用 最近邻技术,利用客户的历史、喜好信息 计算用户之间的距离,目标客户对特点商 品的喜好程度由最近邻居对商品的评价的 加权平均值来计算。
2014-12-9
+ (三)最后,进行模式分析。基于以上的
所有过程,对原始数据进行进一步分析, 找出用户的浏览模式规律,即用户的兴趣 爱好及习惯,并使其可视化,为网页的规 划及网站建设的决策提供具体理论依据。 其主要方法有:采用SQL查询语句进行分析; 将数据导入多维数据立方体中,用OLAP工 具进行分析并给出可视化的结果输出。 (分类模式挖掘、聚类模式挖掘、时间序 列模式挖掘、序列模式挖掘、关联规则等)
2014-12-9
+ Web使用记录挖掘是指从Web的使用记录中
提取感兴趣的模式,目前Web使用记录挖掘 方面的研究较多,WWW中的每个服务器都保 留了访问日志,记录了关于用户访问和交互 的信息,可以通过分析和研究Web日志记录 中的规律,来识别网站的潜在用户;可以用基 于扩展有向树模型来识别用户浏览序列模 式,从而进行Web日志挖掘;可以根据用户访 问的Web记录挖掘用户的兴趣关联规则,存 放在兴趣关联知识库中,作为对用户行为进 行预测的依据,从而为用户预取一些Web页 面,加快用户获取页面的速度,分析这些数 据还可以帮助理解用户的行为,从而改进站 点的结构,或为用户提供个性化的服务。
+
网站中Web日志挖掘内容
+ 客户信息分析。客户信息分析包括访问者的来源
省份统计、访问者使用的浏览器及操作系统分析、 访问来自的页面或者网站、来自的IP地址以及访 问者使用的搜索引擎 + 访问者活动周期行为分析。访问者活动周期行为 分析包括一周7天的访问行为、一天24小时的访问 行为、每周的最多的访问日、每天的最多访问时 段等。 + 发现用户访问模式。通过分析和探究Web日志记 录中的规律,可以识别电子商务的潜在客户,提 高对最终用户的服务质量,并改进Web服务器系 统的性能
相关主题