web数据挖掘课件
Taxonomy Dimensions
the data sources used to gather input the types of input data the number of users represented in each data set the number of Web sites represented in each data set the application area focused on by the project 大多使用single-site,multi-user,server大多使用single-site,multi-user,server-side usage data
数据源(二)客户端收集
优点是避免了Cache和session identification,可以比较全面 和准确收集到用户数据
•
Applet & Script 缺点:不支持代理,功能会被用户关闭。 Modified browser (Mosaic和Mozilla) 缺点是需要吸引或强制用户使用
•
数据源(三)代理服务器收集
使用数据预处理(二)
如何将每个用户的Click-Stream切分成一个个session。 如何将每个用户的Click-Stream切分成一个个session。 尽管每个用户行为的精确信息经常存在于服务器日志 里,有时还需要访问内容服务器。内容服务器为每个 活动的session保留了状态变量,在URI里没有有关的信 活动的session保留了状态变量,在URI里没有有关的信 息(?) Cache:唯一可证实的方法是在用户端。 Cache:唯一可证实的方法是在用户端。
Association Rules
传统的关联规则主要应用于超市的销售上。如:买牛 奶的顾客中有90%买了面包。 奶的顾客中有90%买了面包。 在Web Usage Mining 中,关联规则是指经常同时访问 的网页(有阈值)。这些网页间可能没有超链。 例如:用Apriori 例如:用Apriori 算法可以计算访问电子产品网页的用 户和访问体育器材网页的用户之间的关系。 这可以帮助网站设计者重构网站。还可以帮助预先取 得文档,减少用户感觉的延迟。
可以记录多个Client与多个Server之间的访问信息 可以记录多个Client与多个Server之间的访问信息
数据提取
er 2.Page View(Click) 用户在某个时刻看到的浏览器中的内 容 3.Click Stream 一组连续的page view 请求 er Session (transaction)用户的阶段性的click stream,可 以跨多个服务器 5.Server Session 用户在某个服务器上的阶段性的click stream 6.Episode 用户session中的一段有意义的click stream
数据提取(续)
Episodes User Session Click Stream Page View Raw Data Server Session
Web Usage Mining的简要过程
Site Files
Preprocessing
Pattern Discovery
Pattern Analysis Interesting Rules Patterns Statistics
内容和结构预处理
解决两个问题: 1. Page的独特性表示方法 Page的独特性表示方法 通过向量空间模型来表示Page内容 通过向量空间模型来表示Page内容 还可以通过聚类和分类的方法 2. Page 的内容和结构的量化形式 把Page的内容和结构形式化 Page的内容和结构形式化
Pattern Discovery
Dependency Modeling
建立模型来表示web中各个变量之间的依赖关系 建立模型来表示web中各个变量之间的依赖关系 使用的方法: Hidden Markov Model Bayesian Belief Network 对用户行为模式的建模,不仅提供了分析用户行为的 理论框架,还可以预测未来Web资源的需求,提高网 理论框架,还可以预测未来Web资源的需求,提高网 上产品的销量。
Web Data
可利用的数据主要包括以下部分: 1). Content:页面的实际内容 2). Structure: 包括intra-structure和 inter-structure 3). Usage: 例如:Click Stream 4). User Profile:例如:registration data 和 customer profiles
Clustering
把有相似特征的东西放在一起。 Usage Clustering:把具有相似浏览行为的用户放在一 Clustering: 起。可以用来做电子商务的市场划分。 Page Clustering:发现具有相关内容的网页。可以用于搜 Clustering:发现具有相关内容的网页。可以用于搜 索引擎。
Raw Logs
Preprocessed CFra bibliotekickstream Data
Rules Patterns Statistics
预处理
使用数据预处理 内容和结构预处理
使用数据预处理(一)
只有IP 只有IP Address ,agent ,server side click stream 数据用来标 识用户和对话。主要问题有 Simple IP address/Multiple Server Sessions 如:ISP提供的Proxy 如:ISP提供的Proxy server Multiple IP address/Single Server Session 如:有些ISP为用户的每一个请求随机分配一个IP 如:有些ISP为用户的每一个请求随机分配一个IP Multiple IP address/Single User 如:一个用户使用多台机器 Multiple Agent/Single User 如:一个用户使用多个浏览器
Statistical Analysis Association Rules Clustering Classification Sequential Patterns Dependency Modeling
Statistical Analysis
对Page Views,Viewing time 和navigational path的长度作 path的长度作 频率,平均值,中值等统计分析。 网络流量分析工具可以提供统计信息,如: 最经常访问的网页 页面平均访问时间 一个站点的平均路径长度 还可以提供简单的错误分析,如:发现非授权的进入 点和经常访问的死链接。 尽管缺乏深层次的分析,这种知识可能会提高系统性 能,提高系统的安全性,提供市场决策支持
Web Usage Mining
张凯
提纲
概述 Web Data Web Usage Mining Taxonomy and Project Survey
概述
Web Mining 可以分为三类: Web Structure Mining Web Content Mining Web Usage Mining Web Usage Mining是指使用数据挖掘技术从网络数据 Mining是指使用数据挖掘技术从网络数据 中发现使用模式。 应用领域:电子商务
Classification
在Web Usage Mining 中,研究如何把用户分类。 分类可以使用有指导的学习方法如: Decision tree naïve Bayesian k-nearest neighbor Support Vector Machines等。 Machines等。
Sequential Patterns
发现session之间的pattern,可以用于预测未来的访问模 发现session之间的pattern,可以用于预测未来的访问模 式,以针对特定的用户群做广告。此外还有trend 式,以针对特定的用户群做广告。此外还有trend analysis,change point detection 或者similarity analysis 或者similarity
通用的原型系统
WebSIFT: SpeedTracer: IBM Watson .从日志文件中重建user .从日志文件中重建user traversal path,然后识别出user session。利用数据挖掘算 path,然后识别出user session。 法发现 most common traversal path 和 frequently visited page group WUM:提供一个“挖掘”语言,来指定对分析者有用 WUM:提供一个“挖掘”语言,来指定对分析者有用 的frequent path的特征。提供树结构的sequence pattern path的特征。提供树结构的sequence 显示方式 WebLogMiner:把web服务器日志放入数据立方体进行 WebLogMiner:把web服务器日志放入数据立方体进行 数据的roll-up和drill-down,发现关联规则,分类,进行 数据的roll-up和drill-down,发现关联规则,分类,进行 时序分析。 Shahabi :Rely on Client Side data collection.
System Improvement
Web Usage Mining 可以用来改善Web Caching,network 可以用来改善Web transmission ,load balancing ,data distribution . 在Security方面,可以帮助检测intrusion,fraud,attempted Security方面,可以帮助检测intrusion,fraud,attempted breakbreak-in Almeida et.al.:建立一个模型,帮助Proxy选择preet.al.:建立一个模型,帮助Proxy选择prefetching和caching策略。 fetching和caching策略。 Schechter et.al:从服务器日志数据中生成path profile,用 et.al:从服务器日志数据中生成path profile,用 于预先生成动态HTML,减少网页生成时的延迟。 于预先生成动态HTML,减少网页生成时的延迟。