用户点击行为模型分析
而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主 管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数 据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗是与问卷 审核不同,录入后的数据清 理一般是由计算机而不是人工完成。
8.2 数据丢弃
数据丢弃如下图所示: 在获取到的数据中,有一些数据我们是用不到的,因此把这些无关数据丢弃, 这样能使后面的挖掘过程更简单,我们只留下用户 id,网站 id 和时间这三种数 据。
鉴于数据量巨大,经过探讨我们决定抽取部分数据进行分析。依据所提供的 原始数据,试着分析如下目标:
每个用户在 8 天内即 2015 年 6 月 23 日-2015 年 6 月 30 日间是否会在各检测 点上发生点击行为。
六.分析方法:
本课题的目标是进行广告行为预测,数据量越大预测的准确率越高,因为数 据量巨大,如果对数据不进行处理就会出现内存空间不足的情况。因此我们抽取 部分数据进行分析。因为原始数据检测点是乱序的,我们第一步进行检测点分类, 将同一个监测点的数据统一进行处理,如图:
十.结果分析: ................................................. 11 十一.实验总结 .................................................. 12
11.1 数据的采集 ............................................. 12 11.2 在试验过程中遇到的问题 ................................. 13 11.3 解决方案以及改进 ....................................... 13 11.4 数据挖掘学习体会: ..................................... 13
本次数据挖掘中主要用了数据清洗,数据丢弃,还有时间变换。
8.1 数据清洗
数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文 件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值 等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务 系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的 数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为 “脏数据”。 我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。
7
降低了实际挖掘所需要的时间。 常用的数据清理主要分为两类:空缺值的处理和噪声数据处理。空缺值处理
主要是使用最可能的值填充空缺值,比如可以用回归、贝叶斯形式化方法工具或 判定树归纳等确定空缺值。这类方法依靠现有的数据信息来推测空缺值,使空缺 值有更大的机会保持与其他属性之间的联系。同时还可以用一个全局常量替换空 缺值、使用属性的平均值填充空缺值或将所有元组按某些属性分类,然后用同一 类中属性的平均值填充空缺值。不过这些方法有局限性,当空缺值很多的情况下, 这些方法的使用可能会误导挖掘结果;除了空缺值处理还有噪声数据处理,噪声 是一个测量变量中的随机错误或偏差,包括错误的值或偏离期望的孤立点值。常 用分箱、回归、计算机检查和人工检查结合、聚类等方法进行噪音处理。
7.2 数据缺失:
在获取的数据过程中有一些数据缺失了网站 id,这些数据是不能用来挖掘的 数据,否则会影响到最终挖掘的结果,因此我们把这类数据剔除。
八.数据预处理
现实世界数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘, 或者挖掘得到的结果偏差,为了提高数据挖掘的质量产生了数据预处理技术,数 据预处理一方面是要提高数据的质量,另外一方面是要让数据更好地适应特定的 挖掘技术或工具。数据预处理主要包括数据清洗,数据集成,数据变换和数据规 约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,
One hot encoding 扩展提取特征,One-Hot 编码,又称为一位有效编码, 主要是采用 位状态寄存器来对 个状态进行编码,每个状态都由他独立的 寄存器位,并且在任意时候只有一位有效。在实际的机器学习的应用任务中, 特征有时候并不总是连续值,有可能是一 些分类值,如性别可分为“male” 和“female”。在机器学习任务中,对于 这样的特征,通常我们需要据采集:
原始数据总共包含 60G 的 txt 文本数据,每条记录包含六列,分别是用户 id, 监测点 id,ip 地址,浏览器类型,国家,时间,点击或曝光。同一网站的不同 广告检测点 id 不同,如新浪网的衣服广告和新浪网的手机广告有不同的加测点 id,同的检测点 id。如图:
基于这个背景,本次课题我们进行了网站点击行为的数据挖掘。数据来自网 络,包含了 2015 年 1 月 1 日-2015 年 6 月 22 日间广告曝光和点击日志。目的是 预测每个用户在 8 天内即 2015 年 6 月 23 日-2015 年 6 月 30 日间是否会在各检 测点上发生点击行为。
利用数据挖掘技术可以帮助获得决策所需的多种知识。在许多情况下,用户 并不知道数据存在哪些有价值的信息知识,因此对于一个数据挖掘系统而言,它 应该能够同时搜索发现多种模式的知识,以满足用户的期望和实际需要。此外数 据挖掘系统还应能够挖掘出多种层次(抽象水平)的模式知识。数据挖掘系统还 应容许用户指导挖掘搜索有价值的模式知识
数据挖掘实验报告
基于用户网站点击行为预测
1
···数据挖掘实验报告.............................................. 1 一. 概要:.................................................. 3 二.背景和挖掘目标:......................................... 3 三.难点分析:............................................... 4 四.难点解答:............................................... 4 五.数据采集:............................................... 5 六.分析方法:............................................... 5 七.数据探索:............................................... 7 7.1 数据无效: ............................................... 7 7.2 数据缺失: ............................................... 7 八.数据预处理................................................ 7 8.1 数据清洗 ................................................. 8 8.2 数据丢弃 ................................................. 8 8.3 数据转换 ................................................. 9 九.挖掘过程:............................................... 9 9.1 计算用户爱好 ............................................ 10 9.2 基于协同过滤算法进行预测 ................................ 10
5
将数据进行分类后,我们采用基于时间戳的衰减算法进行处理,示意图如下:
对于同一个监测点的数据统一处理,对于每一位用户在该监测点上的点击行 为进行统计,比较,计算该用户对该检测点的偏好。如图用户 A 分别在 3 月 1 日、3 月 5 日、3 月 10 日访问了三次。而用户 B 只在 3 月 3 日访问了一次,这样 用户 A 相对用户 B 对该网站的偏好更高。对于另一个用户 C 也访问了三次,但是 这三次相对于用户 A 的距离 2015 年 6 月 23 日-2015 年 6 月 30 日期间更近,显 然用户 C 比用户 A 更有可能在 2015 年 6 月 23 日-2015 年 6 月 30 日间继续访问 该网站,我们认为用户 C 比用户 A 对该网站有更高的偏好。我们将对比各用户的 偏好,我们选择偏好最高的那个用户,这里选择用户 C。
在分析变量时加上时间要素的角度而形成的。对于变量的考察,凡能用 时间单位来表达的,就必须在分析中加上时间这一维度,才能使变量准确的 表达出来。
3.如何在数据分布不平衡时有效地学习? 运用探索式下采样算法,把问题转化为 N 个平衡分布的子问题,依次解
决平衡分布的子问题,把单模型的输出作为特征,自动学习模型权重。把收 集到的数据集划分为第一层和第二层中的最终模型,经过分析得到最终结 果。
2
一.概要:
这次的数据挖掘我们团队做的是基于用户网站点击行为预测,其中遇到的问 题有数据量大,机器难以处理,含有时序关系,特征难以描述等,我们运用正负 样本比例平衡的方法和时间衰减函数来解决这些问题,运用到的算法有基于协同 过滤算法进行预测。
二.背景和挖掘目标:
随着互联网和信息技术的快速发展,广告的精准投放一直是各大广告商面临 的问题。点击网络广告的一般有两类人。第一种是不小心点错的,相信大部分人 都是不喜欢广告的,但由于网络的互动性,仍然会有部分人把广告当内容点击, 其中网站诱导用户点击占了很大一部分比例。第二种是真的想看广告内容,这部 分人对广告的内容感兴趣,或是符合他们的需求,才会点击网络广告。认真去研 究这两类的行为,进行广告个性化的投放将产生巨大的价值。
8
数据丢弃前