当前位置:文档之家› 数据挖掘实习报告

数据挖掘实习报告

--一群用户购买了很多产品,哪些产品同时购买的几率比较高? 买了A产品的同时买哪个产品的几率比较高?
应用
-- 典型的应用:购物篮分析(啤酒与尿布)
6/23
四、数据挖掘解决的四类问题--预测
描述
--狭义的预测,不包括之前的分类问题
--主要指预测变量的取值为连续数值型数据 --e.g. 天气预报预测气温、预计下一年度GDP增长率、电信运营商预测收入等
解决方法--回归
--Y=aX1+bX2+……nXn
--
一元回归 线性回归 多元回归 非线性回归 --逻辑回归(Logistic回归)
7/23
预测
数据挖掘
二、文本分类流程
--------------------------------
9/23
步骤概述
训练文本集 训练模块 输出类别 测试文本集
测试模块 文 本 分 词 特 征 选 择 特 征 加 权 基于词的 类别向量 文本预处理 语 义 映 射 基于语义概 念的类别向 量 文 本 分 类 器 语 义 映 射 预 处 理
二、数据挖掘解决的四类问题--聚类
描述
--把一群对象划分为若干组
--不属于预测问题 --分类与聚类的区别
应用
--客户细分:选择客户消费行为习惯的若干指标对用户群进行划分: 特征相似的用户聚为一类,特征相似度低的聚在不同类。
5/23
三、数据挖掘解决的四类问题--关联
描述
--从大量数据中挖掘出数据项之间相互联系的有价值的知识。
SVM
--优点:不容易过拟合
--最终决策函数依赖于少量支持向量,与样本空间维数无关,避免了维数灾难。
16/23
二、其它算法
聚类k-means
--算法: 1.选择k个点作为初始质心; 2. 将每个点指派到最近的质心; 3.重新计算每个簇的质心; 4.重复2-3直至质心不发生变化。
关联规则Apriori
--事务transaction
--项集I={网球拍,网球,运动鞋,羽毛球} --求频繁二项集「网球拍,网球」的支持度与置信度--apriori算法
--支持度 --置信度
17/23
四、遇到的困难及解决办法
--------------------------------
18/17
一、特征选择VS特征加权
--预测结果是类行业:根据客户基本信息,预测他会不会离网 结构化数据 --银行业:某客户的信用度是好/一般/差,是否批准其贷款请求 --。。。 --邮件应用:垃圾邮件过滤及邮件自动分类 --网页自动分类:基于网页内容分类 非/半结构化数据 --。。。
4/23
单篇文本
基于概念 的各项分 类参数
计算查全 率、查准 率、F1值
性能 评估 模块
10/23
python
文本-词频矩阵 文本预处理 Document Term Matrix
分词
特征选择&加权
--降维:提高分类准确率;提高运行速度
语义映射
12/23
三、算法
--------------------------------
特征选择
特征加权
(10,3,4,20,5) (10,20,4,20,5)
19/23
二、准确率VS召回率
20/23
四、数据挖掘利器
--------------------------------
21/23
数据挖掘利器--R
柱形图 饼图
3D图
地图 文本挖掘
/thread-46051-1-6.html
22/23
谢谢大家!
23/23
13/23
一、分类算法(1)
决策树
KNN(最近邻)
SVM(支持向量机)
14/23
一、分类算法(2)
线性可分
线性不可分
15/23
一、分类算法(3)--优缺点及适用情况
决策树
--由于词条数量大,决策树很庞大,不易生成。
KNN
--缺点:k值需要自己设定,不能自适应调整,需要大量实验。
--样本分布不均衡时,影响分类精度
实习工作总结汇报
实习生:王漪 指导导师:赵昕
目录
一、当数据遇上挖掘 二、文本分类流程 三、相关算法 四、遇到的困难及解决办法
五、数据挖掘利器
2/23
一、数据遇上挖掘
--------------------------------
3/23
一、数据挖掘解决四类问题--分类
描述
--分类问题属于预测性的问题
相关主题