当前位置：文档之家› 数据挖掘实习报告

数据挖掘实习报告

--一群用户购买了很多产品，哪些产品同时购买的几率比较高？买了A产品的同时买哪个产品的几率比较高？
应用
-- 典型的应用：购物篮分析（啤酒与尿布）
6/23
四、数据挖掘解决的四类问题--预测
描述
--狭义的预测，不包括之前的分类问题
--主要指预测变量的取值为连续数值型数据 --e.g. 天气预报预测气温、预计下一年度GDP增长率、电信运营商预测收入等
解决方法--回归
--Y=aX1+bX2+……nXn
--
一元回归线性回归多元回归非线性回归 --逻辑回归（Logistic回归）
7/23
预测
数据挖掘
二、文本分类流程
--------------------------------
9/23
步骤概述
训练文本集训练模块输出类别测试文本集
测试模块文本分词特征选择特征加权基于词的类别向量文本预处理语义映射基于语义概念的类别向量文本分类器语义映射预处理
二、数据挖掘解决的四类问题--聚类
描述
--把一群对象划分为若干组
--不属于预测问题 --分类与聚类的区别
应用
--客户细分：选择客户消费行为习惯的若干指标对用户群进行划分：特征相似的用户聚为一类，特征相似度低的聚在不同类。
5/23
三、数据挖掘解决的四类问题--关联
描述
--从大量数据中挖掘出数据项之间相互联系的有价值的知识。
SVM
--优点：不容易过拟合
--最终决策函数依赖于少量支持向量，与样本空间维数无关，避免了维数灾难。
16/23
二、其它算法
聚类k-means
--算法： 1.选择k个点作为初始质心； 2. 将每个点指派到最近的质心； 3.重新计算每个簇的质心； 4.重复2-3直至质心不发生变化。
关联规则Apriori
--事务transaction
--项集I={网球拍，网球，运动鞋，羽毛球} --求频繁二项集「网球拍，网球」的支持度与置信度--apriori算法
--支持度 --置信度
17/23
四、遇到的困难及解决办法
--------------------------------
18/17
一、特征选择VS特征加权
--预测结果是类行业：根据客户基本信息，预测他会不会离网结构化数据 --银行业：某客户的信用度是好/一般/差，是否批准其贷款请求 --。。。 --邮件应用：垃圾邮件过滤及邮件自动分类 --网页自动分类：基于网页内容分类非/半结构化数据 --。。。
4/23
单篇文本
基于概念的各项分类参数
计算查全率、查准率、F1值
性能评估模块
10/23
python
文本-词频矩阵文本预处理 Document Term Matrix
分词
特征选择&加权
--降维：提高分类准确率；提高运行速度
语义映射
12/23
三、算法
--------------------------------
特征选择
特征加权
（10，3，4，20，5）（10，20，4，20，5）
19/23
二、准确率VS召回率
20/23
四、数据挖掘利器
--------------------------------
21/23
数据挖掘利器--R
柱形图饼图
3D图
地图文本挖掘
/thread-46051-1-6.html
22/23
谢谢大家！
23/23
13/23
一、分类算法（1）
决策树
KNN（最近邻）
SVM（支持向量机）
14/23
一、分类算法（2）
线性可分
线性不可分
15/23
一、分类算法（3）--优缺点及适用情况
决策树
--由于词条数量大，决策树很庞大，不易生成。
KNN
--缺点：k值需要自己设定，不能自适应调整，需要大量实验。
--样本分布不均衡时，影响分类精度
实习工作总结汇报
实习生：王漪指导导师：赵昕
目录
一、当数据遇上挖掘二、文本分类流程三、相关算法四、遇到的困难及解决办法
五、数据挖掘利器
2/23
一、数据遇上挖掘
--------------------------------
3/23
一、数据挖掘解决四类问题--分类
描述
--分类问题属于预测性的问题

e商务文档

数据挖掘实习报告

相关文档推荐：