当前位置:文档之家› 数据科学导论-GitHub

数据科学导论-GitHub

数据科学导论Introduction to Data Science 第四章数据挖掘基础10/21/20171An Introduction to Data Science 刘淇Email: qiliuql@课程主页:/~qiliuql/DS2017.html基本概念——数据挖掘是什么?现今与未来:Data is everything and everything is data 从最不可能的地方获得数据2人的坐姿千差万别,这是数据吗?怎么获得?日本先进工业技术研究所的教授越水重臣基本概念——数据挖掘是什么?现今与未来:Data is everything and everything is data当一个人坐着的时候,他的身形、姿势和重量分布都可以量化和数据化3在汽车座椅下部安装360个压力传感器测量人对椅子施加的压力,用0~256的数值量化•把人体屁股特征转化成了数据,产生独属于每个乘坐者的精确数据资料。

•汽车可以准确的识别乘坐者的身份:汽车防盗系统基本概念——数据挖掘是什么?数据挖掘:从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识,并据此更好的服务人们的生活。

4基本概念——数据挖掘是什么?数据挖掘的近义词从数据中挖掘知识知识提炼数据/模式分析数据考古 数据捕捞、信息收获、资料勘探等。

数据中的知识发现(KDD :Knowledge Discovery in Data )5统计学数据库机器学习可视化高性能人工智能数据挖掘参考书数据挖掘导论(Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Addison Wesley )6四个任务——数据挖掘有哪些任务?7DataClustering ClassificationAssociationAnalysisAnomalyDetection8四个任务——聚类(Clustering):铁路票价制定如何制定合适的票价提高上座率?将旅客进行聚类分析,根据旅客乘坐高铁频率的不同提供不同的优惠政策。

合适的定价是提高高铁上座率的保障。

Clustering四个任务——聚类(Clustering):Query clustering“USTC”, “中科大”,“中国科大”,“中国科学技术大学” “长城”,“颐和园”,“故宫”9长城汽车?万里长城?搜索情境颐和园理解当前搜索意图10四个任务——Association Rule(关联规则)“啤酒与尿布”在一次圣诞节的顾客消费行为分析中,沃尔玛意外发现跟尿布一起购买最多的商品竟然是啤酒。

经过深入分析后,卖场立即对两类商品的空间距离与价格都进行了调整,结果尿布与啤酒销量双双大增。

萨姆·沃尔顿,沃尔玛公司创始人轰动一时的啤酒与尿布关联规则11四个任务——Association Rule(关联规则)四个任务——Association Rule (关联规则)向林彪同志学习数据挖掘:不打无把握之仗找到最有价值用户,俘获“廖耀湘”类的VIP1948年10月东北野战军先克锦州再战辽西一个普通战报的数据引起林彪注意–胡家窝棚“为什么那里缴获的短枪与长枪的比例比其它战斗略高?”“为什么那里缴获和击毁的小车与大车的比例比其它战斗略高?”“为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高?”12短枪小车军官13四个任务Find a model for class attribute as a function of the values of other attributes四个任务——Predictive Modeling: Classification(分类)Predicting tumor cells as benign or malignant(良性还是恶性) 邮件分类(垃圾邮件)Classifying credit card transactions as legitimate or fraudulent (欺诈)Classifying secondary structures of protein as alpha-helix, beta-sheet, or random coilCategorizing news stories as finance, weather, entertainment, sports, etcIdentifying intruders in the cyberspace1415四个任务——Anomaly Detection(异常检测)Detect significant deviations from normal behaviorApplications: ArrayCredit Card Fraud DetectionNetwork Intrusion Detection16四个任务——Anomaly Detection(异常检测)电力行业--盗电检测由于盗电用户行为特征与普通用户不同(电费与人员、产值、税收等形成反差),通过对用户用电数据的聚类分析,反窃电的业务人员就能对锁定的目标重点侦察,既能提高窃电客户的识别率,还能节省电力部门人力资源,为反窃电提供了另一种思路。

箭头所示样本点即为可能的盗电用户常用方法——关于四个任务有哪些常用方法?17DataClustering ClassificationAssociationAnalysisAnomalyDetection18分类分类的直观解释---买芒果19颜色 大小 重量 形状 产地… …数据特征 甜度 汁水 成熟度 … …指标(标签)分类模型测试集不甜 汁水多 成熟… …预测指标数据建模预测数据样本训练集20判断西瓜是否熟了21建立分类模型的一般流程模型训练过程LearnModel22建立分类模型的一般流程测试LearnModel23分类模型的评价24分类模型的评价25常用方法——分类基本分类决策树规则方法贝叶斯方法最近邻方法支持向量机(SVM)神经网络集成分类Boosting, Bagging, 随机森林模型评估方法Class Imbalance Problem(类不平衡问题)26分类27Home OwnerMarStIncomeYESNO NONOYesNoMarried Single, Divorced< 80K> 80K分类——决策树28分类决策树29Apply Learn Model30决策树31决策树32决策树33决策树34决策树35决策树36决策树LearnModel37决策树Let Dt be the set of training records38决策树初始节点包含所有的数据样本,39决策树——如何决策?训练记录如何分裂?选择测试条件的方法依赖属性类型评价测试条件分裂过程何时停止?停止分类如果所有记录属于同一类或者所有数据有相同的属性值提前终止40决策树Multi-way split:41决策树42决策树决策树——连续属性的分裂不同处理方式离散化地处理有序的分类属性Static (静态)–discretize once at the beginning Dynamic (动态)–ranges can be found by equal interval bucketing, equal frequency bucketing (percentiles), or clustering. (二值划分)Binary Decision: (A < v) or (A v)consider all possible splits and finds the best cut (考虑所有情况,找出最好的划分)can be more compute-intensive 4344决策树Before Splitting: 10 records of class 0,Which test condition is the best?45决策树贪心(决策树——不纯性程度计算Gini Index (基尼指数) Entropy (熵) Misclassification error 46 jt j p t GINI 2)]|([1)( j t j p t j p t Entropy )|(log )|()()|(max 1)(t i P t Error i决策树——找到最好的分裂分裂前计算不纯性(P) 分裂后计算不纯性(M)Compute impurity measure of each child node Compute the average impurity of the children (M) 选择能获得最高增益的属性作为测试条件或者是分裂后最小的不纯性(M) 47Gain = P –M48决策树——找到最好的分裂49决策树Gini Index for a given node t :50决策树。

相关主题