数据挖掘期末复习整理
2. 练习题目 1. ex 2.2 2. ex 2.4 3. ex 2.9 4. ex 2.14 5. ex3.4 6. ex 3.5
7. ex 3.7 8. ex 3.12 9. ex 3.13 10. ex 5.3 11. ex 5.5 12. ex 5.10(a) 13. ex 5.13 14. ex 5.14 3. 经典算法 1. Aprior算法(P151):直接;剪枝 例5-3 2. 决策树(P189):信息增益(192)例6-1;增益率(184)例6-
22. 加权算术平均(33):;在集合中每个值xi与一个权值wi相关
联,权值反应对应值的显著性、重要性或出现频率。 23. 中位数(33):设给定的N个不同值得数据集按数值序排
序。如果N是奇数,则中位数是有序集的中位数;否则,中 位数是中间两个值得平均值。 24. 众数、中列数、百分位数(34): 众数:另外一个中心趋势量,集合中出现频率最高的数。 中列数:数据集的最大和最小值的平均值。
联规则。多层关联规则设计不同抽象层中的概念。
(2) 涉及两个或多个维或谓词的关联规则称为多维关联规 则。
44. 从决策树提取规则(208): 45. 后向传播分类(212-217): 46. K最近邻居分类(226): 47. 遗传算法(228): 48. 预测(231): 最小二乘法:P231-P233(例6-11;作业:6.14(P246));线性回归 (P231-P233); 49. 提升度(169):例5-9,例5-10 提升度(lift):项集A的出现独立于项集B的出现,如果;否则作 为事件项集A和B是依赖的和相关的。 A和B出现之间的提升度(等价于P(B|A)/P(B)或 conf(A=>B)/sup(B));若lift(A,B)值小于1,则A的出现和B的出现 是负相关的。如果结果大于1,则A和B是正相关的,意味着一个 的出现蕴含另一个的出现。如果结果等于1,则A和B 是独立的, 它们之间无相关性。
(1) 确定哪些操作应当在可利用的方体上执行 (2) 确定相关操作应当在使用哪些物化的方体 40. 购物篮分析(146):购物篮分析是频繁项集挖掘的一个典型 的例子,该过程通过发现顾客放入“购物篮”中的不同商品之 间的关联,分析顾客的购物习惯。 41. 关联规则挖掘的步骤(148): (1) 找出所有的频繁项集:根据定义,这些项集的每一个
百分位数:在数值序下,数据集合的第K个百分位数是具有如下性 质的值xl:百分之K的数据项位于或低于xl. 百分位数的求法:特点:数组按低到高,即从小到大。
Eg,实际步骤: 1. 排序(升) 2. 求(n-1)*k%; 整数部分i;小数部分j; 3. 最终结果=(1-j)*(1+i)th+j*(i+2)th.(th表示序列中第几个 数)
如题: 求1 3 4 5 6 7 8 9 19 29 39 49 59 69 80的30%百分位数。 解:(16-1)*0.3=4.5;得出整数部分为4,小数部分为0.5; 结果=(1-0.5)*6+0.5*7=6.5 25. 五数概况(35):由中位数,四分位数Q1和Q3,最小和最大
观·测值组成,按一下序列写为: Minimun,Q1,Median,Q3,Maximum. 26. 方差、标准差(35): N个观测值x1,x2………Xn的方差是: 其中,x是观测值的均值,观测值的方差是标准差得平方根。 27. 直方图(36):频率直方图,是一种概括给定属性分布的图 形方法。属性A的直方图是将A的数据分布划分成不相交的子 集或桶。通常,每个桶的宽度是一致的。每个桶用一个矩形
概念的模型(或函数),以便能够使用模型预测类标号未知 的对象类。导出模型是基于对训练数据集(即类标号已知的 数据对象)的分析。 17. 预测(15):建立连续值函数模型。它用来预测空缺的或不 知道的数值数据值,而不是类标号。 18. 决策树(16):是一种类似于流程图的树结构,其中每个节 点代表在一个属性值上的测试,每个分枝代表测试的一个输 出,而树叶代表类或类分布。 19. 聚类分析(17):聚类分析数据不考虑已知的类标号,对象 根据最大化类内部的相似性、最小化类之间的相似性的原则 进行聚类或分组。 20. 离群点(17):数据库中可能包含一些数据对象,它们与数 据的一般行为或模型不一致。 21. 均值(33): 设x1,x2,…..xn是n个值或观测的集合。该值集的均值是:
50. 监督学习(185):分类器的学习在被告知每个训练元组属于 哪个类的“监督”下进行。
51. 无监督学习(185):又称为“聚类”,每个训练元组的类标号 是未知的,并且要学习的类的个数或集合也可能事先不知
道。
52. 如何评价学习算法(187): 从以下几个方面评价:准确 率、速度、鲁棒性、可升缩性、可解释性。
10. 时间数据库(11):通常存放包含时间相关属性的关系数据 库。
11. 空间数据库(11):包含设计空间的信息。 12. 多媒体数据库(12):存放图像、音频和视频数据。 13. 异构数据库(12):由一组互连的、自治的成员数据库组
成。这些成员数据库相互通信,以便交换信息和回答查询。 14. 频繁模式(15):是指在数据中频繁出现的模式。存在多种
出现的频繁性至少与预定义的最小支持计数min_sup 一样; (2) 由频繁项集产生强关联规则:这些规则必须满足最小 支持度和最小置信度。 42. 如何由频繁项集产生关联规则(154-155): (1) 对于每个频繁项集L,产生L的所有非空子集。
(2) 对于L的每个非空子集s,如果>=min_conf,则输出规则: “S=>(L-S)”,min_conf是最小置信度阀值。 43. 多层关联规则、多维关联规则(163): (1) 在多个抽象层上挖掘数据产生的关联规则称为多层关
以通过x2(卡方)检验发现。 设A有C个不同值a1,a2……………..ac;B有r个不同值b1,b2……………..br。A 和B描述的数据元组可以用一个相依表显示,其中A的C个值构成 列,B的r个值构成行。令(Ai,Bi)表示属性A取值ai、属性B取值 bi的事件,即(A=ai,B=bi).每个可能的(Ai,Bi)联合时间都在表 中有自己的单元(位置)。其中,oij是联合事件(Ai,Bi)的观测 频度(实际计数),而eij是(Ai,Bi)的期望频度。可以用如下公 式计算 eij=(N是数据元组的个数,count(A=ai)是A具有值ai的元组个 数,count(B=ai)是B具有值bj的元组个数) 注意:对值贡献最大的单元是其实际计数与期望计数很不相同的 单元。 另:统计检验假设A和B是独立的,检验基于显著水平,具有(r1)*(C-1)自由度。如果可以拒绝该假设,则我们说A和B是统计相 关的或关联的。 概念分层(47):属性的原始数据值用区间值或较高层的概念替 换。 32. 直方图的等宽、等屏(53): 等宽:在等宽直方图中,每个桶的宽度区间是一致的。 等屏(或等深):在等屏直方图中,创建桶,使得每个桶的频率 粗略地为常数(即每个桶大致包含相同个数的邻近数据样本)。 33. 如何产生概念分层(60-61): 可以运用启发式规则分层:即一个属性的不同值个数越少,它在 所产生的概念分层结构中所处的层次越高。注意的是这种启发式 规则并非完美。 34. 数据立方(70)(基本立方、顶点立方): 数据立方体允许从多维对数据建模和观察。它由维和事实定义, 一般,维是关于一个组织想要保存记录的透视图或实体;事实是 数值多辆的。 存放最低层汇总的方体称作基本方体;存放最高层的汇总,称作 顶点方体。 35. 数据仓库的流行模型(73):最流行的数据仓库数据模型是
30. 相关系数(43):又称皮尔逊积矩系数 其中N是元组的个数,ai和bi分别是元组i中A和B的值,和分别是A 和B的均值,和分别是A和B的标准差,是A和B叉积的和(即:对 于每个元组,A的值乘以该元组B的值). -1<=rA,B<=+1 注意:相关并不意味着因果关系。
31. 卡方(44):练习 例2-1 卡方:对于分类(离散)数据,两个属性A和B之间的相关联系可
多维模型。这种模型可以以星形模式、雪花形模式或事实星 座形模式形式存在。 星形模式:最常见的模型范例是行形模式,其中数据库包括(1)
ቤተ መጻሕፍቲ ባይዱ
一个大的包含大批数据并且不含冗余的中心表(事实表);(2) 一组小的附属表(维表),每维一个。 雪花模式:雪花形模式是星形模式的变种,其中默写维表是规范 化的,因而把数据进一步分解到附加的表中。 事实星座形:复杂的应用可能需要多个事实表共享维表,该模式 可以看作是星形模式的汇集。 36. OLAP操作(73)图3-10 P80: 上卷:通过沿一个维的概念分层向上攀升或者通过维归约,对数 据立方体进行聚集。 下卷:上卷的逆操作。 切片和切块:切片操作对给定立方体的一个维进行选择,导致一 个子立方体。 转轴(旋转):是一种可视化操作,它转动数据的视角,提供数 据的替代表示。 其他操作:钻过,钻透。 37. 数据立方的计算(88-90): 38. 不/完全/部分物化(89-90) 不物化:不预计算任何“非基本”方体。这导致回答查询是计算昂 贵的多维聚集。 完全物化:预计算所有方体。计算的方体格是完整立方体。 部分物化:有选择地计算整个可能的方体集中一个适当的子集。 39. OLAP查询处理(92): 查询处理的步骤:
类型的频繁模式,包括项集、子序列和子结构。
15. Support/Confidenct(15): 置信度又称为规则的正确率,是指在前提出现的情况
下,后件出现的概率 支持度又称为规则的覆盖率,是指包含规则出现的属性值的
交易占所有交易的百分比 16. 分类(15):分类是一个过程,它找出描述和区分数据类或
数据仓库是一个从多个数据源收集的信息储存库,存放在一个一 致的模式下,并且通常驻留在某个站点;是一个面向主题的、集 成的、时变的和非易失的数据集合,可以对数据进行清理和集成 等操作,支持管理部门的决策过程。
6. 多维数据立方体(8):作为数据仓库的一种实际物理结构 (另外一种是关系数据库),提供数据的多维视图,并允许 计算和快速访问汇总数据。