当前位置:
文档之家› 大数据应用基础-数据挖掘流程(PPT 77张)
大数据应用基础-数据挖掘流程(PPT 77张)
数据集成中的实体识别问题
• 一个重要问题是实体识别问题:在不同的 数据源中,相同的字段也许有不同的名称。
• 我们需要识别数据中能唯一标识实体的字 段。我们怎么能确定一个数据源中的 customer_id和另一个数据源中的 customer_number指的是同一个字段呢?这 里我们可以利用字段的元数据信息,例如 含义、数据类型、字段允许值的范围等, 从而避免在数据集成时出错。 • 如果我们确定这两个字段是一致的,那么
数据预处理
数据预处理的步骤
• 主要包括: –数据集成 –数据清理 –数据归约(抽样和属性筛选) –数据变换。
数据质量有很多方面问题
数据准备
• 在数据挖掘过程中,数据准备工作占用的
时间往往在一半甚至60%以上! • 这些工作对提高数据挖掘结果的准确性是 必不可少的。因为,没有高质量的数据, 就没有高质量的挖掘结果。
数据清理
• 对于在商业中比较重要的字段,系统开发 者和系统使用者会尽量确保其正确性。然 而,对于在商业中不太重要的字段,人们 往往不太重视确保其质量。
• 通过数据清理,可以确保存入数据仓库中 的信息是完整、正确和格式一致的。 • 如果数据有误,那么所得到的结果很可能 有误导性。
• 但是,数据挖掘者不应该太挑剔,因为我 们往往只能得到质量不好的数据。
数据集成中的数据值格式不一致 问题
• 对同一个实体,来自不同数据源的属性值可能是不同 的。原因可能是各个数据源往往以不同的方式表示相 同的数据,或采用不同的度量等。 • 例如,不同数据源中日期的格式不同。 – 日期有时是一个数值; – 有时是以“XXXX年X月X日”的字符串格式存储; – 有时以“YY/MM/DD”的字符串格式存储。 • 又例如,对同一个省份可能用了不同的名称。 • 还有,同一个名字的属性sales,在一个数据库中是指 一个区域的销量,在另一个数据库中可能是指一个分 店的销量。
– 平均值与中位数是相等的还是差别很大(这 有助于说明变量是否符合正态分布)?数据 是对称的还是倾斜的。 – 每个变量的标准差是多少?(远离属性的均 值超过两个或三个标准差的值可能是离群点) – 有多少缺失值?
直方图 箱图 箱图
散点图
• 通过直方图,能观察连续型变量的分 布是否接近正态分布。对于离散型变 量,则可以用频次分析。 • 通过箱图,能观察到离群值,比如识 别出观测值特别高的个案。 • 通过散点图,能了解属性之间是否有 相关性。
缺失值的成因
• 有时,当你从外部数据源中追加人口统计信 息到客户信息中时,你没能找到一部分客户 的此类信息。
• 几乎很少有现成的据能直接使用。数 据总是看上去不整洁,例如有脏数据、 缺失值等。
• 怎样能知道数据的质量呢?你需要把自 己沉浸在数据中,进行数据探索,从而 了解数据质量。
数据探索的方法
• 在R中的summary(变量名)这种指令(在其他 软件中有类似指令)能提供诸多基本统计信 息。比如:
– 每个变量的值域区间(最大值和最小值)是 否合理?所有的值都落在期望的区间内吗?
缺失值的成因
• 分析师首先应该了解数据缺失的原因。只 有知道具体缺失原因后,才能有的放矢。 • 产生缺失值的原因很多,可能是:
– 这些数据并没被记录下来; – 测量设备出现故障; – 对数据错误地更新导致某些字段信息丢失; – 被测量的对象(头盖骨或植物)损坏或死亡了。 – 有时,还没来得及提供属性值。
• 数据挖掘出现错误结果多半是由数据源的 质量引起的。因此应该重视原始数据的质 量,从源头上减少错误和误差,尤其是减 少人为误差。
数据准备的重要性
数据准备工作占用的时间
往往在60%以上!
数据集成
• 数据挖掘或统计分 析可能用到来自不 同数据源的数据, 我们需要将这些数 据集成在一起。
• 如果只有一个数据 源,这一步可以省 略。
数据清理(数据预处理)
• “数据的重要程度大过算法本身!”
• 无论专家多有经验,无论算法再完美,也 不可能从一堆垃圾中发现宝石。
• 人们往往没有那么好的运气,有现成的质 量好的数据可以直接用。现实世界的数据 是“杂乱的”,其中总是有这样或那样的 问题。
• “经常保持对客户数据的怀疑之 心!”“所有的数据都是脏的” • 例如,有些数据是缺失的(属性的值是空
数据清理
• 如果你的企业中有数据仓库,应弄清楚这 些数据是怎样收集的,这对理解数据质量 很重要。至少应该知道每个字段取值来自 哪里、合理的取值的范围、为什么会有缺 失值等。这对数据清理很有帮助。
数据清理
• 数据清理也叫数据清洗。
• 这一步主要针对缺失值、数据噪声、离群 值。
缺失值
• 缺失值很常见。例如,在销售表中的顾客信息 当中,也许除了名字外,其他各个属性都有缺 失值。 • 我们尤其不希望重要属性存在缺失值。
数据集成中的数据值格式不一致 问题
• 重量在一个数据源中的单位可能是千克; 在另一处则是斤。
另一种度 量 一种度量
数据集成中的属性冗余问题
• 一个属性可能能由另一个或一组属 性导出。 • 有些冗余可以被相关分析检测到。 我们通过相关系数或卡方检验了解 两个属性是否是统计相关的。
数据探索
• 在数据集成后,需要数据探索(data exploring)。这个步骤不是数据预处理, 但对数据预处理很重要。
数据挖掘流程
大数据应用基础——次课
weiwei@
数据挖掘的基本流程
1 3
信息收集 数据预处理 数据挖掘 评估 知识表示
2
3 4 5 3
数据挖掘的基本流程
高度重视以下同义词
• 以下术语大致是同一个意思:
• 表格中的行:个案=实例=记录=样本点=数据点
• 表格中的列:属性=特征=字段=维度=预测变量 =自变量
数据集成中的实体识别问题
• 对于互联网企业来说,一个需要注意的重 要问题是如何能把PC端用户、手机端用户 给对应起来。 • 也就是说,如何能保证,用户在不同设备 上登录你的网站时的访问记录都能汇总到 一起,而不是把这些访问记录当做是多个 不同用户的访问记录。
数据集成中属性值不一致的问题
• 同一个人的名字可能在一个数据库中登记 为“王思聪”,在另一个数据库中则登记 为“Sicong Wang”。