当前位置：文档之家› 大数据应用基础-数据挖掘流程(PPT 77张)

大数据应用基础-数据挖掘流程(PPT 77张)

数据集成中的实体识别问题
• 一个重要问题是实体识别问题：在不同的数据源中，相同的字段也许有不同的名称。
• 我们需要识别数据中能唯一标识实体的字段。我们怎么能确定一个数据源中的 customer_id和另一个数据源中的 customer_number指的是同一个字段呢？这里我们可以利用字段的元数据信息，例如含义、数据类型、字段允许值的范围等，从而避免在数据集成时出错。 • 如果我们确定这两个字段是一致的，那么
数据预处理
数据预处理的步骤
• 主要包括： –数据集成 –数据清理 –数据归约（抽样和属性筛选） –数据变换。
数据质量有很多方面问题
数据准备
• 在数据挖掘过程中，数据准备工作占用的
时间往往在一半甚至60%以上！ • 这些工作对提高数据挖掘结果的准确性是必不可少的。因为，没有高质量的数据，就没有高质量的挖掘结果。
数据清理
• 对于在商业中比较重要的字段，系统开发者和系统使用者会尽量确保其正确性。然而，对于在商业中不太重要的字段，人们往往不太重视确保其质量。
• 通过数据清理，可以确保存入数据仓库中的信息是完整、正确和格式一致的。 • 如果数据有误，那么所得到的结果很可能有误导性。
• 但是，数据挖掘者不应该太挑剔，因为我们往往只能得到质量不好的数据。
数据集成中的数据值格式不一致问题
• 对同一个实体，来自不同数据源的属性值可能是不同的。原因可能是各个数据源往往以不同的方式表示相同的数据，或采用不同的度量等。 • 例如，不同数据源中日期的格式不同。 – 日期有时是一个数值； – 有时是以“XXXX年X月X日”的字符串格式存储； – 有时以“YY/MM/DD”的字符串格式存储。 • 又例如，对同一个省份可能用了不同的名称。 • 还有，同一个名字的属性sales，在一个数据库中是指一个区域的销量，在另一个数据库中可能是指一个分店的销量。
– 平均值与中位数是相等的还是差别很大（这有助于说明变量是否符合正态分布）？数据是对称的还是倾斜的。 – 每个变量的标准差是多少？（远离属性的均值超过两个或三个标准差的值可能是离群点） – 有多少缺失值？
直方图箱图箱图
散点图
• 通过直方图，能观察连续型变量的分布是否接近正态分布。对于离散型变量，则可以用频次分析。 • 通过箱图，能观察到离群值，比如识别出观测值特别高的个案。 • 通过散点图，能了解属性之间是否有相关性。
缺失值的成因
• 有时，当你从外部数据源中追加人口统计信息到客户信息中时，你没能找到一部分客户的此类信息。
• 几乎很少有现成的据能直接使用。数据总是看上去不整洁，例如有脏数据、缺失值等。
• 怎样能知道数据的质量呢？你需要把自己沉浸在数据中，进行数据探索，从而了解数据质量。
数据探索的方法
• 在R中的summary(变量名)这种指令（在其他软件中有类似指令）能提供诸多基本统计信息。比如：
– 每个变量的值域区间（最大值和最小值）是否合理？所有的值都落在期望的区间内吗？
缺失值的成因
• 分析师首先应该了解数据缺失的原因。只有知道具体缺失原因后，才能有的放矢。 • 产生缺失值的原因很多，可能是：
– 这些数据并没被记录下来； – 测量设备出现故障； – 对数据错误地更新导致某些字段信息丢失； – 被测量的对象（头盖骨或植物）损坏或死亡了。 – 有时，还没来得及提供属性值。
• 数据挖掘出现错误结果多半是由数据源的质量引起的。因此应该重视原始数据的质量，从源头上减少错误和误差，尤其是减少人为误差。
数据准备的重要性
数据准备工作占用的时间
往往在60%以上！
数据集成
• 数据挖掘或统计分析可能用到来自不同数据源的数据，我们需要将这些数据集成在一起。
• 如果只有一个数据源，这一步可以省略。
数据清理（数据预处理）
• “数据的重要程度大过算法本身！”
• 无论专家多有经验，无论算法再完美，也不可能从一堆垃圾中发现宝石。
• 人们往往没有那么好的运气，有现成的质量好的数据可以直接用。现实世界的数据是“杂乱的”，其中总是有这样或那样的问题。
• “经常保持对客户数据的怀疑之心！”“所有的数据都是脏的” • 例如，有些数据是缺失的（属性的值是空
数据清理
• 如果你的企业中有数据仓库，应弄清楚这些数据是怎样收集的，这对理解数据质量很重要。至少应该知道每个字段取值来自哪里、合理的取值的范围、为什么会有缺失值等。这对数据清理很有帮助。
数据清理
• 数据清理也叫数据清洗。
• 这一步主要针对缺失值、数据噪声、离群值。
缺失值
• 缺失值很常见。例如，在销售表中的顾客信息当中，也许除了名字外，其他各个属性都有缺失值。 • 我们尤其不希望重要属性存在缺失值。
数据集成中的数据值格式不一致问题
• 重量在一个数据源中的单位可能是千克；在另一处则是斤。
另一种度量一种度量
数据集成中的属性冗余问题
• 一个属性可能能由另一个或一组属性导出。 • 有些冗余可以被相关分析检测到。我们通过相关系数或卡方检验了解两个属性是否是统计相关的。
数据探索
• 在数据集成后，需要数据探索（data exploring）。这个步骤不是数据预处理，但对数据预处理很重要。
数据挖掘流程
大数据应用基础——次课
weiwei@
数据挖掘的基本流程
1 3
信息收集数据预处理数据挖掘评估知识表示
2
3 4 5 3
数据挖掘的基本流程
高度重视以下同义词
• 以下术语大致是同一个意思：
• 表格中的行：个案=实例=记录=样本点=数据点
• 表格中的列：属性=特征=字段=维度=预测变量 =自变量
数据集成中的实体识别问题
• 对于互联网企业来说，一个需要注意的重要问题是如何能把PC端用户、手机端用户给对应起来。 • 也就是说，如何能保证，用户在不同设备上登录你的网站时的访问记录都能汇总到一起，而不是把这些访问记录当做是多个不同用户的访问记录。
数据集成中属性值不一致的问题
• 同一个人的名字可能在一个数据库中登记为“王思聪”，在另一个数据库中则登记为“Sicong Wang”。

e商务文档

大数据应用基础-数据挖掘流程(PPT 77张)

相关文档推荐：