当前位置:
文档之家› 大数据平台数据治理和挖掘解决方案
大数据平台数据治理和挖掘解决方案
• 大数据治理是一项系统工程,大到大数据技术平台的搭建、组织的变革、政策的制定、流程的重组,小到元数据的管理、主数据的整合、各种类型大数据的个性 化治理和大数据的行业应用。
• 组织必须治理全部大数据,将大数据治理定义如下: 大数据治理是广义数据治理计划的一部分,即制定与大数据有关的数据优化、隐私保护与数据变现的政策。 将上述大数据治理的定义分解为以下部分:
数据处理思维转变
数据处理思维转变
关联关系,预测的关键。很多时候,知道“是什么”就够了,没必要知道“为什么”。 一旦我们完成了“关联关系”分析,我们就可以继续向更深层次研究因果关系,找出背后的“为什么”
其它案例 • 沃尔玛:请把蛋挞和飓风用品摆在一起,请把啤酒和尿片摆在一起; • 某信用评分公司,利用Facebook的社交圈来预测个人偿还债务的可能性; • 对冲基金通过分析Twitter微博的数据文本,作为股市投资的信号; • 某信用评分公司,利用Facebook的社交圈来预测个人偿还债务的可能性; • 对冲基金通过分析Twitter微博的数据文本,作为股市投资的信号;
大数据与BI融合*
大数据的商业价值
大数据主要厂商
大型企业和机构在寻求解决棘手的大 数据问题时,往往会使用开源软件基础 架构Hadoop的服务。由于Hadoop深受欢 迎,许多公司都推出了各自版本的 Hadoop,也有一些公司则围绕Hadoop提 供解决方案。 Hadoop的发行版除了社区 的Apache hadoop外,cloudera,IBM, ORACLE等都提供了自己的商业版本。商 业版主要是提供Hadoop专业的技术支持, 这对一些大型企业尤其重要。
• 在谷歌的翻译团队中,大多数工程师并不懂其翻译出来的语言;
案例二 • 聘请了20多名书评家和编辑组成的团队,在网页上创立“亚马 逊的声音”向客户推荐新书,写书评; • 通过客户的购买历史,寻找客户的相似性,对客户分群进行产 品推荐,推荐的总是与以往购买的相似或略有区别; • 通过大量的数据分析,找出书籍之间的关联关系,即“itemto-item”,时亚马逊发生了天翻地覆的变化。 • AMAZON销售额的三分之一来自于“item-to-item”的推荐系统 。 • AMAZON最终放弃了在线书评,书评团队被解散。
大数据是广义数据 治理计划的一部分
数据治理机构必须采取以下措施,以将大数据整合到既有的数据治理框架中: 扩展数据治理宪章的外延,将大数据治理纳入其中; 拓宽数据治理委员会成员的范围,将数据科学家等大数据的超级用户吸纳进来; 任命处理社交媒体等特定大数据的主管; 将大数据与元数据、隐私、数据质量和主数据等数据治理准则结合。
交易数 据
大数据类型
量学数 据
成的数 据
大数据分析受用 例驱动,用例的 具体情况因产业
和功能而异。
2
目录
1
大数据综述
2
大数据平台解决方案
3
大数据平台数据治理方法
4
请输入第四部分标题
01 大数据综述
数据处理思维转变
数据关系力求明确清晰
少量的样本数据
乐于接受数据的纷繁复 杂
全量数据
探求难以捉摸的因果关系
要求数据精确无误
传统数据分析思维
数据处理思维转变
转而关注事物的关联关系
数据的精确不是那么重要了
大数据分析思维
案例一
• 谷歌翻译系统为了训练其系统,收集其能找到的所有翻译; • 谷歌收集了上万亿页的语料库,包括质量参差不齐的文档; • 上万亿的语料库,相当于950亿句英语; • 相对而言,谷歌的翻译质量还是最好的; • 谷歌翻译之所以更好,不是因为它拥有一个更好的算法机制,而是增 加了各种各样的数据,包括有错误的数据;
元数据——建立大数据类别信息; 数据质量管理——像公司对实物资产进行定期检修一样,定期净化大数据; 信息生命周期管理——对大数据进行存档,并在没必要继续保存某些数据时,将其删除。
组织同样必须建立旨在防止大数据误用的适当政策。组织在处理社交媒体、地理定位、生物计量学和其他形式的个人可识别信息(PII)时,必须考 虑涉及的声誉、规制和法律风险。
IBM
Oracle
Cloudera
。。。
EMC
ห้องสมุดไป่ตู้ 大数据生态
Big Data Applications
SQL RAW
SQL 资料汇入
非结构化 资料汇入
数据挖掘程序库
资料P处ig!理语言
并行计算框架
类SQHLI资VE料库系统 (非即时性)
分散式资料库 (即时性)
分散式档案系统
Zoo Keeper
大数据治理体系与数据治理体系的联系与区别
2020
大数据平台数据治理和挖 掘解决方案
大数据治理框架
• 大数据治理框架由三大部分组成:大数据类型、大数据治理领域、行业与功能
传统的数据 治理领域同 样适用于大
数据
医疗保健业 情绪分 析
公共事业
患者监 测
智能仪表
产 零售业 业 和 电信业
功
Facebook 忠诚度计 划 客户流 失分析
RFI日志 位置服务
能 保险业 索赔调
场
查
车载 通信 技术
景 客户服
务
IT
IT日志 分析
索赔分析
客户流失 分析 索赔欺诈 分析
基因测试 人脸识别
承保
电子病历
通话质量 保证
业
务
流
数程
据整
元 数
隐 私
质 量
合
组据
织
大数据治理 需要高度聚 焦于数据本
身。
信 息 治 理
web和社交 机器对
大体量
生物计
人工生
媒体数据
机器的 数据
大数据必须变现
所谓变现,就是将数据等资产转化为现金的过程,变现的方式可以是将数据卖给第三方,也可以是利用数据开发新的服务。 在当下,公司意识到,必须将大数据视为具有财务价值的企业资产。例如,运营部门可以通过传感器数据,根据定期检修计划,提高设备正常运 行时间。呼叫中心可以分析客户代表的记录,通过了解顾客呼叫的原因,降低呼叫量。此外,零售商可以使用主数据激活Facebook的应用程序 ,提升顾客忠诚度。
大数据治理关乎政 策制定
政策包括人们在特定情形下如何作为的成文和非成文的宣告。譬如,大数据治理政策可能申明,未经顾客知情并同意,组织不得将顾客的 Facebook资料整合到其主数据记录中。
大数据必须优化
大数据隐私至关重 要
考虑一下组织是如何将现实世界的准则应用到大数据治理中的。公司设计了精致的企业资产管理计划,对机器、飞机、交通工具和其他资产进行 妥善管理。与对实物资产进行登记类似,组织必须对大数据进行如下优化: