企业级大数据平台实践第1课炼数成金逆向收费式网络课程⏹Dataguru(炼数成金)是专业数据分析网站,提供教育,媒体,内容,社区,出版,数据分析业务等服务。
我们的课程采用新兴的互联网教育形式,独创地发展了逆向收费式网络培训课程模式。
既继承传统教育重学习氛围,重竞争压力的特点,同时又发挥互联网的威力打破时空限制,把天南地北志同道合的朋友组织在一起交流学习,使到原先孤立的学习个体组合成有组织的探索力量。
并且把原先动辄成千上万的学习成本,直线下降至百元范围,造福大众。
我们的目标是:低成本传播高价值知识,构架中国第一的网上知识流转阵地。
⏹关于逆向收费式网络的详情,请看我们的培训网站 课程介绍⏹课程内容–本课程从平台管理、数据访问、数据可视化、数据安全等企业级数据平台视角全面审视大数据平台–以IBM商用大数据产品BigInsights为基础深入剖析商用大数据平台的企业级特性和应用实践⏹课程提纲–第1课企业级大数据平台需求概览; BigInsights发展史与功能介绍–第2课企业级大数据分析平台架构专题:什么样的需求决定什么样的平台架构;BigInsights集群搭建–第3课如何构建安全的企业级大数据平台–第4课数据探索数据可视化专题:BigSheet–第5课成熟稳定的数据访问接口:BigSQL–第6课分布式机器学习算法库和运算框架:BigR–第7课解析自然语义的文本分析组件:Text Analytics–第8课企业级大数据平台数据治理专题–第9课企业级大数据平台的平台管理:多租户与扩展文件系统–第10课企业级大数据平台设计实例: 可解析自然语义的企业级舆情分析系统注意事项第一课企业级大数据平台提纲⏹企业级大数据平台需求概览–企业视角中的大数据–重点需求介绍⏹IBM企业级大数据平台介绍–发展历史–BigInsights介绍什么是大数据?什么是Hadoop?多种开源子项目组成的一系列新技术集合。
企业视角中的大数据平台传统数据仓库大数据基础平台集成的混合管理和访问平台集成的大数据基础平台应用层市场发展分析 省级业务分析网络质量分析 渠道分析行业应用分析 客户体验分析手机应用分析社交网络分析情感分析互联网业务分析客户偏好分析 智能终端分析 CRM BOSSVGOP OSS DPI 探针ERPCDRs SGSN/GGSN互联网 WAP 网关BSC /RNC …大数据交互平台实时数据流加载和分析平台批量数据加载工具 并行批量数据加载平台集成的数据加载和预处理平台WLAN 日志网络日志 留存系统既有系统数据安全管理平台企业对大数据平台的定位1.对既有系统的补充−补充而非替换 −集成:互联互通 −功能扩展2.各种新技术的应用−分布式文件系统 −分布式计算 −NOSQL 数据库 −…3.拓展新应用领域−客户形象刻画 −舆情分析系统 −趋势分析 −……企业大数据分析平台的数据流向大数据平台功能•大数据存储 •实时分析•大数据仓库&大数据集市 •数据分析海量数据源高级数据分析 全新应用领域认知运算 自主学习规范化流程质量控制预测将要发生什么?统计分析 统计结果数据导航数据资产 流数据文本数据 应用日志 时间序列地理位置信息 结构化数据社交网络数据视频、图像自动化生产流程智能事件管理 高级分析应用商业智能云服务服务提供商应用实时预警 企业级大数据平台企业级大数据平台架构举例企业级大数据平台需要什么?大数据基础平台的开放性,任何第三方的ISV 都能基于标准Apache 标准API 进行应用开发和移植,保证应用的灵活性,避免长期的规划和建设被应用开发绑定基础平台的性能,高可靠性,提高运行的效率,减少运维的成本和日常维护工作。
满足大数据时代的大数据量对于基础设施的性能的挑战基础平台与现有设施的集成融合性,开发的便利性。
充分利用现有的投资,防止重复建设和降低成本。
提供完整的标准的开发环境,方便ISV 的开发基础平台的企业级高可用,安全性,保证数据的安全与合规,防止隐私数据的泄漏,进行有效的审计追溯企业级大数据平台企业级大数据平台的经营是一个规划中全新、但是实践需要一步一步稳步推进的长期的过程,总体方针为眼光长远,脚踏实地。
需要考虑的包括以下重要事项:Hadoop 可以满足多数企业目前的需求•可靠性 •高弹性 •安全性•可包容各种数据源•可承载多种类型的应用•多用户共享资源平台•批量数据处理•在线历史数据查询•实时流数据处理高扩展非功能需求支撑多负载Hadoop 也可以满足企业对未来的期待•非内存计算框架 •应用需要多次往磁盘写数据,IO 操作非常频繁高性能内存计算部署的便捷性多工作负载•支持多种开发语言,包括Python, Scala, Java 等 •更多功能丰富的API(包括数据处理、机器学习、图计算等)•高性能分布式内存计算框架 •管道操作、执行路径优化等多种方式优化性能•支持多种类型的工作负载,包括:批作业、交互作业、迭代算法、流数据处理等•需强大的JAVA 开发支持•缺少数据分析可以直接使用的接口和功能•仅仅适用于批量作业 •工作模式比较单一Map ReduceSpark小结⏹企业客户看待大数据:–不仅仅是一些列新技术的集合,也包括如何与现有系统的应用与融合技术–Hadoop技术的应用带来新应用领域的拓展,数据可以产生新的价值⏹企业客户对大数据的需求:–不仅仅是功能性需求,也强调可靠性、安全性等非功能性需求第一课企业级大数据平台提纲⏹企业级大数据平台需求概览–企业视角中的大数据–重点需求介绍⏹IBM企业级大数据平台介绍–发展历史–BigInsights介绍操作型数据数据仓库部门级的数据分析全新的数据分析任务高数据辅助决策阶段•全量数据分析 •非关系型数据处理 •360度企业数据 •数据探索和发现数据仓库阶段•数据湖泊 •数据卸载 •ETL 工作流•历史数据归档和查询信息化初级阶段•数据处理成本低商业智能阶段•创建新的商业模式 •预知业务风险•实时产品质量控制 •提升操作分析效率 •获客、客户挽留,精准营销等价值不同信息化阶段中数据分析的价值曲线图BigInsights 演进史Google 发布MapReduce 论文Apache 创立MapReduce & HDFS 项目发布CHD3发布BigInsightsHadoop 起源于互联网,最初用于处理海量互联网数据。
2004年 2006年 2010年 2011年 …发布BigInsights V42015年商业化大数据产品必将推动Hadoop 在企业中广泛应用!IBM 在推进Hadoop 商业化的努力之一:ODPOpen Data Platform 的目标通过向目标受众提供一个定义明确的核心平台来加速 Big Data 解决方案的交付。
为兼容版的精选 Big Data 开源项目定义、整合一个标准的“ODP 核心”,并进行测试和认证。
提供一个稳定基准,让 Big Data 解决方案提供商能够对照基准证明解决方案合格。
制作一套工具和方法,使成员可以基于 ODP 核心来创造和测试差异化的产品。
强化 Apache Software Foundation (ASF) 在发展和监管上游项目中的作用。
按照 ASF 流程和知识产权方针,推进 ASF 项目发展。
支持社区发展和延伸活动,以便加快推出利用 ApacheHadoop ® 的现代数据架构。
有助于将产业内存在的工作分散和重复的现象减至最少。
Open Data Platform Initiative (ODP) 是整个行业共同进行的一项行动,侧重推广和发展面向企业的 Apache Hadoop ® 和 Big Data 技术。
ODP : Open Data Platform InitiativeODP联盟的创始成员ODP 内容介绍IBM 参与理由?⏹基于其对开源和发展共有核心的承诺 ⏹确保与时俱进⏹解决不同厂商提供的解决方案间的应用程序兼容问题Open Data Platform (ODP) 与 Apache Software Foundation (ASF)⏹ODP 支持实现 ASF 使命⏹ASF 提供开源软件开发的监管模式⏹ODP 旨在为 Apache 组件提供由厂商主导的统一封装模式标准的 Apache Hadoop 开源组件HDFSYARN MapReduceAmbari HBase SparkFlume HivePigSqoop HCatalogSolr/LuceneIBM 大数据分析平台功能集合IBM 大数据分析平台功能集合基于IBM ODP (IOP)的内核数据仓库能力PureData for Analytics, Operational Analytics平台集成和管理 数据安全及合规 Optim, Guardium数据集成和数据治理 Information Server 企业级搜索引擎 Watson Explorer 数据实时分析 Streams 数据统计和预测建模分析 SPSS, Big R 及机器学习算法包 数据可视化、数据分析Watson Analytics, Cognos, BigSheets基于ANSI SQL 2011标准的数据访问引擎Big SQL企业级文件系统 GPFS-FPO 资源管理和工作负载管理多负载多租户文本分析能力 海量文本数据处理BigInsights功能要点–可视化与探索BigSheetBigSheet可视化与探索•基于web的可视化与探索工具•支持直接访问BigInsights中的各类数据•通过内置文本分析功能自动由非结构化数据中抽取关键数据•支持对数据进行过滤、关联、汇总、公式计算等统计分析处理•支持对不同数据源的数据进行关联•统计分析结果可以通过表格、图形等方式进行可视化•支持将分析路径以工作流方式展示•支持将分析结果固化下来,形成长期运行的作业BigInsights 功能要点 –SQL 标准访问引擎BigSQLBigSQL 功能特点:•基于SQL2011标准的数据访问接口,支持子查询、汇聚(aggregates)等•支持通过SQL 直接访问BigInsights 中的各类数据:HDFS 、HBASE 、HIVE 等 •内置JDBC/ODBC 驱动•完美的集成方案,充分利用原有技术的优势 (Hive 分区;HBase RowKey ,secondary 索引等) •利用M/R 的并行性,或保证数据访问低延迟性基于SQL 的应用Big SQL 引擎数据存储BigSQL 客户端SQL MPP 运行环境HDFSBigInsightsBigInsights 功能要点 –建模分析工具BigR在 Hadoop 上使用人们熟悉的 R 语言–运行本机 R 功能–现有 R 资产(密码和 CRAN )在 Hadoop 上运行 R 之外的可扩展机器学习算法–一大类算法,且在不断发展–对新算法和自定义的当前算法适用的 R 类句法利用 Hadoop 的规模效应,快速得出见解–只有 IBM 可以使用整个集群的内存 –只有 IBM 可以溢出到磁盘–只有 IBM 可以并行运行上千个模型123BigInsights 特有功能IBM 研究实验室历经 5 年时间的研发成果BigInsights文本分析流程区别于简单的文本搜索引擎,如Solr!BigInsights功能要点–文本分析工具TextAnalyser使用基于网络的工具,为从非结构化文本中提取数据并获取信息这一过程定义规则通过图形界面描述各种文本格式结构,包括日志文件数据和自然语言等BigInsights 可满足企业客户对Hadoop 的应用需求Application(Map-Reduce, Lucene, TextAnalyser)Storage(HBase, HDFS, GPFS)Query Methods (Jaql, Pig, Hive) BigSheets InfoSphere BigInsightsHivevia JDBC标准基于Hadoop 应用Text Analytics REST APIExplore & AnalyzeReport & Act基于IBM 平台 的Hadoop 应用Hadoop APIBigSQLvia JDBC100% Apache Hadoop 应用APIIBM 平台特色应用管理监控 性能增强安全增强通用 x86 PC server 集群FAQ 时间。