当前位置:文档之家› 大数据概述及其数据分析案例

大数据概述及其数据分析案例


模型建立
根据分析目标和数据形式,选用合适的机器学习算法,建立分类与预测、聚类 分析、关联规则、偏差检测等模型等等。
模型评价
模型分类与预测的评价方法有:绝对误差、均方误差、混淆矩阵等等。
机器学习—监督学习
机器学习—分类算法
机器学习—回归算法
机器学习—聚类算法
机器学习—关联分析算法
深度学习
深度学习模型的“深”意味着神经网络的结构深,由至少3层组成,深度模型一层的 输出作为下一层的输入。通过这种方式,可以实现对输入信息进行分级表达。深度学习与 传统模式识别方法的最大不同在于它所采用的特征是从大数据中自动学习得到,而非采用 手工设计。
模型建立
模型评价
应用展示
探索性分析
数据质量分析:数据质量分析的主要任务是检查原始数据中是否存在脏数据。
数据特征分析:对数据进行质量分析以后,可以通过绘制图表、计算某些特 征量等进行数据的特征分析。
数据预处理
数据清洗:删除原始数据集中的无关数据、重复数据,噪声数据平滑、处理 缺失值、异常值等。
数据变换:对数据进行规范化处理,数据归一、连续属性离散化、属性构造。 数据规约:数据规约后产生更小但保持原数据完整性的新数据集,提高建模 效率和准确性。
然 Kafka 可 用 于 很 多 流 处理系统,但按照设
计,Samza可以更好地 发 挥 Kafka 独 特 的 架 构 优势和保障。
Flink是一种可以 处理批处理任务的 流处理框架。该技 术可将批处理数据 视作具备有限边界 的数据流,借此将 批处理任务作为流 处理的子集加以处 理。为所有处理任 务采取流处理为先 的方法会产生一系 列有趣的副作用。
深度学习简单介绍
大数据可视化展示
数据可视化意义
数据可视化是指将数据以视觉形式来呈现,如图表或地图, 以帮助人们了解这些数据的意义。
文本形式的数据很混乱(更别提有多空洞了),而可视化的数 据可以帮助人们快速、轻松地提取数据中的含义。用可视化方 式,您可以充分展示数据的模式,趋势和相关性,而这些可能 会在其他呈现方式难以被发现。
4V特征
大容量-Volumn 多样性-Variety 快速性-Velocity 真实性-Veracity
数据规模大,而且大规模增长 数据来源渠道广泛,类型复杂多变 不仅是采集速度快,而且要求处理速度快 数据的准确度和数据价值密度是否高
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这 些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一 种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能 力”,通过“加工”实现数据的“增值”。
Hadoop
Hadoop生态
Hadoop 程序运行原理
Spark
Spark整体架构
Spark提供了多种高级工具:Spark SQL应用于即时查询、Spark Streaming应用于流 式计算、Mllib应用于机器学习、GraphX应用于图处理。
Spark可以基于自带的standalone集群管理器独立运行,也可以部署在Apach Mesos 和Hadoop YARN等集群管理器上运行。
能不能找到一种方法可帮助公司从这些数据中洞察商 机,提取价值?
分析挖掘过程
感谢各位聆听
谢谢!!
TensorFlowOnSpark 为 Apache Hadoop 和 Apache Spark 集群带来可扩展的深度学习。 通过结合深度学习框架 TensorFlow 和大数据框架 Apache Spark 、Apache Hadoop 的显著特 征,TensorFlowOnSpark 能够在GPU和CPU服务器集群上实现分布式深度学习。
目前,已经涌现出很多相对成熟的深度学习框架,如Caffe,CNTK,DeepLearning4j, Keras,MXNet和TensorFlow等等。
DeepLearning4j是一个面向生产环境和商业应用的高成熟度深度学习框架,可与 Hadoop和Spark集成,即插即用。 TensorFlow框架本身并不是分布式的,但可以通过Spark实现分布式。
大数据分析与挖掘
SA S
Sps s
Exce l
Pyth on Matla b R
数据分析工具介绍
SAS (Statistical Analysis System)是一个模块化、集成化的大型应用软件系统。
SAS由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报 告编制、运筹学方法、计量经济学与预测等等。SAS已被广泛应用于政府,科研,教育和金融等不同领域。
Mapreduce MapReduce是一种计算模型,用以进行大数据量的 计算。其中Map对数据集上的独立元素进行指定的操作, 生成键-值对形式中间结果。Reduce则对中间结果中相同 “键”的所有“值”进行规约,以得到最终结果。
Hbase
HBase是一个针对结构化数据的面向列的数据库。 提供了对大规模数据的随机、实时读写访问。HBase 中保存的数据可以使用MapReduce来处理,它将数 据存储和并行计算完美地结合在一起。
大数据可视化形式
传统的表现形式,如:柱状图、折线图、饼 图、散点图、箱线图等等。
现代表现手法也有多种形式:矩形树图、漏斗 图、平行坐标系图、矩形相关图等等。
数据可视化图例
数据可视化图例
数据可视化图例
大数据应用案例
场景描述
某餐饮公司的困惑?
通过前期信息化的建设( 客户关系管理系统、前厅管 理系统、后厨管理系统、财务管理系统、物资管理系统), 此餐饮公司已经积累了大量的历史数据。
HDFS—(Hadoop Distributed File System)
分布式文件系统是Hadoop最核心的部件,主管数 据存储。它是一个高度容错的系统,能检测和应对硬件 故障,用于在低成本的通用硬件上运行。HDFS简化了文 件的一致性模型,通过流式数据访问,提供高吞吐量应 用程序数据访问功能,适合带有大型数据集的应用程序。
大数据的重点不在于“大”,而在于数据本身。
几大领域间的图谱关系
大数据 (Big Data)
机器学习 (ML)
深度学习 (DL)
人工智能 (AI)
大数据处理框架
大数据主流处理框架
Hadoop是一种专 用于批处理的大数
据 框 架 。 Hadoop 包 含多个组件: HDFS、 YARN 、 MapReduce 。 通过配合使用可处
大数据指的是所涉及的数据规模大到无法通过人脑甚至主流软 件工具,在合理时间内达到采集、存储、分析、并整理成为帮助企 业更好地经营决策的资讯。
研究机构Gartner给出了这样的定义。“大数据”是需要新处理 模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海 量、高增长率和多样化的信息资产。
大数据特点
SPSS(Statistical Product and Service Solutions)“统计产品与服务解决方案”软件。SPSS for Windows是 一个组合式软件包,它集数据录入、整理、分析功能于一身。它和SAS、BMDP并称为国际上最有影响的 三大统计软件。
Excel 是微软办公套装软件的一个重要的组成部分,它可以进行各种数据的处理、统计分析和辅助决策操 作,广泛地应用于管理、统计财经、金融等众多领域。
大数据概论
目录
1. 大数据总述 2. 大数据处理框架 3. 大数据分析、挖掘 4. 大数据可视化展示 5. 大数据应用案例
大数据总述
大数据概念
“大数据”这一概念的提出。。。。。。 全球知名咨询公司麦肯锡——《大数据:下一个创新、竞争和 生产率前沿》提出:数据已经渗透到当今每一个行业和业务领域, 成为重要的生产因素。麦肯锡应该是比较早进行研究和应用大数据 的公司,但并不是首次提出这个概念的。 DT
理 批 数 据 。 Hadoop 的处理功能来自
MapReduce引擎。
Storm 是 一 种 流 式 处理框架,常用于实时 分析、机器学习、持续 计算、分布式远程调用 和ETL等领域。Storm的 部署管理简单,在同类 的流式计算工具, Storm 的 性 能 也 是 出 众 。
Spark是包含流处理 能力的批处理框架,可
Spark Rdd
RDD-Resilient Distributed Datasets(弹性分布式数据集),意为容错的、并 行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据 的分区。同时,RDD还提供了一组丰富的操作来操作这些数据。
RDD是在集群节点上的不可变的、已分区的集合对象。可以通过并行转换 的方式来创建如(map, filter 等等),它必须是可序列化的。
R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;完整连贯的统计 分析工具;优秀的统计作图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循 环,用户可自定义功能。
数据分析方法
数据分析步骤 数据分析方法
确定 分析目标
数据 收集取样
数据清洗 探索性分析
特征抽取
Spark可以访问存储在HDFS、Hbase、本地文件系统等上的数据,支持文本文件以 及任何Hadoop的InputFormat。
Spark 特点
Spark基于内存的计

算比Hadoop的MR快近 100倍。
基于硬盘的计算比
效 性
MR快10倍。
Spark可以提供full-stack 的解决方案:Spark的内存计 算、基于Spark SQL的交互式 查询、基于Spark streaming 的流式计算、基于Mllib的机 器学习。
作为独立集群,或可与
Hadoop 集 成 并 取 代 MapReduce 引 擎 。 与 MapReduce 不 同 , Spark 的 数 据 处 理 工
相关主题