当前位置:
文档之家› 大数据导论PPT-第5章分析
大数据导论PPT-第5章分析
RapidMiner是德国多特蒙德工业大学 于2007年推出的世界领先的数据挖掘 工具,能够完成的数据挖掘任务涉及 范围广泛,并且能够简化数据挖掘过 程的设计和评价。 RapidMiner
*** 数据挖掘
第五章 大数据分析
Pentaho BI
Pentaho BI是一个以流程为核心的,面向 解决方案(Solution)而非工具组件的框 架,其目的在于将一系列企业级BI产品、 API、开源软件等组件加以集成,方便商 务智能应用的开发。Pentaho BI包括多个 工具软件和一个web server平台,支持分 析、报表、图表、数据挖掘和数据集成等 功能,允许商业分析人员或研发人员分析 模型,创建报表,商业规则和BI流程。
*** 数据挖掘
人工神经网络
人工神经网络是一种模拟大 脑神经突触联接结构来进行 信息处理的数学模型,具有 强大的自主学习能力和联想 存储功能并具有高度容错性 ,非常适合处理非线性数据 以及具有模糊性、不完整性 、冗余性特征的数据。
第五章 大数据分析
*** 数据挖掘
第五章 大数据分析
大数据挖掘工具
机器学习算法从数据中自动分析获得规律,并利用规律对未
机器学习
知数据进行预测。高性能的以机器学习算法为核心的数据分 析,为实际业务提供服务和指导,进而实现数据的最终变现。
可视化分析与信息绘图学和信息可视化相关。数据可视
可视化 分析
化的目标是以图形方式清晰有效地展示信息,从而便于 解释数据之间的特征和属性情况。
*** 数据挖掘
第五章 大数据分析
Apache Drill Apache Drill 在基于 SQL 的数据分析和商 业智能(BI)上引入了 JSON (JavaScript Object Notation, JS对象标记)文件模型, 使得用户能查询固定架构、演化架构以 及各种格式和数据存储中的模式( columnar -free)无关数据。
Storm
Storm是一个开源的、分布式的 具有高容错性的实时计算系统。 Storm能够十分可靠地处理庞大 的数据流,能够用来处理Hadoop 的批量数据。Storm应用领域广 泛,包括:在线机器学习、实时 分析、分布式RPC(远过程调 用)、持续计算、ETL等等。 Storm的处理速度非常迅速,每 个节点每秒可以处理上百万个数 据元组,Storm支持多种语言编 程,具有容错性高、可扩展、易 于设置和操作的特点。
第五章 大数据分析
数据来源
大数据的来源按照数据产生主体可划分为三层。最外层的 是巨量的各类机器产生的数据,次外层是人为产生的大量 数据。最内层主要是来自企业的数据。
巨量的各类机
1
器产生的数据
人为产生的大
2 量数据
3
企业的数据
***数据分析方法
数据分析活动步骤
数据获取及储存
1
数据信息抽取及无用信息的清洗
*** 数据挖掘
第五章 大数据分析
Mahout
Mahout的主要数据目标集是大规模数据,因此Mahout能够建立运行在 Apache Hadoop平台上的可伸缩的机器学习算法,这些算法通过 Mapreduce模式实现,但并不局限于Hadoop平台。
*** 数据挖掘
第五章 大数据分析
Spark MLlib
数据来源
数据作为第四次工业革命的战略资源,全球各国都在大力发展数据基础信息平台的建设, 用以改善数据的采集、存储、传输及管理的效率,从而提升信息服务水平。
数据分析 活动步骤
大数据分析包括五个阶段,1)数据获取及储存 2)数据信息抽取及无用信息的清洗 3) 数据整合及表示 4)数据模型的建立和结果分析 5)结果阐释
聚类
聚类分析是把一组数 据按照差异性和相似性 分为几个类别,使得属 于同一类的数据之间相 似性尽可能大,不同类 之间的相似性尽可能小 ,跨类的数据关联性尽 可能低。
*** 数据挖掘
第五章 大数据分析
回归分析
回归分析是确定两种或两种以上变
量相互之间依赖性关系的一种统计
分析方法,用以分析数据的内在规
律,常用于数值预报、系统控制等
陈述问题
数据收集
进行预处理
挖掘数据
解释模型得出结论
*** 数据挖掘
第五章 大数据分析
大数据挖掘
数据挖掘是创建数据挖掘模型的一组试探法和计算方法,通过对提供的数据进行分析,查找特定 类型的模式和趋势,最终形成创建模型。
分类
一种重要的数据分析形式,根据重要数据类的特征向量值及其他约束条件,构造分类函数或 分类模型,目的是根据数据集的特点把未知类别的样本映射到给定类别中。
大数据应用人才培养系列教材
第五章 大数据分析
5.1 数据分析概念和分类 5.2 数据分析方法 5.3 数据挖掘 5.4 上机与项目实训 习题
***数据分析方法
第五章 大数据分析
数据分析方 数据分析是指数据收集、处理并获取数据信息的过程。通过数据分析,人们可以从杂乱 法概述 无章的数据当中获取有用的信息,从而找出研究对象的内在规律。
面向流 程视角
面向流程视角的大数据分析方法主要关注大数据分析的步骤 和阶段。一般而言,大数据分析是一个多阶段的任务循环执 行过程。
面向信息技术视角的大数据分析方法强调大数据本身涉及到
面向信息 技术视角
的新型信息技术,从大数据的处理架构、大数据系统和大数 据计算模式等方面来探讨具体的大数据分析方法。
***数据分析方法
Apriori算法
FP-Growth算法
大数据挖掘工具
Hadoop
如此复杂和庞大的数据集面前,传统的数据挖掘分析工具已经不能胜任大数据的挖掘分析。 针对大数据庞大的规模以及复杂的结构,目前业界已开发了众多的大数据挖掘分析工具。
Mahout
Spark MLlib
Storm
Apache Drill RapidMiner
大数据应用人才培养系列教材
大数据导论
刘 鹏 张 燕 总主编 付 雯 主编
陈 甫 李法平 副主编
大数据应用人才培养系列教材
第五章 大数据分析
5.1 数据分析概念和分类 5.2 数据分析方法 5.3 数据挖掘 5.4 上机与项目实训 习题
*** 数据分析概念和分类
数据分析概念和分类
数据分析是指收集、处理数据并获 取数据隐含信息的过程。大数据具 有数据量大、数据结构复杂、数据 产生速度快、数据价值密度低等特 点,这些特点增加了对大数据进行 有效分析的难度,大数据分析(Big Data Analytics, BDA)成为当前探索大 数据发展的核心内容。 数据分析主要作用包括: ● 推测或解释数据并确定如何使用 数据; ● 检查数据是否合法; ● 给决策制定合理建议; ● 诊断或推断错误原因; ● 预测未来将要发生的事情。
第五章 大数据分析
数据分析的类型
根据数据分析深度,可将数据分 析分为三个层次:描述性分析 (descriptive analysis),预测性 (predictive analysis)分析和规则 性分析(prescriptive analysis)。 在统计学的领域当中,数据分析 可划分为描述性统计分析、探索 性数据分析及验证性数据分析三 种类型。 在人类探索自然的过程中,通常 将数据分析方法分为定性数据分 析和定量数据分析两大类。 按照数据分析的实时性,一般将 数据分析分为实时数据分析和离 线数据分析。
4 大必 要的活 动步骤
第五章 大数据分析
(2)采集数据
数据采集就是运用合适的方法来有效收 集尽可能多的相关数据,从而为数据分 析过程的顺利进行打下基础。常用的数 据采集方法包括:系统日志采集方法, 这是目前广泛使用的一种数据采集方法。
(4)数据挖掘
数据挖掘的目的是在现有数据基础之上利 用各类有效的算法挖掘出数据中隐含的有 机质信息,从而达到分析推理和预测的效 果,实现预定的高层次数据分析需求。
MLlib是构建在Apache Spark上的 一个可扩展的分布式机器学习库, 充分利用了 Spark 的内存计算和 适合迭代型计算的优势,将性能 大幅度提升。MLlib支持的分类算 法主要有:朴素贝叶斯、逻辑回 归、决策树和支持向量机.MLlib 支持的回归算法主要有:Lasso、 线性回归、决策树和岭回归。聚 类算法属于非监督式学习,MLlib 目前支持广泛使用的Kmeans算法。 MLlib也支持基于模型的协同过滤, 其中用户和商品通过一小组隐语 义因子进行表达,并且这些因子 也用于预测缺失元素。
Hadoop是一种能够对大数据进行并行分布式处理的计算框架, 以一种可靠、可伸缩、高效的方式对海量数据经突触联接结构来进行
信息处理的数学模型,具有
强大的自主学习能力和联想
存储功能并具有高度容错性
,非常适合处理非线性数据
以及具有模糊性、不完整性 Hadoop实现了一个分、布冗式余文性件特系征统的(数H据ad。oop Distributed File System), 简称HDFS。HDFS具有高容错性的特点,并且设计用来部署在低廉硬件 上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大 数据集(large data set)的应用程序。
***数据分析方法
第五章 大数据分析
分析数据
统计分析基于统计理论,属于应用数学的一个分支。在 统计理论中,随机性和不确定性由概率理论建模。统计 统计分析 分析技术可以分为描述性统计和推断性统计。
数据挖掘可以认为是发现大数据集中数据模式的一种计算过 程。许多数据挖掘算法已经在机器学习、人工智能、模式识 数据挖掘 别、统计和数据库领域得到了应用。
问题。
关联分析最主要的目的就是找出
隐藏在数据之间的相互关系和关
联性,即可以根据一个数据项的
出现推导出其他相关数据项的出
现。 关联分析