当前位置:文档之家› 大数据学习PPT课件

大数据学习PPT课件

大数据学习
1
汇报内容
1 大数据能做什么? 2 如何处理大数据? 3 几点思考
2
一、大数据能做什么?
▪ 大数据应用体现在两大方面:实践与科研 ▪ “人类的理性是有限的,因此所有的决策都是基
于有限理性的结果。如果能利用存储在计算机里 的信息来辅助决策,人类理性的范围将会扩大, 决策的质量就能提高。”(西蒙-1947)
的、人们事先不知道的,但又是潜在有用信息 和知识的过程。
▪ 数据挖掘并不是一门崭新的学科,而是综合了
统计分析、机器学习、数据库等多方面成果的 应用学科。
13
14
▪ 常见的数据挖掘分为四大类:
15
▪ 在传统方式下的数据挖掘算法大多工作在单机
系统上,无法高效实现大数据的挖掘。
▪ 在大数据时代,分布式平台逐渐成为主流,如
是一种在中国的大型企业及政府机关中得到 广泛应用的数据挖掘工具。
17
▪ 开源的: ▪ R(统计学家最常用的软件):在R的开源社区,最先
进的统计方法和数据挖掘算法都能很快在R上找到相 关程序包,而且都是免费开源的。
▪ R语言接口多,通过程序包rpy2、rjava很好地和
python、java互相调用,进行混合编程。
管理。不使用SQL作为自己的查询语言。
▪ 新的NewSQL类型的数据库试图将NoSQL数据库的
特性与关系数据库的一致性融合起来。
▪ 现有数据库软件众多,不同的数据库适用不同的内
容,要根据数据的特征和用途来选择。
12
▪ 3、数据分析与挖掘
▪ 大数据价值密度低,需要对其进行数据挖掘。 ▪ 数据挖掘是指从大量的数据中提取隐含在其中
▪ 实践:利用大数据进行分析预测判断,辅助决策,
进行精准营销、生产、服务、干预等。
3
实践领域 ▪ 广告大师约翰·沃纳梅克曾说过,“我知道我的广
告费有一半是浪费的,但我不知道浪费的是哪一 半",这句至理名言堪称广告营销界的"哥德巴赫猜 想"。
4
实践领域
▪ 随着大数据技术的应用和营销精准化程度的
提高,浪费的广告费正在不断减少。
▪ R在数据可视化上的应用很有潜力,如程序包ggplot2。 ▪ 数据挖掘的包,CORElearn、e1071、tm、nnet、
RSNNS等。
▪ 在大数据处理上面,有Rhadoop,来连接R与Hadoop。
18
▪ Weka:它的全名是怀卡托智能分析环境
(Waikato Environment for Knowledge Analysis),是用Java语言开发的开源的数 据挖掘软件。
▪ 目前,像SPSS、SAS等传统数据分析软件因其
数据处理能力受限于单机的计算能力,对大数据 的处理显得力不从心。一些开源的大数据分析软 件受到越来越多的关注和青睐。
云系统处理大量的内部数据,这些数据就需要通 过互联网相对较小的带宽来传输。当然,也存在 数据安全问题。
11
▪ 2、数据存储与管理——NoSQL
▪ 存储大量结构化数据一般采用关系型数据库
(Mircrosoft SQL server、Oracle 和开源的MySQL 数据库等 )。
▪ 对于非结构化资料主要采用NoSQL数据库来存储和
▪ 完整的云计算涵盖云计算平台(如采用Hadoop技
术搭建的)和云计算服务模式(永远在线、随时 访问、按需获取)这两个概念。
10
▪ 租用云计算可以帮助我们避免搭建基础设施,让
我们集中精力分析专业数据,而非购买和维护我 们自己的硬件、雇用系统管理员,或顾虑备份或 电力等事情。
▪ 但网络带宽会影响到云计算的性能,为了能使用
何将经典的数据挖掘算法移植到分布式环境下 运行,成为了大数据挖掘必须解决的问题。
16
▪ 数据挖掘软件:商用和开源 ▪ 商用的包括: ▪ IBM的SPSS Modeler:2012年REX
Analytics分析公司做的调研表明SPSS Modeler是目前被使用频率最高的数据挖掘 工具。
▪ SAS Enterprise Miner:简称为SAS EM,
▪ (1)自建——Hadoop(海杜普) ▪ 单台计算机的处理能力是有限的,因此,为了能够处
理大数据,需要在计算机集群上搭建分布式计算平台。
▪ 目前最流行的开源分布式计算系统是Hadoop,
Hadoop是用Java写的软件,提供一个可靠的分布式 存储和分析的பைடு நூலகம்统,HDFS提供存储,MapReduce提 供分析,这两者是Hadoop的核心,内建于Hadoop软 件中。将数据处理任务拆分到大量的独立机器上执行。
5
科研领域 ▪ 科研:科学研究的第四范式——“数据密集型科学研
究”正兴起(《第四范式:数据密集型科学发现》)。 ▪ 以数据为中心来思考、设计和实施科学研究,科学发
现依赖于对海量数据的收集和分析处理。
▪ 数据密集型学科:天文信息学、生物信息学、计算社
会学、计算广告学等。
6
▪ 数据密集型科学研究范式的思路:从大量数据中
▪ Weka中集成了非常全面的数据挖掘算法,涵
盖了数据预处理、分类、回归、聚类、关联 分析等多种模型。缺点是对统计分析的支持 相对较弱。在R软件中,我们可以使用 Rweka程序包调用Weka中的所有算法。
19
▪ Mahout:Apache软件基金会开发的开源项目,
是目前少数能运行在Hadoop平台上的数据挖掘 工具,采用Java语言。但由于开发时间相对较短, 目前每个领域所实现的算法相对较少。由于基于 Hadoop平台实现,能够支持较大规模的数据处 理。
▪ 此外,还有HBase、Hive、Pig等,连同Hadoop本身
一起构成了一个丰富的生态系统。
▪ Spark是Hadoop的竞争者。
9
▪ (2)租用-云计算
▪ 云计算是基于网络平台为用户提供的数据存储和
分析计算服务。
▪ 存储与计算能力可以作为一种商品通过互联网进
行流通,就像煤气、水及电一样,使用方便、费 用低廉。
探寻一些“不知道自己不知道”的规则/规律/模 式进行理论上的解释或进一步验证。
▪ 大数据能做很多在小数据基础上无法做的研究工
作,如分析研究更复杂的系统(社会系统、生态 系统等),进行更深入的研究。
▪ 在大数据的推动下,“社会科学正脱下‘准科学
’的外衣,全面迈进科学的殿堂。”
7
二、如何处理大数据
8
1、平台建设——自建还是租用
相关主题