大数据技术基础
2.1.6 R语言 R是一套完整的数据处理、计算和制图软件系统。 功能
数据存储和处理系统 完整连贯的统计分析工具 简便而强大的编程语言
数组运算工具(其向量、矩阵运算方面功 能尤其强大)
优秀的统计制图功能
可操纵数据的输入和输出,可实现分支、 循环,用户可自定义功能
2.云计算
2.2.1 云计算的特点
《大 数 据 分 析 及 应 用 实 践》 第二章:大数据技术基础
目录
CONTENT S
2.1基础架构支持 2.2云计算 2.3数据采集 2.4数据存储
1.基础架构支持
2.1.1 Hadoop
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层 细节透明的分布式基础架构
基础设施层 基础设施即服务(IaaS)
云计算的服务模式和类型
云计算的特点: 1.可扩展性:实现动态的,可伸缩的扩展 2.按需提供资源服务:按需求提供资源,按 使用量付费 3.虚拟化:基于虚拟化技术快速部署资源或 获得服务 4.超大规模:通过互联网提供、面向海量信 息处理
2.2.2 云计算与大数据 云计算为大数据提供了技术基础,大数据为云计算提供了用武之地
Pig 简介
Pig是一个基于Hadoop的大规模数据分析平台,Pig包含 两个部分:Pig Interface,Pig Latin。
它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把 类SQL的数据分析请求转换为一系列经过优化处理的 MapReduce运算。
Pig为复杂的海量数据并行计算提供了一个简单的操作和 编程接口。
2.3.1 数据采集的意义
数据采集:其实就是大数据抽取、转换和加载的过程
数据采集的工具:摄像头、麦克风等都是数据采集的工具。
数据采集的意义:足够的数据量是企业大数据战略建设的基础,数据采集成为大数据分析的前奏。数 据采集是大数据价值挖掘中重要的一环,它是计算机与外部物理世界连接的桥梁。
HBase是运行在Hadoop上的NoSQL数据库 ,它是一个分布式的、可扩展的大数据仓 库,是一个构建在HDFS上的分布式列存 储系统;
从逻辑上讲,HBase将数据按照表、行和 列进行存储。
与hadoop一样,Hbase目标主要依靠横向 扩展,通过不断增加廉价的商用服务器, 来增加计算和存储能力。
数据采集的方法: 基于物联网的采集方法
系统日志采集方 法
网络数据采集方法
其他数据采集方法
2.3.2 数据采集的方法
1.基于物联网的采集方法
ቤተ መጻሕፍቲ ባይዱ
数据的采集有基于物联网传感器的采集,也有基于网络信息的数据采集。基于物联网的采集,例如在智
能交通中,数据的采集有:基于GPS的定位信息采集、基于交通摄像头的视频采集、基于交通卡口的图
3.数据采集
2.3 数据采集
数据采集:其实就是大数据抽取、转换和加载的过程 数据采集的工具:摄像头、麦克风等都是数据采集的工具。 数据采集的意义:足够的数据量是企业大数据战略建设的基础,数据采集成为大数据分析的前奏。数
据采集是大数据价值挖掘中重要的一环,它是计算机与外部物理世界连接的桥梁。 数据采集的方法:
云计算是一种计算模型,它将计算任务分布在大量计算机构成的资源池上,使用户能够按照自己的需要获取 计算、存储和信息服务。云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备 网络接入条件的地方,就可以随时随地获得所需的各种IT资源
公有云
混合云
私有云
应用层 软件即服务(SaaS)
平台层 平台即服务(PaaS)
HBase表特点:a.大 b.无模式 c.面向列 d.稀疏 e.数据多 版本 f.数据类型单一
2.1.3 MapReduce
MapReduce是一种编程模型,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上, 并以一种可靠容错的方式并行处理上T级别的数据集。
Map—映射
Reduce——归纳
像采集、基于路口的线圈信号采集等。
基于GPS的定位信
息采集
基于GPS的定位信息采集
MapReduce就是“任务的分解与结果的汇总”
MapReduce处理流程
2.1.4 Hive •Hive是建立在 Hadoop 上的数据仓库基础构架,可以将结构化的数据文件映射为一张数据库表,并 提供类SQL查询功能。 •本质是将SQL转换为MapReduce程序
Hive与Hadoop关系
2.1.5 Pig
商业模式驱动
应用需求驱动
• 云计算的模式是业务模式,本质是数据处理技术。 • 数据是资产,云为数据资产提供存储、访问和计算。 • 当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用,但是缺乏盘活数据资产的能力
,挖掘价值性信息和预测性分析,为国家、企业、个人提供决策和服务,是大数据核心议题,也是云
Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算 机集群中
Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能
Hadoop技术架构图
2.1.1 Hadoop
项目架构
1:日志采集; 2:传输日志; 3:将日志写入HDFS; 4:从HDFS中将日志装载入数据仓库中 ; 5:对装载的数据进行分析; 6:调用Hadoop集群的M/R执行并行计算 ,并返回结果; 7:将结果中有价值的数据写入HBASE数 据库;
2.1.2 HBase
力 几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,
2.1.1 Hadoop Hadoop技术架构 •经过多年的发展,Hadoop项目不断完善和成熟,目前已经包含多个子项目(如下图2-2所示) •除了核心的HDFS和MapReduce以外,Hadoop项目还包括Common、Avro、Zookeeper、HBase、Hive 、Chukwa、Pig等子项目,它们提供了互补性服务或在核心层上提供了更高层的服务