大数据技术特点
源。
Variety 多样性
•企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互 信息,位置信息等是大数据的主要来源.
•能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义 分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得 应用.
• 1s 是临界点.
Velocity 速度
• 对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无 效的.
• 实时处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之 一.
Volume 数据量
PB是大数据层次的临界点. KB->MB->GB->TB->PB->EB->ZB->YB->NB->DB
文本处理技术;自然 语言理解; 多媒体处
理技术… Streaming
Data 交互式可视化探
索分析技术 大规模机器学习
技术
数据隐私防范保 护措施与数据安
全技术 数据存储备份技术、 数据放置和调度技术、
数据溯源
技术描 针对述大量数据进行分布
式处理的系统框架
文本内容分词与分析; 图像、音视频分析
流计算引擎
Hadoop:大数据分析的利器
▪ Apache Hadoop 是一个用java语言实现的软件框架, 在由大量计算机组成的集群中运行海量数据的分布式计 算,它可以让应用程序支持上千个节点和PB级别的数据。 ▪ 设计理念:可靠、高效、扩展 可靠:假设计算元素和存储会失败,因此它维护多个 工作数据副本,确保能够针对失败的节点重新分布处理。 高效:因为它以并行的方式工作,通过并行处理加快 处 理速度。 扩展:容易扩展,能够处理 PB 级数据。
释。 也有的说法是,知识发现是数据挖掘的别名。
数据挖掘的描述有很多,个人倾向于这个版本:一般是 指从大量的数据中通过算法搜索隐藏于其中信息的过程。
数据挖掘通常与计算机科学有关,并通过统计、在线分 析处理、情报检索、机器学习、专家系统(依靠过去的
经验法则)和模式识别等诸多方法来实现上述目标。
机器学习(Machine Learning, ML)专门研究计算机怎样 模拟或实现人类的学习行为,以获取新的知识或技能, 重新组织已有的知识结构使之不断改善自身的性能。是 人工智能的核心。已逐渐成为智能数据分析技术的创新
Hadoop核心
Hive
HBase
Hadoop
ZooKeeper
Hadoop
Hadoop的核心子项目,提供了一个分布式文 件系统(HDFS)和支持MapReduce的分布式计 算。
HBase
建立在Hadoop内核之上,提供可靠的,可扩 展的分布式数据库。
ZooKeeper
一个分布式的、高可用的协调服务。Zookeep er提供分布式锁之类的基本服务用于构建分布 式应用。
大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商
务智能(咨询、报告等)
实时分析而非批量式分析
数据输入、处理与丢弃 立竿见影而非事后见效
Value 价值
• 挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息. • 价值密度低,是大数据的一个典型特征.
大数据的4V特性
体量Volume 多样性Variety 价值密度Value 速度Velocity
非结构化数据的超大规模和增长
总数据量的80~90% 比结构化数据增长快10倍到50倍
是传统数据仓库的10倍到50倍
大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据)
无模式或者模理HDFS中存储的数 据,并提供基于SQL的查询语言用以查询数据。
大数据涉及的关键技术
需求
大 数
海量数据分布式处理
据
采
非结构化数据处理
集
处
理
实时数据处理
大
数
可视化交互界面
据
分
智能数据分析
析
存储、 组织、 管理
数据隐私保护 高效存储和管理大规
模数据
关键技术
Hadoop 生态系统
通过交互式可视化界面 辅助用户进行分析
计算机模拟人类学习行 为,包括特征提取、图
形生成等 保护隐私数据与信息个 体的对应关系等安全技
术 存储、放置、调度大规
模的数据
知识发现、数据挖掘、机器学习
从各种媒体表示的信息中,根据不同的需求获得 知识。知识发现过程由以下三个阶段组成:(1) 数据准备,(2)数据挖掘,(3)结果表达和解