当前位置:文档之家› 第八章 大数据概论[18页]

第八章 大数据概论[18页]

据概述
8.1.1 大数据定义 巨量资料(BigData),或称大数据,指的是所涉及的资料量规模巨
大。由于数量太大,想要通过目前主流软件工具,在合理时间把这些数 据采集、管理、处理、整理成为帮助企业经营决策的资讯,是无法做到 的。大数据并没有明确的界限,它的标准是可变的。
根据挖掘任务,分为分类或预测模型发现,数据总结、聚类、关联规则发现, 序列模式 发现,依赖关系或依赖模型发现、异常和趋势发现等;
根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、 文本数据源、多媒体数据库、异质数据库、遗产数据库以及互联网Web。
根据挖掘方法,可粗分为机器学习方法、统计方法、神经网络方法和数据库方 法。
8.2 大数据处理系统概述
8.2.1.大数据处理系统的功能 1、可以存储海量数据。 2、可以进行高速处理,系统满足用户对响应速度的要求。 3、可以快速开发出并行服务。提供并行服务的开发框架。 4、可以运行在廉价机器搭建的集群上。
8.2.2 大数据系统的特性 1、实用性。 2、可靠性。减少单点故障及其对整个系统的影响。 3、安全性。不允许因节点故障而造成丢失,确保数据的完整性。 4、可扩展性。系统应允许集群内的节点增加和减少。 5、完整性。指系统功能的完整性。
8.1.2 大数据结构类型 结构化数据:预定义的数据类型、格式和结构的数据。 半结构化数据:具有可识别的模式并可以解析的文本数据文件。 准结构化数据:具有不规则数据格式的文本数据,使用工具可以
使之格式化。 非结构化数据:没有固定结构的数据,通常保存为不同类型的文
件。
8.1 大数据概述
8.1.3 大数据特征 1、数据量大
数据的数量急速增长。存储的数据包括环境数据、财务数据、医疗数据、 监控数据、商务数据等。数据量从(TB)级别、(PB)级别升级到(ZB)级别。 2、类型繁多
数据更加复杂。数据来源很多,包括网页、互联网日志文件(包括点考 流量数据)、音频、视频、图片、电子邮件、文档、地理位置信息、主动和 被动的传感器数据。包含关系型数据、半结构化和非结构化的数据。 3、价值密度低
8.2 大数据处理系统概述
价值密度的高低与数据总量的大小成反比。 4.速度快、时效高
速度快、时效高要求处理数据的效率应大幅提升。
8.1 大数据概述
8.1.4大数据处理技术:分为实时大数据处理和离线数据大数据处理
过程为:数据采集、预处理、存储及管理、分析及挖掘、展现和应 用。关键技术就是在处理大数据的各个阶段使用到的相关技术。
帮助把这些复杂的数据转化为单一的或者便于处理的结构和类型。 清洗:对数据通过过滤,“去噪”提取出有效数据。
3、大数据存储及管理技术:存储、表示、处理、可靠性及有效传输等 关键问题的技术
(1)新型数据库技术。非关系型数据库NoSQL数据库,分为键 值数据库、列存数据库、图存数据库以及文档数据库等类型。关系型数 据库包含了传统关系数据库系统和 NewSQL数据库。
(2)大数据安全技术。数据销毁、透明加解密、分布式访问控制、 数据审计、隐私保护和推理控制、数据真伪识别和取证、数据持有完整 性验证等技术。
8.1.4大数据处理技术
4、大数据分析及挖掘技术: 从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐 含
在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
基础支撑层:虚拟服务器,结构化、半结构化及非结构化数据的 数据库,物联网络资源等。分布式虚拟存储技术,大数据获取、存储、 组织、分析和决策操作的可视化接口技术,大数据的网络传输与压缩技 术,大数据隐私保护技术等。
8.1.4大数据处理技术
2、大数据预处理技术:已接收数据的辨析、抽取、清洗等。 抽取:获取的数据可能具有多种结构和类型,数据抽取过程可以
将隐藏于海量数据中的信息和知识挖掘出来,为社会经济活动提 供依据,提高各个领域的运行效率,提高整个社会经济的集约化程度。
应用于商业智能、政府决策、公共服务三大领域。例如,商业智 能技术,政府决策技术,电信数据信息处理与挖掘技术,电网数据信息 处理与挖掘技术,气象信息分析技术,环境监测技术,警务云应用系统 (道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度 等公安信息系统),大规模基因序列分析比对技术,Web信息挖掘技 术,多媒体数据并行化处理技术,影视制作渲染技术,其他各种行业的 云计算和海量数据处理应用技术等。
第八章 大数据概论
内容
8.1 大数据概述: 定义、数据结构类型、大数据特征、大数据处理技术
8.2 大数据处理系统概述: 功能、特性、云计算与大数据处理系统
8.3 大数据处理系统实例: Google大数据处理系统、 Hadoop
8.4 大数据应用: 原理、 精准广告投放、 精密医疗卫生体系、实现个性化教育 、
8.1.4大数据处理技术
根据数据挖掘目的分为: 可视化分析,让用户直观地感受到结果。 数据挖掘算法。 通过分割、集群、孤立点分析及其他各种算法让
人们精炼数据,挖掘价值。 预测性分析。根据图像化分析和数据挖掘的结果做出前瞻性判断。 语义引擎。从数据中主动地提取信息。包括机器翻译、情感分析、
舆情分析、智能输入、问答系统等。 数据质量和数据管理。透过标准化流程和机器对数据进行处理可
以确保获得一个预设质量的分析结果。 还包括改进已有数据挖掘和机器学习技术;开发数据网络挖掘、
特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、 相似性连接等大数据融合技术;用户兴趣分析、网络行为分析、情感语 义分析等面向领域的大数据挖掘技术。
8.1.4大数据处理技术
5、大数据展现与应用技术
8.1.4大数据处理技术
1、大数据采集技术 大数据智能感知层:海量数据的智能化识别、定位、跟踪、接入、
传输、信号转换、监控、初步处理和管理的技术。RFID射频数据采集 体系、社交网络交互数据采集体系、移动互联网数据采集体系,数据传 感体系、网络通信体系、传感适配体系、智能识别体系和这些体系的软 硬件资源接入系统。
相关主题