当前位置:文档之家› 机器学习与大数据技术第四章 大数据处理技术

机器学习与大数据技术第四章 大数据处理技术


第四章 4.1 大数据简介
4.1.2 大数据类型
创研选新究题与意背贡义景献
结构化数据
能够用统一的结构表示的数据称之为结构化数据,如数字、符号等, 可以用二维表结构表示。
第四章 4.1 大数据简介
创研选新究题与意背贡义景献
4.1.2 大数据类型
非结构化数据
相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化 数据。一个非结构化数据由基本属性、语义特征、底层特征以及原始数据四个部分构 成,且四部分数据之间存在各种联系。
第四章 4.1 大数据简介
4.1.1 简介 价值密度低(Value)
创研选新究题与意背贡义景献
价值密度低意味着数据的价值与数据总量的大小成反比关系,即数据 量虽然很大,但有价值的数据和知识可能较少。
以公安视频监控系统为例, 常年24小时不间断视频监控过程中,可 能有用的数据仅仅只有几分钟。如何通过强大的机器算法更迅速地挖掘 数据的价值,成为目前大数据背景下亟待解决的难题。
第四章 4.1 大数据简介
4.1.3 大数据应用
创研选新究题与意背贡义景献
物联网大数据应用
物联网不仅是数据的重要来源,还是大数据应用的主要市场。在物联网中, 现实世界中的每个物体都可以是数据的生产者和消费者,由于物体种类繁多, 物联网的应用也层出不穷。各种物流企业正在积极使用大数据技术开发新型 物联网系统。例如,快递公司为了跟踪公司车辆的位置和预防引擎故障,在 其货车上装有传感器、无线适配器和GPS系统,这些设备可以优化货车行车 线路。
第四章 4.1 大数据简介
创研选新究题与意背贡义景献
4.1.3 大数据应用
大数据应用是利用 物联网大数据应用
第四章 4.1 大数据简介
4.1.3 大数据应用
创研选新究题与意背贡义景献
企业大数据应用
目前,大数据主要应用于企业内部,商业智能是大数据技术的典型应用。 企业内部应用大数据技术,可以在多个方面提升企业的生产效率和竞争力。 在市场方面,利用大数据关联分析,可以更准确地了解消费者的使用行为, 挖掘新的商业模式;在销售规划方面,通过大量数据的比较,可以优化商品 价格;在运营方面,可以提高企业运营效率和满意度,优化劳动力投入,避 免产能过剩,降低人员成本;在供应链方面,利用大数据技术进行库存优化 和物流优化等工作,可以缓和供需之间的矛盾、控制预算开支。
计算机存储单位的换算关系如下: 1KB =1024B; 1MB=1024KB; 1GB=1024MB; 1TB=1024GB; 1PB=1024TB; 1EB=1024PB; 1ZB=1024EB; 1YB=1024ZB; 1BB=1024YB; 1NB=1024BB; 1DB=1024NB 通过上面的换算关系我们可以看出,全球产生的数据量是非常惊人的。但在实际应 用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量。分析、挖掘 和实时处理如此大规模的数据需要智能的算法、强大的数据处理平台和新的数据处理技 术的支持。
第四章 4.1 大数据简介
4.1.1 简介 多样性(Variety)
创研选新究题与意背贡义景献
大数据的数据类型繁多,非结构化数据越来越多,有很多不同的类型, 如:网络日志、声音、文本、地理位置信息、图像和视频等。这些多类型 的数据对数据的存储和处理能力提出了更高要求。目前,非结构化数据占 数据总增长量的80-90%,比结构化数据增长快10倍到50倍。
目前大数据的研究热点主要包括:大数据基础理论、大数据存储与 分析技术、大数据与云计算、大数据存储管理和查询技术、Hadoop 性能优化和功能增强、商业智能分析、自然语言处理和大数据可视化 计算等。
第四章 4.1 大数据简介
创研选新究题与意背贡义景献
4.1.1 简介
2. 特点
大数据的“大”并不仅仅在于数据量大,同时数据的收集、存储、 管理以及共享等任务赋予大数据的“大”更多的含义。学术界已经总 结了大数据的许多特点,包括数据量大、多样性、价值密度低、高速 度等,一般用4V来概括。
机器学习与大数据技术
作者:牟少敏教授
第四章 大数据处理技术
大数据简介 大数据技术 大数据处理框架 大数据面临的挑战
第四章 4.1 大数据简介
创研选新究题与意背贡义景献
4.1.1 简介
1. 概念
Wiki百科:大数据是指无法在一定时间内用常规软件工具对其内容 进行抓取、管理和处理的数据集合。
IDC(国际数据公司)报告:大数据技术描述了一种新一代技术和 构架,用于以很经济的方式、以高速的捕获、发现和分析技术,从各 种超大规模的数据中提取价值。
目前,非结构化数据的种类繁多,例如:新浪微博、Facebook等消息文本数据;优 酷、爱奇艺或腾讯视频等用户生成的视频数据;电话监控语音数据、基因组序列数据、 气象监测数据和交通视频监控数据等。针对不同的非结构数据,其收集方式是不一样 的。
半结构化数据
半结构化数据是介于结构化数据和非结构化数据之间的数据,例如HTML文档就属 于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。
数据量大(Volume) 多样性(Variety) 价值密度低(Value) 高速度(Velocity)
第四章 4.1 大数据简介
创研选新究题与意背贡义景献
4.1.1 简介
数据量大(Volume)
数据量大有两个含义:一是全球的数据量的增长惊人;二是指数据体量大,从TB级 别跃升到PB级别。根据IDC的统计,2011年全球数据总量大约为1.8ZB,到2020年将 可能达到35ZB,年均增长率超过40%。
第四章 4.1 大数据简介
4.1.1 简介 高速度(Velocity)
创研选新究题与意背贡义景献
这里的速度不仅指与数据存储相关的增长速率,也包括数据流动的速 度。数据产生和更新的频率高,也是大数据的一个重要特征。在数据量 非常庞大的情况下,需要对数据进行快速、实时的处理,处理速度应满 足实际应用的需要。
第四章 4.2 大数据技术
创研选新究题与意背贡义景献
相关主题