当前位置:文档之家› 大数据及其特点(1)

大数据及其特点(1)

大数据及其特点(1)胡经国一、大数据定义据了解,目前大数据这一概念尚无大家公认的统一定义。

下面仅介绍关于大数据定义的一些常见表述,供读者参考。

1、表述1大数据(Big Data)是指一个数据集,它的尺寸大到已经无法由传统的数据库软件工具去采集、存储、管理和分析。

Big Data referes to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze. MGI May,2011 大数据是指一个数据集,它的尺寸的增长已经让现有的数据库管理工具相形见绌,这些困难包括:数据采集、存储、搜索、分享、分析和可视化。

Big data are datasets that grow so large that they become awkward to work with using on-hard database management tools. Difficulties include capture, storage, search, sharing, analytics, and visualizing. Wikipedia2、表述2大数据是指需要用新的处理模式处理才能使其具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

从数据的类别上看,大数据是指无法使用传统流程或工具处理或分析的信息。

它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。

3、表述3大数据是指所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到掘取、管理、处理、并整理成为帮助企业经营决策达到更积极目的的资讯。

4、表述4美国咨询公司麦肯锡给出的大数据定义:大数据是指其大小超出常规数据库工具的采集、存储、管理和分析能力的数据集。

由于传统数据库有效工作的数据上限一般为10~100TB;因而10~100TB 通常成为大数据的“门槛”。

无独有偶,IDC(国际数据公司)在给大数据做定义时,也把大数据的“门槛”设在100TB。

其实,这种方法未必科学。

不管怎样,有一个简单明晰的数值来指导对大数据的判断总是好事。

5、表述5维基百科给出的大数据定义:所谓大数据在当今的互联网业界是指这样一种现象:一个网络公司日常运营所生成和积累的用户网络行为数据“增长如此之快,以至于难以使用现有的数据库管理工具来驾驭,困难存在于数据的获取、存储、搜索、共享、分析和可视化等方面。

”这些数据量是如此之大,已经不能用我们以所熟知的多少G和多少T为单位来衡量,而要以P、E或Z为计量单位来衡量,所以称之为大数据。

6、表述6国际数据公司(IDC)是从大数据的4V特点来定义的,即:海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。

7、表述7大数据是指以多元形式、从许多来源搜集而来的往往具有实时性的庞大数据组。

在企业对企业销售的情况下,这些数据可能来源于社交网络、电子商务网站、顾客来访纪录,还有许多其他来源。

这些数据并非公司顾客关系管理数据库的常态数据组。

8、表述8大数据是指所涉及的数据量规模巨大到无法通过人工、在合理时间内达到掘取、管理、处理、并整理成为人类所能解读的信息。

大数据的特征,除了巨大、快速、多样多变之外,没有其他。

因此,大数据本质上还是数据。

9、表述9故名思意,大数据便是数量巨大,类型众多,结构复杂的数据集合。

数据具有较小的价值;而数据集合因为数量众多,量变引起质变,所以其价值无可估量。

10、表述10大数据是指所有数据的集合,具有4V特点,即:数据量大(Volume)、数据类型多样(Variety)、生成速度快(Velocity)、蕴含巨大价值(Value)。

二、大数据到底有多大据报道,有记者就大数据有关问题对有关专家进行了访谈。

现将其访谈录介绍如下,供读者参考。

记者:对于大数据有一个形象的说法:现在即使是一个孩子也可以把一个小小的存储器放入书包,随身携带TB级的数据去学校上课,甚至把整个人类文明背上都不是问题。

经过大量数据的训练和装备,未来的电子产品或者机器可以成为“大有裨益的终身数据伴侣:它可以预测你是想要一包方便面还是一颗感冒药;你想去旅游还是选择最不堵车的路线去看球赛;甚至还能以你的名义饱蘸激情投入工作。

大数据这个概念,看似从字面就能理解;但是确实以前没有这么火过。

首先,我们想知道的是,大数据到底有多大?专家:互联网搜索、电子商务交易平台和微博等社交网站所产生的各种数据内容,经常被用来证明大数据之大。

其实,在传统产业和我们的生活中,大数据比比皆是。

以北京市交通智能化分析平台为例,它的数据源是路网摄像头/传感器、地面公交、轨道交通、出租车以及省际客运、旅游、化学危险品运输、停车、租车等运输行业等。

4万辆浮动车每天产生2000万条记录;交通卡刷卡记录每天1900万条;手机定位数据每天1800万条;出租车运营数据每天100万条;高速ETC(Electronic Toll Collection,(不停车)电子收费(系统))数据每天50万条……这些信息,从数据体量和速度上,都达到了大数据的规模。

发掘这些形态各异、快慢不一的数据流之间的相关性,是大数据做前人之未做、前人所不能做的机会。

这也正是大数据最主要的特证。

比如,交通状况与其它领域的数据都存在较强的关联性。

研究发现,可以从供水系统数据中发现,晨洗的高峰时间加上一个偏移量,通常是40~45分钟,这就是交通早高峰时间。

同样,可以从电网数据中,统计出傍晚办公楼集中关灯的时间加上偏移量来估计出晚上的堵车时间。

国外的研究甚至发现了交通事故率与睡眠质量的关联,以及与社交网络情感波动的相关性。

记者:IT业界所指的数据诞生不过60多年。

而一直到个人电脑普及以前,由于存储、计算和分析工具的技术和成本限制,因而许多自然界和人类社会值得记录的信息,并未形成数据。

大数据到底有没有一个“门槛”?关于大数据的一些定义准确吗?专家:国际数据统计机构(IDC)对全世界每年创建和复制的信息的体量做了估计和预测:2011年为1.8ZB,2012年为2.8ZB。

按照每两年翻一番的速度,2020年将达到40ZB。

这个数据怎么算出来的呢?IDC秘而不宣。

1.8ZB是什么概念?它相当于4500亿张DVD,或6500万年的高清视频,或1130亿台装满数据的iPad。

如果把这些iPad覆盖到足球场并往上堆叠,其高度可达到10.3公里,比珠穆朗玛峰还高。

思科公司也有一个类似的预测:2016年数据移动的总量达到1.3ZB。

其实,所有这些数据加起来都不如谷歌的前CEO施密特的下述说法有感染力:从人类文明曙光到2003年数以万年计的时间长河里,人类一共产生了5EB(天知道他是怎么算出来的),而到2010年每两天人类就能产生5EB的数据。

这类数据的预测对于存储和网络企业的投资者来说无疑能提升信心;但是对其他人来说没有太大意义。

他们更关心的是个体行业、企业和个人数据的状况。

美国咨询公司麦肯锡对大数据的定义就是从个体数据集的大体量入手的:大数据是指那些很大的数据集,大到传统的数据库软件工具已经无法采集、存储、管理和分析。

传统数据库有效工作的数据上限,一般来说为10~100TB;因此,10~100TB通常就成为大数据的“门槛”。

无独有偶,IDC在给大数据做定义时,也把其“门槛”设在100TB。

其实,这种方法未必科学。

不管怎样,有一个简单明晰的数值来指导企业对大数据的判断总是好事。

三、大数据的4V特点1、大数据4V特点解读(1)大数据的4V特点是指大数据在Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值)这4个方面(层面)的特点。

⑴、Volume(大量)Volume(大量)是指大数据的体量(规模、容量或尺寸)巨大,从TB级别跃升到PB级别。

二进制信息最小基本单位为B it(比特),按顺序其所有单位为:Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

其中,1 Byte(字节)=8bit其它按照进率1024(=210)来计算,即:1KB(Kilobyte,千字节)=1024Bytes=1024B1MB(Megabyte,兆字节,简称兆)=1024KB1GB(Gigabyte,吉字节)=1024MB1TB(Terabyte,太字节)=1024GB1PB(Petabyte,拍字节)=1024TB1EB(Exabyte,艾字节)=1024PB1ZB(Zettabyte,泽字节)=1024EB1YB(Yottabyte,尧字节)=1024ZB1BB(Brontobyte)=1024YB1NB=1024BB1DB=1024NB⑵、Variety(多样)Variety(多样)是指大数据类型繁多,如网络日志、视频、图片、地理位置信息等等。

⑶、Velocity(高速)Velocity(高速)是指大数据处理速度快,要求满足1秒定律。

所谓1秒定律,或称秒级定律,是指对大数据处理速度有一定要求,一般要求在秒级时间范围内给出分析结果,时间太长就失去价值了。

这个速度要求是大数据处理技术和传统数据挖掘技术之间的最大区别。

⑷、Value(价值)Value(价值)是指大数据价值密度低。

以视频为例,在连续不间断视频监控过程中可能有用的数据仅仅只有一两秒。

2、大数据4V特点解读(2)虽然对大数据的特点有不同说法,但是业界一般认为,大数据具有4V特点,即:大数据在Volume(容量)、Variety(种类)、Velocity(速度)和最重要的Value(价值)这4个方面(层面)的特点。

⑴、Volume(容量)Volume(容量)是指大数据巨大的数据量与数据完整性。

IT业界所指的数据诞生不过60多年。

而一直到个人电脑普及之前,由于存储、计算和分析工具的技术和成本限制,许多自然界和人类社会值得记录的信号并未形成数据。

几十年前,气象、地质、石油物探、出版业、媒体业和影视业是大量、持续产出信号的行业,但是那时90%以上采用的是存储模拟信号,难以通过计算设备和软件进行直接分析。

拥有大量资金和人才的政府和企业,也只能把少量最关键的信号,进行抽取、转换、装载到数据库中。

尽管业界对达到怎样的数量级才算是大数据并无定论,但是在很多行业的应用场景里,数据集本身的大小并不是最重要的,而是否具有完整性才是最重要的。

⑵、Variety(种类)Variety(种类)意味着要在海量、种类繁多的数据之间发现其内在关联。

相关主题