当前位置:文档之家› 大数据(BigData)科学问题研究

大数据(BigData)科学问题研究

973计划信息领域战略调研材料之三大数据(Big Data)科学问题研究李国杰1、前言1.1 什么是大数据?大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合(维基百科定义)用传统算法和数据库系统可以处理的海量数据不算“大数据”。

大数据= “海量数据”+“复杂类型的数据”大数据的特性包括4个“V”: Volume,Variety,Velocity,Value●数据量大:目前一般认为PB级以上数据看成是大数据;●种类多:包括文档、视频、图片、音频、数据库数据等;●速度快:数据生产速度很快,要求数据处理和I/O速度很快;●价值大:对国民经济和社会发展有重大影响。

1.2目前大数据的规模工业革命以后,以文字为载体的信息量大约每十年翻一番;1970年以后,信息量大约每三年就翻一番;如今,全球信息总量每两年就可以翻一番。

2011年全球被创建和被复制的数据总量为1.8ZB (1021),其中 75%来自于个人。

IDC认为,到下一个十年(2020年),全球所有IT部门拥有服务器的总量将会比现在多出10倍,所管理的数据将会比现在多出50倍。

根据麦肯锡全球研究院(MGI)预测,到2020年,全球数据使用量预计将暴增44倍,达到35ZB(1ZB=1021Byte)。

医疗卫生、地理信息、电子商务、影视娱乐、科学研究等行业,每天也都在创造着大量的数据。

数据采集成本的下降推动了数据量的剧增,新的数据源和数据采集技术的出现大大增加了数据的类型,数据类型的增加导致数据空间维度增加,极大地增加了大数据的复杂度。

1.3大数据公司的现状:●Google 公司通过大规模集群和MapReduce 软件,每个月处理的数据量超过400PB。

●百度的数据量:数百PB,每天大约要处理几十PB数据,大多要实时处理,如微博、团购、秒杀。

●Facebook:注册用户超过8.5亿,每月上传10亿照片,每天生成300TB日志数据●淘宝网:有3.7亿会员,在线商品8.8亿,每天交易数千万,产生约20TB数据。

●Yahoo!的数据量:Hadoop云计算平台有34个集群,超过3万台机器,总存储容量超过100PB。

1.4 网络大数据的特点(1)多源异构:描述同一主题的数据由不同的用户、不同的网站产生。

网络数据有多种不同的呈现形式,如音视频、图片、文本等,导致网络数据格式上的异构性。

(2)交互性:不同于测量和传感获取的大规模科学数据,微博等社交网络兴起导至大量网络数据具有很强的交互性。

(3)时效性:在网络平台上,每时每刻都有大量新的网络数据发布,网络信息内容不断变化,导致了信息传播的时序相关性。

(4)社会性:网络上用户根据自己的需要和喜好发布、回复或转发信息,因而网络数据成了对社会状态的直接反映。

(5)突发性:有些信息在传播过程中会在短时间内引起大量新的网络数据与信息的产生,并使相关的网络用户形成网络群体,体现出网络大数据以及网络群体的突发特性。

(6)高噪声:网络数据来自于众多不同的网络用户,具有很高的噪声。

2、国家重大战略需求数据已成为与自然资源、人力资源一样重要的战略资源,隐含巨大的价值,已引起科技界和和企业界的高度重视。

如果我们能够有效地组织和使用大数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用,孕育着前所未有的机遇。

O'Reilly公司断言:“数据是下一个‘Intel Inside’,未来属于将数据转换成产品的公司和人们。

”过去几十年,我们一直大力发展信息科学技术和产业,但主要的工作是电子化和数字化。

现在,数据为王的大数据时代已经到来,战略需求正在发生重大转变:关注的重点落在数据(信息)上,计算机行业要转变为真正的信息行业,从追求计算速度转变为大数据处理能力,软件也从编程为主转变为以数据为中心。

实验发现、理论预测和计算机模拟是目前广泛采用三大科研范式。

现在,数据密集型研究已成为科研的第四范式。

不论是基因组学、蛋白组学研究,天体物理研究还是脑科学研究都是以数据为中心的研究。

用电子显微镜重建大脑中所有的突触网络,1mm3大脑的图像数据就超过1PB。

取之不尽的实验数据是科学新发现的源泉。

大数据分析技术不仅是促进基础科学发展的强大杠杆,也是许多行业技术进步和企业发展的推动力。

大数据的真正意义并不在于大带宽和大存储,而在于对容量大且种类繁多的数据进行分析并从中萃取大价值。

采用大数据处理方法,生物制药、新材料研制生产的流程会发生革命性的变化,可以通过数据处理能力极高的计算机并行处理,同时进行大批量的仿真比较和筛选,大大提高科研和生产效率。

数据已成为矿物和化学元素一样的原始材料,未来可能形成“数据探矿”、“数据化学”等新学科和新工艺模式。

大数据处理的兴起也将改变云计算的发展方向,云计算正在进入以AaaS(分析即服务)为主要标志的Cloud 2.0时代。

现有的数据中心技术很难满足大数据的需求,需要考虑对整个IT 架构进行革命性的重构。

存储能力的增长远远赶不上数据的增长,设计最合理的分层存储架构已成为信息系统的关键,数据的移动已成为信息系统最大的开销。

信息系统需要从数据围着处理器转改变为处理能力围着数据转,将计算用于数据,而不是将数据用于计算。

大数据也导致高可扩展性成为信息系统最本质的需求,并发执行(同时执行的线程)的规模要从现在的千万量级提高10亿级以上。

近十年来增长最快的是网络上传播的各种非结构化或半结构化的数据。

网络数据的背后是相互联系的各种人群。

网络大数据的处理能力直接关系到国家的信息空间安全和社会稳定。

未来国家层面的竞争力将部分体现为一国拥有数据的规模、活性以及解释、运用数据的能力。

国家的数字主权体现在对数据的占有和控制。

数字主权将是继边防、海防、空防之后,另一个大国博弈的空间。

从心理学、经济学、信息科学等不同学科领域共同探讨网络数据的产生、扩散、涌现的基本规律,是建立安全和谐的网络环境的重大战略需求,是促使国家长治久安的大事。

3、国内外研究动向与基础3.1 科研“第四范式”60年前, 数字计算机使得信息可读;20年前,Internet使得信息可获得;10年前,搜索引擎爬虫将互联网变成一个数据库;现在,Google 及类似公司处理海量语料库如同一个人类社会实验室。

数据量的指数级增长不但改变了人们的生活方式、企业的运营模式,而且改变了科研范式。

2007年,已故的图灵奖得主吉姆•格雷(Jim Gray)在他最后一次演讲中描绘了数据密集型科研“第四范式”(the fourth paradigm)的愿景。

2008年9月《Nature》杂志出版了一期专刊—“Big Data”,2011年2月,《Science》期刊联合其姊妹刊推出了一期关于数据处理的专刊—“Dealing with data”,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面介绍了海量数据所带来的技术挑战。

将大数据科学从第三范式(计算机模拟)中分离出来单独作为一种科研范式,是因为其研究方式不同于基于数学模型的传统研究方式。

Google公司的研究部主任Peter Norvig的一句名言可以概括两者的区别: "All models are wrong, and increasingly you can succeed without them"。

Petabyte级的数据使我们可以做到没有模型和假设就可以分析数据。

将数据丢进巨大的计算机机群中,只要有相互关系的数据,统计分析算法可以发现过去的科学方法发现不了的新模式、新知识甚至新规律。

实际上,Google的广告优化配置、战胜人类的IBM沃森问答系统都是这么实现的,这就是“第四范式”的魅力!美国Wired杂志主编Chris Anderson 2008年曾发出“理论的终结(The End of Theory)”的惊人断言:“The Data Deluge Makes the Scientific Method Obsolete”。

他指出获得海量数据和处理这些数据的统计工具的可能性提供了理解世界的一条完整的新途径。

Petabytes 让我们说:相互关系已经足够(Correlation is enough)。

我们可以停止寻找模型,相互关系取代了因果关系,没有具有一致性的模型、统一的理论和任何机械式的说明,科学也可以进步。

Chris Anderson 的极端看法并没有得到科学界的普遍认同,数据量的增加能否引起科研方法本质性的改变仍然是一个值得探讨的问题。

对研究领域的深刻理解(如空气动力学方程用于风洞实验)和数据量的积累应该是一个迭代累进的过程。

没有科学假设和模型就能发现新知识究竟有多大的普适性也需要实践来检验,我们需要思考:这类问题有多大的普遍性?这种优势是数据量特别大带来的还是问题本身有这种特性?只知道相互关系不知道因果关系会不会“知其然不知其所以然”。

所谓从数据中获取知识要不要人的参与,人在机器自动学习和运行中应该扮演什么角色?有些领域可能先用第四范式,等领域知识逐步丰富了在过渡到第三范式。

3.2 21世纪的网络理论相当于20世纪的量子力学还原论解构复杂系统,带给我们单个节点和链接的理论。

网络理论则反其道而行之,重新组装这些节点和链接,帮助我们重新看到整体。

很可能数据的共性存在于数据背后的“网络”之中。

网络有不少参数和性质,如聚集系数、核数等,这些性质和参数也许能刻画大数据背后的网络的共性。

发现Scale-Free网络的Albert-László Barabási教授在2012年1月的NATURE PHYSICS 上发表一篇重要文章The network takeover,文章认为:20世纪是量子力学的世纪,从电子学到天文物理学,从核能到量子计算,都离不开量子力学。

而到了21世纪,网络理论正在成为量子力学的可尊敬的后继,正在构建一个新的理论和算法的框架。

3.3 美国政府启动“Big Data” 计划2012年3月29日,美国政府启动“Big Data Research and Development Initiative”计划,6个部门拨款2亿美元,争取增加100倍的分析能力从各种语言的文本中抽取信息。

这是一个标致性事件,说明继集成电路和互联网之后,大数据已成为信息科技关注的重点。

在这个计划中,不同部门的侧重点并不一样。

3.3.1国防部高级研究计划局(DARPA)项目举例:●多尺度异常检测项目解决大规模数据集的异常检测和特征化。

●网络内部威胁计划通过分析图像和非图像的传感器信息和其他来源的信息,进行网络威胁的自动识别和非常规的战争行为。

●Machine Reading 项目旨在实现人工智能的应用和发展学习系统,对自然文本进行知识插入。

相关主题