大数据研究现状与展望
信 息 技 术 ・ 1 9 1 . 源自大数据研 究现状 与展 望
刘忆 迪 , 郭方修 z
( 1 、 山东省青 岛市第一 中学 , 山东 青岛 2 6 6 0 7 1 2 、 山东省青岛市城 阳区黄埠 小学, 山东 青岛 2 6 6 1 0 7 )
摘 要: 随着科 技的迅猛发展 , 各个领域 ( 如天文、 金 融、 医疗 、 互联 网等 ) 都 产生 了海量的数据 , 大数据释放 出的 巨大价值 , 几乎给每 个行 业都带来 了颠覆。其价值除 了共享庞大的数据 流信 息外, 还能从海量数据 中提取所 需数据并进行专业化分析 , 挖 掘隐藏在数据下的 潜在 价值 , 给政府 、 企业、 高校等各行各业在决策拟定时提供 参考。通过介绍大数据的基 本定义、 现状并结合一 些应 用案例 , 试 图增进对大 数 据的理解 。 分析 大数据在各 个领域发挥的 关键作用 , 并展望 大数据的发展 趋势。 关键 词 : 大数 据 ; 数据分析 ; 现状 ; 应用; 展 望 随 斗 算 机的发展 , 大数据越来越广为人知 , 逐渐成为社会关注的 手段有分布式文件系统 、 并行计算、 流式处理等 。对不同领域庞大数据 可能获得不同级别的数据意义。 焦点。美国和欧洲部分 国家都从战略层面提出了一系列大数据技术发 的不同特征进行处理 , 展计划 , 以推动大数据在政府机构 、 学术界 、 工业界和各个重点行业的 2国 内外研 究现 状及 应用 2 . 1 研究现状。2 0 1 2 年3 月, 美国发 应用 。早 在 2 0 1 0年 1 2月 ,美国 P C A S T( 科学技术顾 问委员会 ) 和 B i g D a t a R &D I n i t i a t i v e ) ,投资 2 亿美金启动大数据核心技术研发和 P I T A C ( 信息技术顾问委员会 ) 向奥 巴马和 国会提交的《 规划数字未来》 ( 应用 , 涉及美国国家 自然基金会( N S F ) 、 卫生健康总署( N I H) 等 6大机 战略报告建议 : “ 联邦政府应高度重视大数据的发展 , 拟定科学的“ 大数 构, 是美 国自 1 9 9 3 年执行 “ 信息高速公路” 后又一次大动作 。2 0 1 2 年7 据” 发展战略” 。 全球知名咨询麦肯锡( Mc K i n s e y ) 公司在 2 0 1 1 年发布的 月 , 联合国公布《 大数据促发展 : 挑战与机遇》 白皮书 , 建议各 国政府大 《 大数据: 下—个竞争 、 创新和生产力的前沿领域》 口 研究报告 中 称: “ 数据 挖掘大数据潜在价值, 更好地指导经济 已经与各行各业 的发展息息相关 ,成为助力企业进步的关键因素。同 数据发展提升到重要战略位置 , 服务人民。 在学术界, 美国麻省理工( MI T ) 建立了大数据科学技术 时,随着人们对大数据应用的热衷 ,将会带动 国内新一轮生产率的扩 运行 、 G( I S T C ) , 并通过与各高校及国际产业巨头合作 , 促进其在不 同行业 大” 。2 0 1 5 年 国务院印发《 促进大数据发展行动纲要》 嘴 出: “ 伴随信息 中 英国牛津大学成立 医药卫生科研中心, 运行大 技术与经济社会的交融 , 数据 已经成为助力企业发展的关键因素, 是 国 中的运用于发展。同时 , 更好地帮助科学家分析人类疾病并研究相应的治疗方法 , 促 家战略l 生 资源之一” , 并在国家顶层设计和总体部署方面对大数据发展 数据技术 , 国内社会各界也迅速广泛开展大 做出了指导。 大数据浪潮正在席卷全球 , 已然成为各国各行 业新 的关注 进医学研究和医疗服务的发展。同时, 数据技术的研究。 2 0 1 2 年 由中国计算机学会( c c F ) 成立的“ 大数据技术 点。 发展战略报告” 撰写公开了 2 0 1 3 、 2 0 1 4 、 2 0 1 5年度版“ 中国大数据技术 1什 么是 大数 据 。2 0 1 3 年以来, 国家 自然科学基金 、 核高基、 8 6 3 等 对于大数据, 至今并没有明确的定义。其概念首次出现在 1 9 8 0年 与产业发展 白皮书” 阿尔文 ・ 托夫勒的叙述 中, 他认为大数据不久会成为 “ 第三次浪潮 的华 重大研究i 十 划都已经将大数据研究当成重点资金支持对象。 2 . 2大数据的应用 。大数据技术 已经应用于各个行业各个领域 , 政 彩乐章” 目 。美国高德纳( G a r t n e r ) 公司2 0 0 1 年将大数据概括为 3 V, 即数 据量大( V o  ̄me ) 、 数据格式多样化( V a r i e t y ) 与处理数据速度 [  ̄( V e l o c i — 府 、 跨国企业、 产业巨头等都依托大数据技术进行科学的分析决策。近 美 国依靠大数据技术不断强化政府作用 。美国政府 d a t a . g o v 网站 t y ) 。2 0 1 1 年国际数据公司( I D C , I n t e na r t i o n l a D a t a C o r p o r a t i o n ) 将大数 些年 , 0 0 9年正式上线 , 包含了教育、 医疗等方面的资料, 民众可以通过网 据定义为 : 一种容量大到在获取 、 存储 、 管理、 分析方面远超传统数据库 于 2 监测 、 预防 软件 的数据集合 , 其特点是规模大 、 数据流转速度快 以及价值密度低 。 络进行浏览下载。美国国家税务局也充分利用大数据技术 , 这一新的论述将大数据从 3 V增加至 4 V, 即在原本规模 、 多样化与速度 和处理逃税避税等行为。 截至 2 0 1 4年 2 月, 美国国立卫生研究院( N I H) 在亚马逊 网络服务 性上增加 了价值( V a l u e ) , 较3 v得到了更广泛的认同。此外, 美国国家 标准与技术研究院( N I S T ) 将大数据做 了以下描述 : “ 大数据是用于呈现 中心已经积累了数以百万亿字节的人类遗传变异数据,借此科学家能 而无需通过 自身去计算 , 节省 了大量时间, 提高了工 网络中信 息泛滥现象的普通用语。大量数据资源为解决 以前不可能解 够对其进行分析, 作效率 。 社交网络公司 T w i t t e r 和 F a c e b o o k利用大数据技术分析用户的 决的问题阱涞 了可能性 。” 兴趣爱好 、 消费习惯以及人 口统计特征 , 为用户提供无比贴 大数 据到底有多大? 目前通行说法 , “ 大数据”至少要达到 P B 人脉关系、 生化内容 , 以及无与伦 比的综合体验 。同时 , 广告商企业还通过 ( 1 P B = I O 0 0 T B 。 1 T B = 1 0 0 0 G B ) 量级 , 约为 2 5 0 0 0 0 张容量为 4 G B的 D V D 合 的个 『 w i t t e r 和F a c e b o o k 上收集的社交信息, 定位不 同消费群体 , 提供差 光盘 , 每天看一张大约需要 6 8 0 年。 在信息化时代 , 我们每个 人 都在生 从 T 在金融 、 体育 、 制造 、 天 产数据: 浏览网页 、 打电话 、 拍照 、 购物 ……我们很难统计全球 电子设备 异化服务。大数据不仅深刻的影响着上述领域 , 娱乐 、 物流等各个领域均发挥着重要的应用价值。 存储的数据到底有多少。G o o g l e 每秒要处理 6 3 0 0 0次搜索, 每年超过 2 气 、