2013.5一、问题的提出大数据(bigdata)泛指伴随社会化数据出现的大量在线文本、图片、流媒体数据。
这里的“大”有两方面含义。
一是数据量巨大。
指在科学技术、计算机仿真、互联网应用、电子商务等诸多应用领域产生的海量数据集。
二是以数据为“大”的价值论。
即大数据之“大”更多地反映在其重要性上,而不完全指数量上的庞大。
因为可以从这些数据中挖掘出有价值的信息,目前大数据被世界经济论坛的相关报告认定为其价值堪比石油的新财富。
随着互联网和移动互联网的发展,无处不在的信息感知和采集终端,将行政管理、生产经营、商务活动等众多领域源源不断产生的海量即时电子化数据,通过“云计算”技术构建了一个与物质世界相平行的数字世界,所以很多专家认为人类已经跨入了大数据时代。
作为数据生产的权威机关,这样一个时代的到来给统计调查工作带来了什么样的挑战与启示?统计调查部门和统计调查工作者应该怎样应对才能满足时代提出的需求?对此,笔者拟结合多年基层工作经历进行初步探讨,意在抛砖引玉,以期更多的同仁共同关注、思考大数据时代对统计工作带来的变化和影响。
二、大数据时代的来临及意义有资料显示,1998年全球网民平均每月使用流量是1MB,2008年是1GB,2014年将是10GB。
全网流量累计达到1EB的时间在2001年是一年,在2004年是一个月,在2007年是一周,而2013年仅需一天,即一天产生的信息量可刻满1.88亿张DVD光盘。
淘宝网站单日数据产生量超过50TB,存储量40PB。
百度公司每天要处理60亿次搜索请求,几十PB数据。
一个城市若安装几十万个交通和安防摄像头,每月产生的数据量将达几十PB。
数据的规模越大,处理的难度也越大,但对其进行挖掘可能得到的价值更大,这就是大数据热的原因。
根据中国互联网络信息中心统计,2012年底我国网民数为5.64亿,手机网民为4.2亿。
这些网民每天在网上将产生海量的数据,这些数据记载着他们的思想、行为乃至情感,蕴含着丰富的内涵和很多规律性信息,通过分析相关数据,可以了解大众需求、诉求和意见,反映舆情民意。
大数据的重要价值还在于对其有效的开发和使用能对社会的发展起到巨大的推动作用。
企业和政府的信息系统每天源源不断产生大量数据。
根据全球第四大独立软件公司,美国赛门铁克公司的调研报告,全球企业的信息存储总量已达2.2ZB,年增67%。
医院、学校和银行等也都会收集和存储大量信息。
政府可以部署传感器等感知单元,收集环境和社会管理所需的信息。
2011年,英国《自然》杂志曾出版专刊指出,倘若能够有效地组织和使用大数据,人类将得到更多的机会发挥科学技术对社会发展的巨大推动作用。
(备注:1024B=1KB 1024KB=1MB 1024MB=1GB 1024GB=1TB 1024TB=1PB 1024PB=1EB 1024EB=1ZB1024ZB=1YB 1024YB=1BB )三、大数据时代统计工作面临的挑战可以预见,大数据时代的到来,对统计调查部门生产出更高质量的统计产品提供了难得的机遇和更大的可能性,但与此同时,带来更多的则是挑战。
这种挑战集中体现在随着大数据时代的到来,统计调查部门应该能够使用更少的投入生产出时效性更强、质量更高的产品。
社会各界对统计调查部门新的服务需求和更高的工作要求也将随之形成。
基于此,笔者认为在大数据背景下,统计调查工作正面临六大挑战。
一是统计工作方式的挑战。
在大数据科技大浪潮的背景下,数字化的行政商业记录、网络在线文本、流媒体数据大大拓宽了统计机构收集数据信息的渠道,统计调查部门的业务工作方式也势必发生改变。
在数据收集方面,会更多的需要从互联网、物联网的数据中进行挖掘收集。
如物联网的发展将使工业生产、运输物流、最终消费、服务等各种交易生成直接可用的数据。
又如,现行的居民家庭日记帐是通过统一的报表和计量方式将调查对象的收入消费行为转化为可用的数据,在大数据时代将有可能实现通过对超市商场收银系统、ETC电子收费系统、GPS定位测量、银行转账、微信等数据进行挖掘从而收集到需要的数据,不再需要调查对象长期认真的配合。
这种数据收集方式可以有效避免人为误差,篡改数据的可能性越来越小,数据质量将更有保大数据时代统计调查工作的挑战与思考季晓晶摘要:大数据(bi g d ata )泛指伴随社会化数据出现的大量在线文本、图片、流媒体数据。
因其数据量巨大又可以从中挖掘出有价值的信息,目前被世界经济论坛的相关报告认定为其价值堪比石油的新财富。
随着互联网和移动互联网的发展,无处不在的信息感知和采集终端,将行政管理、生产经营、商务活动等众多领域源源不断产生的海量即时电子化数据,通过“云计算”技术构建了一个与物质世界相平行的数字世界,所以很多专家认为人类已经跨入了大数据时代。
作为数据生产的权威机关,这样一个时代的到来给统计调查工作带来了什么样的挑战与启示?统计调查部门和统计调查工作者应该怎样应对才能满足时代提出的需求?对此,笔者结合多年基层工作经历进行了初步探讨。
关键词:大数据;统计调查工作;思考问题研究172013.5证。
从数据的处理分析利用方面看,目前统计工作主要针对结构化的数据进行分析处理,而大数据类型繁多,如网络日志、视频、图片、地理位置信息等,多以非结构化和半结构化为主,无法用传统的方式度量和处理,必须在现有的结构化数据汇总挖掘方式下,建立非结构化的数据分析利用方法。
二是统计方法制度的挑战。
近年来统计方法制度伴随着IT技术和经济生产方式的转变,进行了一系列变革。
大数据时代的来临及其应用将意味着统计工作进入到一个新的维度,统计调查部门将不再是唯一的数据生产部门,必须要接受数据生产社会化的现实,这对现行的方法制度的冲击是巨大的。
目前IBM日本公司从互联网新闻中搜索影响制造业的480项经济数据,计算出了采购经理人指数的预测值。
美国印第安纳大学利用心情分析工具,从千万条网民留言中归纳出六种心情,进而对道琼斯工业指数的变化进行预测,准确率达到87%。
从国内看,目前阿里研究中心推出的ISPI大有冲击CPI之势。
随着大数据挖掘技术的深入加之各类信息咨询业的崛起,传统统计的内容、对象、渠道将会发生很多变化,目前的统计体系和方法制度将不能适应新时代的要求。
三是统计数据质量的挑战。
过去,由于人类的认知能力有限,受数据获取技术的制约,想要获取大范围的情况比较困难,只能感知身边的个体数据乃至群体数据。
而大数据和云计算以及数据挖掘技术的日益成熟,数据将实现全社会共享,人们对数据的需求层次、质量和公开、细化的程度将不断提高。
与时同时,大数据时代还将催生大批民间咨询调查机构,他们的服务领域也将会从商务领域向公共领域渗透。
届时官方统计将有可能不再作为公共统计数据信息的唯一渠道。
没有代表性,不公开、不详细、失公允的数据就有可能被其他数据替代。
四是统计数据安全性的挑战。
随着IT技术与统计工作的深度融合,目前大部分统计原始数据实现了联网直报,各种办公软件均捆绑固定IP或电脑物理信息,网络在线对话活动十分频繁,数据安全性无疑会受到全面挑战。
五是统计发布方式的挑战。
在大数据的背景下,数据的获取和分析将全社会共享,而非统计部门一家独享。
这就决定了大数据背景下数据发布的意义在于看谁的数据更有价值,更能阐述现实意义。
可以大胆预测,微观数据在社会上的作用将不亚于宏观数据的重要性,将会受到更多的关注。
因此在发布结果上,宏观的GDP、平均收入等将满足不了公众的需求,可能需要通过可视化、交互等方式给予公众提供更为详尽的结构、区域等分析信息。
六是统计工作职能的挑战。
从统计工作的变化轨迹看,计划经济向市场经济转轨时,随着市场化的深入,价格信号会告诉市场主体需求与供给的状况,不再需要统计部门提供社会有多少需求、多少供给,来实现社会总需求与总供给的平衡,进而弱化了物量统计。
在大数据时代到来的变化趋势下,现行的一些统计指标,如投资、消费、铁路公路里程等指标的价值将会进一步弱化。
大数据所带来的价值可能会超过并会逐渐取代目前的一些统计数据,对于目前统计调查工作的职能、理念将会产生革命性的冲击。
由此可见,大数据时代对统计调查工作的冲击是巨大的,不仅涉及到整个统计工作方式和流程,更对当前的政府统计管理体制、职能、数据价值、统计能力等方面形成了挑战。
但同时应该看到,大数据也是一把“双刃剑”,对于统计业务的再造、数据质量的提高都有帮助。
统计调查部门应当借助于大数据所带来的有利条件,主动顺应数据社会化的趋势,在大数据浪潮中勇立潮头。
四、大数据时代统计调查工作路径的思考(一)未雨绸缪,加快推进统计调查工作与大数据时代融合尽管短期内大数据离现实的世界或许还有一段距离,但其带来的革命性冲击已经波及到现行的统计制度,加快推进统计调查工作与大数据衔接是应对各种挑战的惟一出路。
统计调查部门应利用现有的资源、网络、人员及信息化优势加快统计工作与大数据的衔接。
一是改革顶层设计。
从推进统计调查工作与大数据衔接的战略高度,根据现有统计指标及标准,针对大数据标准各异的特点,广泛搜集已经存在并继续增加的各类数据,分析其与目前的统计调查指标在口径、范围、内涵、定义等方面的差异,对统计调查部门应用大数据的统计标准进行统一设计、调整、规范和完善。
积极针对大数据“样本=总体”的特点,加快研究在“全样本”基础上进行抽样或计算的方法,促进传统统计方法制度与大数据衔接。
另外,应积极考虑从立法角度确定统计部门在大数据时代的信息主体地位,加快推进商业交易记录和网上搜索信息与统计各项指标的测算对接;加快实施各部门各行业行政记录与统计部门条件共享的进程;加快规范统计在线会话、数据发布、数据质量交叉验证的方式方法等。
二是倡导基层创新。
从基层角度看,基层调查队作为统计工作组成部门,主要开展收入、价格、产量、消费等调查工作,调查的组织方式也多以抽样调查为主,与大数据的关联度较高,应积极借助大数据在物价、通货膨胀、失业率、消费等统计方面的优势先行先试。
以物价统计为例,调查队系统开展的CPI统计采用固定权重的拉氏指数计算方法,包含八个商品分类,涉及千种商品、几万个调查销售网点。
而目前阿里研究中心推出的ISPI(网络零售价格指数),是采用国际统计学界与宏观经济学界广为接受的链式加权拉氏(Laspeyres)指数法,下设有十个商品和服务分类(食品、烟酒及用品、衣着、家庭设备用品及维修服务、医疗保健和个人用品、交通和通信、娱乐教育文化用品及服务、居住、办公用品及服务、爱好收藏投资等)。
从编制方法看,采用链式加权,考虑了权重的动态变化,商品篮子和权重会适时做出调整。
从数据采集看,是基于淘宝和天猫销售平台汇聚和即时产生的海量网络零售价格信息,将所有通过网络的消费商品和服务都纳入编制范畴,虽然链式加权,但基于强大的互联网信息处理功能,几乎没有什么成本。