当前位置:文档之家› 创新思维与方法第4章 大数据时代的思维变革

创新思维与方法第4章 大数据时代的思维变革


4.1.1 天文学——信息爆炸的起源
互联网公司更是要被数据淹没了。谷歌公司每天要处理超过24拍字节(PB, 250字节)的数据,这意味着其每天的数据处理量是美国国家图书馆所有纸质 出版物所含数据量的上千倍。Facebook(脸书)这个创立不过十来年的公司, 每天更新的照片量超过1 000万张,每天人们在网站上点“赞”(Like)按钮 或者写评论大约有三十亿次,这就为Facebook公司挖掘用户喜好提供了大量 的数据线索。与此同时,谷歌子公司YouTube 每月接待多达8亿的访客,平均 每一秒钟就会有一段长度在一小时以上的视频上传。推特(Twitter) 上的信 息量几乎每年翻一番,每天都会发布超过4亿条微博。
4.1.2 大数据的定义
所谓大数据,狭义上可以定义为:用现有的一般技术难以管理的大量数据的 集合。对大量数据进行分析,并从中获得有用观点,这种做法在一部分研究 机构和大企业中,过去就已经存在了。
现在的大数据和过去相比,主要有三点区别: 第一,随着社交媒体和传感器网络等的发展,在我们身边正产生出大量 且多样的数据; 第二,随着硬件和软件技术的发展,数据的存储、处理成本大幅下降; 第三,随着云计算的兴起,大数据的存储、处理环境已经没有必要自行 搭建。
4.1.1 天文学——信息爆炸的起源
图4-1 美国斯隆数字巡天望远镜
4.1.1 天文学——信息爆炸的起源
天文学领域发生的变化在社会各个领域都在发生。2003年,人类第一次破译 人体基因密码的时候,辛苦工作了十年才完成了三十亿对碱基对的排序。大 约十年之后,世界范围内的基因仪每15分钟就可以完成同样的工作。在金融 领域,美国股市每天的成交量高达70亿股,而其中三分之二的交易都是由建 立在数学模型和算法之上的计算机程序自动完成的,这些程序运用海量数据 来预测利益和降低风险。
4.1.1 天文学——信息爆炸的起源
以纳米技术为例。纳米技术专注于把东西变小而不是变大。其原理就是当事 物到达分子级别时,它的物理性质就会发生改变。一旦你知道这些新的性质, 就可以用同样的原料来做以前无法做的事情。铜本来是用来导电的物质,但 它一旦到达纳米级别就不能在磁场中导电了。银离子具有抗菌性,但当它以 分子形式存在的时候,这种性质会消失。一旦到达纳米级别,金属可以变得 柔软,陶土可以具有弹性。同样,当我们增加所利用的数据量时,也就可以 做很多在小数据量的基础上无法完成的事情。
4.它所含的信息量就越大。事实上,信息的基本作用就 是消除人们对事物了解的不确定性。信息量是指从N个相等的可能事件中选 出一个事件所需要的信息度量和含量。从这个定义看,信息量跟概率是密切 相关的。
4.1.1 天文学——信息爆炸的起源
综合观察社会各个方面的变化趋势,我们能真正意识到信息爆炸或者说大数 据的时代已经到来。以天文学为例,2000年斯隆数字巡天 项目(见图4-1)启 动的时候,位于新墨西哥州的望远镜在短短几周内收集到的数据,就比世界 天文学历史上总共收集的数据还要多。到了2010年,信息档案已经高达 4.4×242字节。不过,预计2016年在智利投入使用的大型视场全景巡天望远镜 能在五天之内就获得同样多的信息。
4.1.2 大数据的定义
所谓“用现有的一般技术难以管理”,例如是指用目前在企业数据库占据主 流地位的关系型数据库无法进行管理的、具有复杂结构的数据。或者也可以 说,是指由于数据量的增大,导致对数据的查询(Query)响应时间超出允 许范围的庞大数据。
研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有 更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信 息资产。
4.1.1 天文学——信息爆炸的起源
从科学研究到医疗保险,从银行业到互联网,各个不同的领域都在讲述着一 个类似的故事,那就是爆发式增长的数据量。这种增长超过了我们创造机器 的速度,甚至超过了我们的想象。人类存储信息量的增长速度比世界经济的 增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济的增长速度 快9倍,每个人都受到了这种极速发展的冲击。
4.1.1 天文学——信息爆炸的起源
大数据的科学价值和社会价值正是体现在这里。一方面,对大数据的掌握程 度可以转化为经济价值的来源。另一方面,大数据已经撼动了世界的方方面 面,从商业科技到医疗、政府、教育、经济、人文以及社会的其他各个领域。 尽管我们还处在大数据时代的初期,但我们的日常生活已经离不开它了。
4.1.2 大数据的定义
麦肯锡 说:“大数据指的是所涉及的数据集规模已经超过了传统数据库软件 获取、存储、营理和分析的能力。这是一个被故意设计成主观性的定义,并 且是一个关于多大的数据集才能被认为是大数据的可变定义,即并不定义大 于一个特定数字的TB才叫大数据。因为随着技术的不断发展,符合大数据标 准的数据集容量也会增长;并且定义随不同的行业也有变化,这依赖于在一 个特定行业通常使用何种软件和数据集有多大。因此,大数据在今天不同行 业中的范围可以从几十TB到几PB。”
目录
1 什么是大数据 2 思维变革之一:样本 = 总体 3 思维变革之二:接受数据的混杂性 4 思维变革之三:数据的相关关系
第4章 大数据时代的思维变革
信息社会所带来的好处是显而易见的:每个人口袋里都揣有一部手机, 每台办公桌上都放着一台电脑,每间办公室内都连接到局域网甚至互联 网。半个世纪以来,随着计算机技术全面和深度地融入社会生活,信息 爆炸已经积累到了一个开始引发变革的程度。信息总量的变化导致了信 息形态的变化——量变引起了质变。最先经历信息爆炸的学科,如天文 学和基因学,创造出了“大数据”(Big Data)这个概念。如今,这个概 念几乎应用到了所有人类致力于发展的领域中。
4.1
什么是大数据
4.1 什么是大数据
数据是反映客观事物属性的记录,是信息的具体表现形式。数据经过加工处 理之后,就成为信息;而信息需要经过数字化转变成数据才能存储和传输。 所以,数据和信息之间是相互联系的。
数据和信息也是有区别的。从信息论的观点来看,描述信源的数据是信息和 数据冗余之和,即:数据 = 信息 + 数据冗余。数据是数据采集时提供的,信 息是从采集的数据中获取的有用信息,即信息可以简单地理解为数据中包含 的有用的内容。
相关主题