大数据时代与我们的生活
• 样本分析的缺陷
–绝对的随机性 –不适合考察子类别 –事先设计好的问题
从样本到总体:信不信由你 • •28 “样本”的统计,2003-2012年
–房价:全国143%,北京256% –收入:上涨180% –CPI:中国涨幅34%,美国36%
• “总体”的大数据
–货币发行量:+500%,超过美国,占全球50% –GDP增长4倍,CPI应是100%涨幅! –股市:“上浮零” –淘宝TCPI指数:6.9% –全国工业用电量指数:4.7%
加入“开放政府联盟”的门槛
财政透明
信息自由
• 能及时公开政府财政预
算和支出的信息和文件Байду номын сангаас
• 有专门的法律保证公民
获取政府信息和数据的 权力
财产公开
公民参与
• 有专门的制度规定如何
公开高级政府官员的收 入和财产
的制定、保护民权
• 允许公民参与公共政策
主要内容
• 大数据的“热” •42 • 大数据的“大” • 大数据的“数” • 大数据的颠覆性
共同提高从大量数字数据中访 问、组织、收集发现信息的工 具和技术水平;扩大大数据技 术开发和应用所需人才的供给 ;了解更多正在进行的联邦政 府的计划,解决由大数据带来 的机遇和挑战;计划与工业界 、大学研究界、非营利性机构 与管理者一起利用大数据所创 造的机会。
开放政府数据联盟
•截止2012年12月,美国的“开放政府计划”共有54个国
• “丁蟹效应”
–凡是播出由郑少秋主演的电视剧,恒生指数或A股 就会有32个明显下跌 –巧合?自我实现?大数据分析?
手机会致癌,相关吗? •32 对比丹麦1990-2007年所有手机数据库 • (358403人) • 10729个中枢神经系统肿瘤患者数据库 • 研究目的
–是否手机使用者更容易致癌? –是否通话时间长更容易会致癌?
•12
史上的大数据:政府最先遇到
•约前2200年大禹“平水土分九州数
万民” •公元2年,汉书.地理志:全国103 个郡国,人口是59,594,978人 •1909年,秦政府颁布调查户口章程
古罗马,每5年一次
税收!
•美国宪法规定10年一次人口普查 •1880年统计用了8年,预计1890年 要13年 •穿孔卡片制表机的发明,要1年
• 大数据的“大”
• • • • 大数据的“数” 大数据的颠覆性 大数据的隐私保护 大数据与大众生活
“信息化”浪潮
•互联网
•保存与传承 •口耳相传 •语言 •文字
与持久保存 •印刷术
•大范围传播
硅介质 数字化 网络化
•距今10万年前
•距今5000年前
•公元1000年
•公元2000年
古登堡印刷术发明后,50年书籍增加了800万册,增长1倍 ,是之前西方数据量的总和
IBM 、沃尔玛等传统企 业大规模并购大数据公 司,进军大数据领域
2011年麦肯锡总结大 数据现象并发布报告 ,点燃大数据热潮 2012年初世界经济论 坛讨论大数据一题引 起政商界高度关注
IT和其他行业
咨询公司
2000年以来,搜索、 广告和电商利用大数 据获得丰厚回报
经济界
2012年,美国、英国、日 本等政府积极开放数据, 并资助大数据研发
大数据革命与大众生活变革
黄欣荣 博士
教授
江西财经大学 马克思主义学院
32478179@ 2014.5.18
从马航失联谈起
主要内容 • 3大数据的“热” •
• • • • • 大数据的“大” 大数据的“数” 大数据的颠覆性 大数据时代的隐私保护 大数据时代的大众生活
大数据引发全球高度重视
大数据时代
2000年后,互联网 公司开启数据分析 挖掘新时代
数据库时代 数据耦合时代
1946年,电脑诞生, 数据与应用紧密捆绑 在文件中,彼此不分
•1946 •1961
数据分析时代 1990年代
,提出数 据分析挖 掘
1960年代,数据与应用分离, 数据库技术蓬勃发展,但重视 事务处理
•1970
•1990
–Hadoop
• 开源模仿Google MapReduce,2003年的技术
–Google Dremel
• 2012年,新的编程框架
引爆此轮大数据的原因
•从流程电子化到数据资产化
•1)数据更加丰富,有分析价值,从TB到PB
•2)分析工具更加强大,成本够低,MapReduce •3)互联网商业上的成功,引起重视,麦肯锡报告
• 大数据的隐私保护
• 大数据与大众生活
•43
隐私保护的历史变迁
•21世纪 •20世纪 •数据为重
•人为重
•19世纪 •住宅为重
心
心
心
个人控制、编辑、管理和删除关于 他们自己的信息,并决定何时何地 、一何种方式公开这种信息的权利 。
传统隐私保护的“三板斧”
就像印刷业的发展促成了保护言论自由的立法, •44 大数据也需要新的法律
• 大数据的颠覆性
• 大数据与隐私保护 • 大数据的实践
思维的三大转变 • •26 •纷繁复
•全体
数据
• 从样本 • 到总体
•相关关系
•
• 杂 从因果到相关
从样本到总体 •27 统计学的理论基础 •
–用尽可能少的数据,证实尽可能大的事实
• 样本分析
–精确性随着随机性的增加而大幅提高 –精确性不样本空间数量的增加关系不大
1086年,英国《末日审判书》 人口、土地、财产登记
史上的大数据:天文学制造了数据大爆炸
第谷 人肉的“大数据”资源
开普勒 突破性的“处理”算法
伽利略 工具的“大数据”资源
牛顿 •13 划时代先进的理论
•14
数据量的增速
1980以来,每40个月翻一番 数据量增速,是GDP增速的4倍 数据处理能力,是GDP增速的9倍 2000年人类信息75%是模拟数据,2007年是6%,现在1%?
•时间
•人口
•长度重量•空间 •面积体积•颜色
压 •声音图 像
系
天体
•云计
联网 •Web2.0 •随时随 •主动 地 •Web1. •碎片
0
•移动互
算 •全部
•被动
上帝是数学家吗?
大数据 量化
量化
哲学
物理世界 宗教
•24
精神世界
主要内容
• 大数据的“热” •25 • 大数据的“大” • 大数据的“数”
互联网
•共识
大数据=战略资源
政府
•6
什么是大数据
无法在一定时间内用常规软件工具对其内容进行抓取、管 理和处理的大量而复杂的数据集合 —— 维基百科 数量大、获取速度快或形态多样的数据,难以用传统关系 型数据分析方法进行有效分析,或者需要大规模的水平扩 展才能高效处理 —— 美国NIST 体量大、快速和多样化的信息资产,需用高效率和创新型 的信息技术加以处理,以提高发现洞察、做出决策和优化 流程的能力 —— Gartner公司
•国防部
•XDATA计划
•能源部
•卫生福利
部
•生物传感2.0 •HPSS:是对
:旨在开发用 于分析大量的 半结构化和非 结构化数据的 计算技术和软 件工具。
磁盘和磁带系 统上PB级数据 进行管理的数 据管理软件。
:是第一个考 虑到区域和国 家协调的情况 下,通过互操 作的网络系统 对公众健康意 识的可行性分 析的系统。
• 是最底层的抽象?
•数据
•22
史上数据理论的重大突破
市场经济
复式记账法:商业、贸易、金融等的基础
• 复式记账法 物理 学 • • •
伽利略:实验科学 牛顿: 物理世界数学化 量子力学:从宏观到微观
计算机
图灵:让通用自动计算成为可能
通信
香农:信息论
不断量化的宇宙
量 •辐 射
•能
•信息
•电流电
•社会关
•2000 •2003
•2008
•2013
主要内容
• 大数据的“热” •20 • 大数据的“大”
• 大数据的“数”
• 大数据的颠覆性 • 大数据的隐私保护 • 大数据与大众生活
数据的内涵
•21 可被量化、分析和再使用的信息 • •知识 • 通常是测量获得的 • 可用图形图像可视化 •信息 • 模拟数据和数字数据
飞鸟派
要让机器翻译或 语音识别,就需 要先让机器理解 自然语言 反例:中国的英 语教学
新派
•从基于规则到对大
数据的统计 •数据比算法更重要
从因果到相关:Why—>Related • 哲学争论:因果关系存在吗? •31
–如果是,人的自由意志存在吗?
• 机器会告诉是什么,而不是为什么
–语义网络 –人工智能 –人类认知水平相关
• 大数据将所有人置于数字圆 形监狱的中央
大数据是一种新资源
• 你不可能再造Google ,Facebook, 腾讯阿里 •37 • 你在读书,书在读你
•农业社会 •工业时代
•信息时代
• 土地 • 人口 • 资本 • 技术,机器,能源
• 用户 • 数据
可被消费,但没法被耗尽 可被创造,而不会被销毁 ,除非丢失或遗忘 大数据消耗的是注意力 每“滴”数据的价值不同 叠加效应不是加法的,而 是指数的
6
大数据的产业热
•来源:Wikibon公司,2012年
•据Wikibon公司测算,2011年全球大数据产值已经达到51亿美元
。预计到2017年将达到534亿美元,年均增速达到58%,是同期IT 产业增速的7倍
•8
大数据的投融资热
以数据为中心的时代 •ICT产业发展周期