当前位置:文档之家› 应用统计学课件(书摘)

应用统计学课件(书摘)


第二部分 大数据时代的商业变革
第二部分 大数据时代的商业变革
CH04 数据化:一切皆可 “量化”
CH04 数据化:一切皆可 “量化” • 莫里的导航图,大数据的最早实践之一
CH04 数据化:一切皆可 “量化” • 数据,从最不可能的地方提取出来 • 故事:日本先进工业技术研究所的坐姿研 究与汽车防盗系统
CH03 更好:不是因果关系,而是相关关系 • 大数据,改变人类探索世界的方法
• 观点:就是因为不受限于传统的思维模式和特定领域里
隐含的固 因为不受限于传统的思维模式和特定领域里隐 含的固有偏见,大数据才能为我们提供如此多新的深刻洞 见。 • 观点:大数据时代将要释放出的巨大价值使得我们选择大 数据的理念和方法不再是一种权 大数据时代将要释放出 的巨大价值使得我们选择大数据的理念和方法不再是一种 权衡,而是通往未来的必然改变。
• 故事: Hadoop与VISA的13分钟(p63) • 观点:【大数据洞察】大数据要求我们有所改变, 我们必须能够接受混乱和不确定性。精确性似乎 一直是我们生活的支撑,就像我们常说的“钉是 钉,铆是铆”。但认为每个问题只有一个答案的 想法是站不住脚的,不管我们承不承认。一旦我 们承认了这个事实甚至拥护这个事实的话,我们 离真相就又近了一步。
• 故事: UPS与汽车修理预测(p79)
• 观点:当收集、存储和分析数据的成本比较高的时候,应 该适当地丢弃一些数据。
CH03 更好:不是因果关系,而是相关关系 • “是什么”,而不是 “为什么”
• 观点:【大数据先锋】幸福的非线性关系 • 多年来,经济学家和政治家一直错误地认为收入水平和幸 福感是成正比的。我们从数据图表上可以看到,虽然统计 工具呈现的是一种线性关系,但事实上,它们之间存在一 种更复杂的动态关系:对于收入水平在1万美元以下的人 来说,一旦收入增加,幸福感会随之提升;但对于收入水 平在1万美元以上的人来说,幸福感并不会随着收入水平 提高而提升。如果能发现这层关系,我们看到的就应该是 一条曲线,而不是统计工具分析出来的直线。
• 大数据,开启重大的时代转型
• 故事:天文学,信息爆炸的起源(p10) • 小知识:KB->MB->GB->TB->PB->EB-> ZB->YB->BB->
引言 一场生活、工作与思维的大变革
• 预测,大数据的核心
• 观点:在不久的将来,世界许多现在单纯 依靠人类判断力的领域都会被计算机系统 所改变甚至取代。
引言 一场生活、工作与思维的大变革
• 大数据,大挑战 • 三个转变: • 第一个转变就是,在大数据时代,我们可 以分析更多的数据,有时候甚至可以处理 和 第一个转变就是,在大数据时代,我们 可以分析更多的数据,有时候甚至可以处 理和某个特别现象相关的所有数据,而不 再依赖于随机采样。这部分内容将在第1章 阐述。
CH01 更多:不是随机样本,而是全体数据 • 小数据时代的随机采样,最少的数据获得 最多的信息 • 故事:大数据与乔布斯的癌症治疗(p36) • 观点:随机采样取得了巨大的成功,成为 现代社会、现代测量领域的主心骨。但这 只是一条捷径,是在不可收集和分析全部 数据的情况下的选择,它本身存在许多固 有的缺陷。
• 【大数据先锋】
• IBM,电动汽车动力与电力供应系统优化预测
• • • • • •
Hitwise,通过流量判断消费者喜好 亚马逊,让数据的价值再大一点 移动运营商与数据再利用 谷歌街景与GPS采集 微软与谷歌的拼写检查 谷歌,从大的“噪音”数据中受益
第二部分 大数据时代的商业变革
CH06 角色定位:数据、技术与思 维的三足鼎立
第一部分 大数据时代的思维变革
CH03 更好:不是因果关系,而是 相关关系
CH03 更好:不是因果关系,而是相关关系 • 林登与亚马逊推荐系统
• 观点:知道人们为什么对这些信息感兴趣可能是 有用的,但这个问题目前并不是很重要。但是, 知道 知道“是什么 是什么”可以创造点击率,这 种洞察力足以重塑很多行业,不仅仅只是电子商 可以创造点击率,这种洞察力足以重塑很多行业, 不仅仅只是电子商务。
引言 一场生活、工作与思维的大变革
• 大数据,变革思维
• 文摘:【大数据洞察】事实上,一旦思维 转变过来,数据就能被巧妙地用来激发新 产品和新型服务。 • 文摘:大数据是人们获得新的认知、创造 新的价值的源泉;大数据还是改变市场、 组织机构,以及政府与公民关系的方法。
引言 一场生活、工作与思维的大变革
CH03 更好:不是因果关系,而是相关关系 • 关联物,预测的关键
• 故事:沃尔玛,请把蛋挞与飓风用品摆在一起 (p73)
• 观点:【大数据洞察】相关关系的核心是量化两个数据值 之间的数理关系。相关关系强是指当一个数据值增加时, 另一个数据值很有可能也会随之增加。我们已经看到过这 种很强的相关关系,比如谷歌流感趋势:在一个特定的地 理位置,越多的人通过谷歌搜索特定的词条,该地区就有 更多的人患了流感。相反,相关关系弱就意味着当一个数 据值增加时,另一个数据值几乎不会发生变化。例如,我 们可以寻找关于个人的鞋码和幸福的相关关系,但会发现 它们几乎扯不上什么关系。
CH03 更好:不是因果关系,而是相关关系 • 关联物,预测的关键
• 故事:沃尔玛,请把蛋挞与飓风用品摆在一起 (p73)
• 观点:【大数据洞察】相关关系的核心是量化两个数据值 之间的数理关系。相关关系强是指当一个数据值增加时, 另一个数据值很有可能也会随之增加。我们已经看到过这 种很强的相关关系,比如谷歌流感趋势:在一个特定的地 理位置,越多的人通过谷歌搜索特定的词条,该地区就有 更多的人患了流感。相反,相关关系弱就意味着当一个数 据值增加时,另一个数据值几乎不会发生变化。例如,我 们可以寻找关于个人的鞋码和幸福的相关关系,但会发现 它们几乎扯不上什么关系。
CH04 数据化:一切皆可 “量化” • 数据化,不是数字化 • 量化一切,数据化的核心 • 观点:数字化带来了数据化,但是数 数字 化带来了数据化,但是数字化无法取代数 据化。
CH04 数据化:一切皆可 “量化” • 当文字变成数据 • 当方位变成数据 • 当沟通变成数据
CH04 数据化:一切皆可 “量化” • 世间万物的数据化 • 观点:一旦世界被数据化,就只有你想不 到,而没有信息做不到的事情了。莫里通 过艰辛的人工分析才揭示了隐藏在数据中 的价值,而今天,拥有了数据分析的工具 (统计学和算法)以及必需的设备(信息 处理器和存储器),我们就可以在更多领 域、更快、更大规模地进行数据处理了。 在大数据时代,惊喜无处不在!
CH03 更好:不是因果关系,而是相关关系 • 关联物,预测的关键
• 故事:美国折扣零售商塔吉特与怀孕预测(p77)
• 观点:通过给我们找到一个现象的良好的关联物,相关关 系可以帮助我们捕捉现在和预测未 通过给我们找到一个 现象的良好的关联物,相关关系可以帮助我们捕捉现在和 预测未来。
CH03 更好:不是因果关系,而是相关关系 • 关联物,预测的关键
引言 一场生活、工作与思维的大变革
• 大数据,大挑战 • 三个转变: • 第二个改变就是,研究数据如此之多,以 至于我们不再热衷于追求精确度。 第二个 改变就是,研究数据如此之多,以至于我 们不再热衷于追求精确度。这部分内容将 在第2章阐述。
引言 一场生活、工作与思维的大变革
• 大数据,大挑战 • 三个转变: • 第三个转变因前两个转变而促成,即我们 不再热衷于寻找因果关系。 第三个转变因 前两个转变而促成,即我们不再热衷于寻 找因果关系。这部分内容将在第3章阐述。
CH02 更杂:不是精确性,而是混杂性 • 混杂性,不是竭力避免,而是标准途径
• 观点:要想获 要想获得大规模数据带来的好处, 混乱应该是一种标准途径,而不应该是竭力避免 的。 • 观点:传统的关系数据库是为数据稀缺的时代设 计的,所以能够也需要仔细策划。
CH02 更杂:不是精确性,而是混杂性 • 新的数据库设计的诞生
第一部分 大数据时代的思维变革
第一部分 大数据时代的思维变革 CH01 更多:不是随机样本,而 是全体数据
CH01 更多:不是随机样本,而是全体数据 • 小数据时代的随机采样,最少的数据获得 最多的信息 • 故事:穿孔卡片与美国人口普查(p32) • 观点:统计学家们证明:采样分析的精确 性随着采样随机性的增加而大幅提高,但 与样本数量 采样分析的精确性随着采样随 机性的增加而大幅提高,但与样本数量的 增加关系不大。
引言 一场生活、工作与思维的大变革
引言 一场生活、工作与思维的大变革
• 大数据,变革公共卫生
• 故事:谷歌搜索与流感预测(p2) • 文摘:以一种前所未有的方式,通过对海 量数据进行分析,获得有巨大价值的产品 和服务,或深刻的洞见
引言 一场生活、工作与思维的大变革
• 大数据,变革商业
• 故事:Farecast与飞机票价预测系统(p4) • 文摘:【大数据的力量】到2012年为止, 预测准确度高达75%,平均每张机票可节 省50美元
CH03 更好:不是因果关系,而是相关关系 • 改变,从操作方式开始 改变 • 故事:纽约大型沙井盖爆炸预测
• 观点:【大数据洞察】我们需要改变我们的操作方式,使 用我们能收集到的所有数据,而不仅仅是使用样本。我 • 们不能再把精确性当成重心,我们需要接受混乱和错误的 存在。另外,我们应该侧重于分析相关关系,而不再寻求 每个预测背后的原因。
CH02 更杂:不是精确性,而是混杂性 • 大数据的简单算法比小数据的复杂算法更 有效 • 故事:无所不包的谷歌翻译系统(p53) • 观点:数据多比少好,更多数据比算法系 统更智能还要重要。
CH02 更杂:不是精确性,而是混杂性 • 纷繁的数据越多越好 • 故事:麻省理工与通货紧缩预测软件(p57)
• 观点:【大数据洞察】如今,我们已经生活在信 息时代。我们掌握的数据库越来越全面,它不再 只包括我们手头现象的一点点可怜的数据,而是 包括了与这些现象相关的大量甚至全部数据。我 们不再需要那么担心某个数据点对整套分析的不 利影响。我们要做的就是要接受这些纷繁的数据 并从中受益,而不是以高昂的代价消除所有的不 确定性。
相关主题