当前位置:
文档之家› 《管理统计学》课件—13大数据中的管理统计学
《管理统计学》课件—13大数据中的管理统计学
本教材认为大数据主要具有以下七大特征: 大量性(Volume):数据量越大意味着数据的价值和潜在的信息越多; 多样性(Variety):数据类型的多样性; 高速性(Velocity):指获得数据的速度很快; 真实性(Veracity):数据的可靠度与质量很高; 价值性(Value):运用大数据进行信息挖掘与决策,以低成本创造更高的价值; 复杂性(Complexity):数据量巨大,来源渠道多; 动态性(Dynamic):即可变性。
第十三章 大数据中的管理统计学
案例导入
某企业的总经理每个月都会收到有交易往来的IT供应商的宣传(PR)杂志, 但收件人的头衔不是“总经理”,而是他曾经兼任公司CIO时的头衔“常务董事”。虽 然将头衔搞错,但还是都能收到,因此并没有太在意。但当这家IT供应商的总经理 到公司进行礼节性拜访时,该总经理就提出了希望改一下头衔的想法。
这个大数据例子给我们带来的有益思考:大数据具有哪些特征?对传统统计 学产生哪些影响呢?用哪些方法可以进行有效的统计决策呢?这是本章内容要解 决的问题。
学习目标
本章要求掌握在大数据时代背景下,大数据的定义、管理统计学的发展变革趋势 及其影响,尤其是要了解运用管理统计学在非结构化大数据中如何进行信息挖掘 与统计决策。
而这家IT供应商的新的卖点是大数据,公司的总经理当场表示回去之后马上修 改。起初以为这点事情对于运营大数据业务的IT供应商而言不过是举手之劳,一定 会进行纠正。但等到下一个月他收到PR杂志时,发现收件人的头衔仍然是“常务董 事”。这位总经理通过两本PR杂志感到仿佛看到了大数据的现状,因此他非常失望 地说:“归根到底IT供应商并没有维护顾客数据库”。
大数据时代使得相关分析需要达到的要求更高,针对传统统计学的相关分析法 存在的缺陷,相关分析的结果只与变量之间联动性的紧密程度有关,而不受变 量间相关形式的影响。但针对大数据的相关分析不同于传统的相关分析,传统 的相关分析基本上都是线性相关分析,而大数据研究的相关关系分析不仅是线 性相关,更多的是非线性相关以及不明确函数形式的线性相关等。
13.1 大数据概述
13.1.1 大数据的定义
大数据(big data)至今还没有统一的定义,从一般意义上来说,是指无法在合 理时间内用传统IT技术和软硬件工具对其进行收集、处理和分析的数据集合。
Gartner研究机构认为大数据是指无法在一定时间内用常规软件工具进行捕捉、 管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现 力和流程优化能力来适应海量、高增长率和多样化的信息资产。
维克托·迈尔·舍恩伯格所著的《大数据时代》一书认为,“通过对海量数据进行 分析,获得有巨大价值的产品和服务,或深刻的洞见”,这正成为“当今社会 所独有的一种新型能力”。
麦肯锡全球研究所认为大数据是一种规模大到在获取、存储、管理、分析方面 大大超出了传统数据库软件工具能力范围的数据集合。
13.1 大数据概述
13.2 大数据时代对管理统计学的影响
13.2.2 数据挖掘方法的兴起
在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、 有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用 的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学 习,模式学习,统计学等。通过对大数据高度自动化分析,做出归纳推理,从 中挖掘出潜在的模式,可以帮助政府、企业、商家、用户调整市场政策等做出 正确的决策。
回归分析的目的也是用样本来估计总体,然后进行预测分析。然而大数据中不 存在所谓的样本,比如回归分析中的哈密尔顿问题,用父亲的身高来预测儿子 的身高,但大数据包含了所有父亲和儿子的身高数据,只要计算给定的父亲身 高下所有儿子的平均身高就可预测其儿子身高了。模型不再重要,当年统计学 最得意的影响
13.2.4 从结构化数据决策到非结构化数据决 策
统计决策是利用数据信息对可选方案进行选择的行为。传统的统计决策方法更 多的是结构化数据决策,常用的方法有贝叶斯决策、决策树等,决策方法具有 规律可循与模型可依。决策的结果一般是根据规律与模型推导出来的决策结果。 而进入大数据时代,大数据往往都是非结构化数据,故人们已经从结构化数据 决策向非结构化数据决策发展了。大数据决策就是一种非结构化数据决策,是 指那些面临复杂的大数据,其决策过程、决策方法和大数据结构没有固定的规 律可以遵循,没有固定的决策规则和模型可依,仅凭决策者的主观行为(学识、 经验、直觉、判断力、洞察力、个人偏好、决策风格和大数据相关关系匹配等) 对统计结果进行判断。决策结果往往是决策者根据经验目标和大数据相关分析 挖掘情况临时决定的。
13.1.2 大数据的特征
维克托·迈尔-舍恩伯格与肯尼斯·库克耶认为大数据具有海量的数据规模、快速 的数据流转、多样的数据类型和价值密度低等四大特征。
IBM指出大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多 样)、Value(价值)、Veracity(真实性)。
挖掘方法的兴起、从注重因果分析到相关分析、非结构化数据的统计决策方法 等。
13.2 大数据时代对管理统计学的影响
13.2.1 推断统计与回归分析法的淘 汰
统计学刚建立的初衷就是从小样本去推断总体,样本越多,推断结果相对就越 准确。而在大数据时代有个论点:样本=总体,就是说在互联网时代,由于数据 产生的便捷性和获取成本低,应该以考虑总体的大样本,而不是传统统计学的 小样本。因为大数据时代没有了样本概念,都是对全总体进行分析,故用样本 统计量来推断总体参数的推断统计学将被淘汰。
13.2 大数据时代对管理统计学的影响
数据按照存储的规律性分为结构化数据与非结构化数据。 结构化数据是指一种存储很规律的行数据,存储在数据库里可以用二维表结构
来逻辑表达实现的数据; 非结构化数据是指不方便用数据库二维逻辑表来表现的数据,包括所有格式的
办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等。 大数据时代对管理统计学产生的影响:推断统计与回归分析法的淘汰、大数据
大数据的挖掘方法有很多种,常用的方法包括:分类分析、聚类分析、相关分 析、关联规则、神经网络、Web 数据挖掘等。
13.2 大数据时代对管理统计学的影响
13.2.3 从注重因果分析到相关分析
随着大数据时代的到来,在经济管理中,对于数据的分析发生了很大变化,从 原来的注重因果分析转变到如今看重相关分析。人们不再过多地关注“为什 么”,而更多想知道“是什么”。这导致人们生活在大数据时代,思维方式发 生了很大变化。