当前位置:
文档之家› 统计与矩阵分析——统计是什么.ppt
统计与矩阵分析——统计是什么.ppt
大数据的挑战
▪ 大数据:规模大、变化快、种类杂
社交类应用
•Facebook:用户规模超过10亿,
每天新增数据量10TB
•四大微博(新浪,腾讯、搜狐和网易): 用户8亿多,每天新增微博超过2亿条, 图片近1000PB •Google:每天新处理数据总量 已超过20PB
统计与矩阵分析 ——统计是什么
统计方法
统计是什么?
在终极的分析中,一切知识都是历史; 在抽象的意义下,一切科学都是数学; 在理性的基础上,所有判断都是统计学。
C. R.
ቤተ መጻሕፍቲ ባይዱ
统计方法
统计的定义
▪ 一句话,
▪ 统计学()是用以收集数据,分析数据和由数据
得出结论的一组概念、原则和方法。
▪ 统计学是收集和分析数据的科学和艺术。
▪
——不列颠百科全
书
统计方法
统计思想的重要性
统计不止是一种方法或技术,还含有世界观的成分,是看 待世界上万千事物的一种方法,我们常讲某事从统计观点 看如何如何,就是这个意思。统计思想是一个发展过程。 因此统计思想的养成,不单需要学习具体的知识还要能从 发展的眼光,把这些知识连缀成一个有机的清晰的图景, 获得一种历史的厚重感。
——陈希孺
统计方法
统计思想:类似于物理学,统计在否定中发展 牛顿力学:机械宇宙观,决定论
统计方法
统计思想的发展
量子物理:本质上的不确定性
统计方法
统计学革命对二十世纪科学的影响
统计学可以应用于几乎所有的领域: 精算,农业,动物学,人类学,考古学,审计学,晶体学, 人口统计学,牙医学,生态学,经济计量学,教育学,选 举预测和策划,工程,流行病学,金融,水产渔业研究, 遗传学,地理学,地质学,历史研究,人类遗传学,水文 学,工业,法律,语言学,文学,劳动力计划,管理科学, 市场营销学,医学诊断,气象学,军事科学,核材料安全 管理,眼科学,制药学,物理学,政治学,心理学,心理
统计方法
统计结果可信吗?
关于美国选举的两个例子(1)
➢谁会在1936选举中获胜 还是 .(罗斯福)? ➢ (文摘)送出一千万份问卷(返回二百四十万份)后,预测
会赢. ➢而(盖洛普)只问了50000人说 (罗斯福)会赢. ➢最后罗斯福和盖洛普都赢了.文摘倒闭了.
统计方法
§1.1 统计是什么?
统计方法
预测:源自图灵奖得主Jim Gray和IDC报告
•数据每18月翻一番,过去数据是确定的,
统计方法
大数据的挑战
:麦肯锡、、达沃斯、、联合国分别发布白皮书
2008
2012.1
2012.3
2012.7
2011.3
美国:投资2亿美元大数据,支持(国防部)、 (国土安全部)、 (能源 部)、、、) 、 、 、 、 、 、 、 、、等15个部开展相应领域的大数据 项目研究
▪ 统计只能够说可能,而且往往提供某事可能发生的概 率。
▪ 统计只说可能性是实际世界的真实体现。真实世界充 满了不确定性。
统计方法
大数据的挑战
大数据时代统计的意义
数据(信息)
公民权利
❖人民知道的越多,政府官员才可能更加负责人
❖
——奥巴马
❖
❖信息之于民主,就如货币之于经济
❖
——托马斯.杰斐逊
统计方法
统计方法
相关还是因果?
关于因果关系 在可控制的试验中,较容易找到因果关系;比如治疗
方式和疗效的关系等 但是,一般来说,变量之间有关系这个事实并不意味
着一定存在明确的因果关系。 比如利用公鸡打鸣来预报太阳升起;虽然公鸡打鸣绝
对不是日出的原因(虽然打鸣发生在先)
统计方法
相关还是因果?
吸烟致癌!!??? 不,这未必是真的!
总结
统计方法
➢ 学习统计的要点是把握统计思想,灵活运用统计 思想。
➢ 数据分析,通常是从不同角度揭示相关。 ➢ 相关与因果的关系?
➢ 线性与非线性,参数与非参数。
统计方法
参考书
多元统计:Richard A Johnson, Dean W Wichern: Applied Multivariate Statistical Analysis
统计方法
相关还是因果?
▪ 例1.1.广告投入和销售之间的关系。下表(数据) 显示了某企业的广告投入和销售额之间的关系(万 元)。
广告 1.0 3.2 3.2 5.5 5.9 7.1 7.3 9.2 10.8 12.1 销售 9.4 31.8 33.2 52.4 53.5 56.0 56.9 59.2 60.1 63.5
销
统计方法
70 60 50 40 30 20
横坐标代表广告投入,而纵坐 标代表销售收入。 看得出有何种关系吗?
统计方法
相关还是因果?
▪ 能否从该数据回答下面问题: ▪ 这两个变量是否有关系? ▪ 如果有,它们的关系是否显著? ▪ 这些关系是什么关系,能否用数学模型来描述? ▪ 这个关系是否带有普遍性? ▪ 这个关系是不是因果关系?
统计结果可信吗?
关于美国选举的两个例子(2)
➢谁会在1948选举中获胜 ? 还是 (杜鲁门)? ➢, (盖洛普), 所有都预测 会赢(每个机构用了50000个问
卷). ➢最后(包括盖洛普)他们都输了, 而杜鲁门赢了.
统计方法
§1.1 统计是什么?
统计方法
§1.1 统计是什么?
统计的特性
▪ 统计的一个重要但又往往不易为人所理解的特点是统 计从来不绝对地说“是”或者“不是”。
统计方法
统计与矩阵分析
统计需要的知识
▪ 数学的几乎所有内容(不一定事先知道需要什么) ▪ 但每一个统计问题或者分支可能只用数学的很小一部分 ▪ 用计算机做统计计算 ▪ 其他(对象)领域的知识(如生物医学、经济、行为、社
会、金融等等)
统计方法
统计与矩阵分析
大数据分析 ?= 并行处理 线性方法 非线性方法 参数模型 非参数模型