当前位置:文档之家› 浅谈统计学的发展脉络

浅谈统计学的发展脉络

推荐:
蓬 勃 发 展 时 期 (1950~)
现代数学手册· 随机数学卷
陈希孺、郑忠国主编 华中科技大学出版社( 2000)
7. 多元统计分析 8. 贝叶斯统计 9. 稳健统计 10. 蒙特卡罗法 11. 现代统计计算方法 12. 随机过程
1. 概率论 2. 数理统计 3. 试验设计 4. 抽样调查 5. 质量管理 6. 线性模型
推断性统计方法 最小二乘法 矩法 ...
(~1900)
统计学的发展脉络 萌 芽 时 期
统计思想上的重大进展: 数据是来自服从一定概率分布的总体。 统计学就是用数据去推断这个分布的未知方面。
(~1900)
正态分布( Gauss, 1809) Pearson分布族( K. Pearson, 1894)
若干值得注意的事项 关 于 变 量 选 择
这是普遍性问题,现以线性回归为例说明其 重要性和复杂性。 设
y
是因变量,
x1,...,x p 是自变量,
p
y i xi ,
i 1
(1)
E 0 其中 ( 1,..., p )' 未知, 是随机误差。

J 0 D( ) { j : 1 j p, j 0},

2
分布( F. Helmet, 1876)
统计学的发展脉络 学 科 形 成 时 期 (1900~1950)
主要概念、方法、定理及分支形成。 收集数据 抽样调查( A. L. Bowley, 1906) 试验设计( R. A. Fisher, 1935) 点估计 估计 分析数据 假设检验 统计判决 置信区间 显著性检验 控制两类错误的检验
* * * 当样本量较大时有很多 使得 (1 ,..., p )' 的一些
分量为0。因而用 建立的回归方程 实现了变量选择。
*
y * j xj
j 1
p
若干值得注意的事项 关 于 变 量 选 择
可以证明,只要 (例如, n
n 适当选择
n
* j
n 在相当广泛的条件下有下列性质:
下, || Yn X n ||2的最小值点 叫做
~
当 t 较小时,Lasso估计 的许多分量为0,所建立的 回归方程不含有这些分量为0所对应的自变量。
~
的Lasso估计。
Lasso估计有许多较好性质,但后来发现在许多情况下, 所选出的自变量缺乏相合性。
若干值得注意的事项 关 于 变 量 选 择
b. 适应的Lasso估计
1 ˆ ˆ ˆ w 设 ( 1,..., p ) 是 的最小二乘估计, j , ˆ |j | p 1 L( ) || Yn X n ||2 w j | j | ( 0) n j 1
使 L( ) 达到最小值的

*
叫做适应的Lasso估计。
1 ); sup E | i | (对某个 2
B.
若 an
1 X n ' X n M 正定( n n 2

≥1 i
) 。

a.相合性: P( J n
n

1
an 0(n )
J n 有下列性质:
J 0 ) 1(n ) ;
b.渐近有效性: n 的最小二乘估计 X ( J n ) ( n ) ( J n )与 J 0 已知时 n 的最小二乘估计 X n ( J 0 ) ( n ) ( J 0 ) 有渐近相等的 均方误差:
时,R. Nishi (Anal. Stat.( 1984), 758- 765)最先给出了证明。 本人近期扩展到一般情形。 GIC准则看来很好,但有大问题: 当
p 较大时要求出GIC的最小值点很困难,甚至不可能。
n
实际工作中常用逐步回归法,计算简便,但找出的 ~ 有何优良性?至今未研究清楚。 自变量足标集 J
若干值得注意的事项 关 于 变 量 选 a. 对于模型( 2) ,给定正数 t,在条件 p 择 | i | t
i 1
从1990年代以来出现了新的方法。最引人注意的是 Lasso方法和适应的Lasso估计。前者是R. Tibshirani ( JRSS, ser.B, 58( 1996), 267-288) 提出的, 后者是H. Zou( JASA, 101(2006), 1418-1429) 提出的。
可看成数学的一个分支, 但与数学其他众多分支有很大的不同。
统计学的性质与特点 特
中立性
不肯定因果关系

社会经济统计
生物医学统计 工业应用统计 ...
应 用
统 计 学 的 发 展 脉 络
Page 6
YOUR LOGO
统计学的发展脉络 萌 芽 时 期
描述性统计占主导地位
《关于死亡公报的自然和政治观察》(J· Graunt, 1662) 寿命表
要考察m个因素 F 对某个指标y的影响,因素 1 , F2 ,...,F m
Fj

s j 个水平要比较(s
j
2, j 1,...,m) ,
m j 1
所有可能的水平组合有 N
s j 种。
如何安排试验(即选取一部分水平组合做试验) 以回答下列问题: A. 哪个因素影响最大,哪个次之, 哪些因素的影响可以忽略?
B. N种水平组合中较优或最优的是哪些?
若干值得注意的事项 关 于 试 验 设 计
拉丁方设计 正交拉丁方设计 正交设计
日本利用正交设计提高产品质量,取得很大成绩。 我国以张里千( 1929-) 为代表在1970年代初最先认识到 不可把解决问题A与B混为一谈。
若以B为目标(工业试验常是这样),则在试验安排上 不必考虑因素间交互作用,用小的正交表多安排因素, 试验的次数少。
若干值得注意的事项 关 于 变 量 选 择
lim E || X n ( J n ) ( n ) ( J n ) n ||2
n
lim E || X n ( J 0 )
n
(n)
( J 0 ) n || (# J 0 )
2
2
2 { } N ( 0 , ) 当 i 独立同分布且为
J0
找出来?

( 2)
如何把
若干值得注意的事项 关 于 变 量 选 择
设有观测数据: x1 xi1, x2 xi 2 ,..., x p xip 时 即
y yi
yi xi ' i xi ' ( xi1 ,..., xip ), i 1,...,n,
y1 x1 ' 1 Yn ... , X n ... , ( n ) ... y x ' n n n


Yn X n ( n )
(3)
若干值得注意的事项 关 于 变 量 选 择
有了数据Yn , X n ,如何给出 J 0 和 n
EYn 的优良估计?

——利用GIC准则可找到渐近的优良估计。 设
J { j1,..., jk } {1,2,..., p}( ji j2 ... jk ),
13. 时间序列分析 14. 随机分析 15. 排队论 16. 库存论 17. 马尔可夫决策过程 18. 可靠性与生存分析 19. 决策分析
统计学的发展脉络 蓬 勃 发 展 时 期 (1950~)
突破性进展 美国著名统计学家P.Huber提出的三项:
稳健统计、自助法( Bootstrap)、生存分析
未得到公认。
韦博成从引用率的角度列出下表 (数据来自Google的学术搜索(2011年1月18日))
统计学的发展脉络 蓬 勃 发 展 时 期 (1950~)
表1 引用率最高的几个统计学方向 方向 生存分析 EM算法 生存分析 引用率( 次) 作者 35252 22724 20022 E.Kaplan &P.Meier(1958) A.Demster等 (1977) D.R.Cox( 1972) P.Mccullagh( 1983, 1989) B.Efron( 1979)
统计学的发展脉络 学 科 形 成 时 期
随机变量的统计 数据的类型 随机向量的统计(多元统计) 随机过程的统计(包括时间序列) 四位大家
(1900~1950)
K. Pearson( 1857~ 1936) R. A. Fisher( 1890~ 1962) J. Neyman( 1894~ 1981) A. Wald( 1902~ 1950)

0 ),适应的Lasso估计
*
相合性: J n
*
* { j : 0} 满足P( J n J0 ) 1
* || n ( ) || 依概率有界, 收敛速度快:
但仍有大问题:对给定的
n, n
的最优或较优选择是什么?
总之,变量选择问题相当复杂。
参考文献
[1]陈希孺 数理统计学简史 湖南教育出版社( 2002)
广义线性模型 16945 自助法 16321
统计学的发展脉络 蓬 勃 发 展 时 期 (1950~)
看来,贝叶斯统计的日益兴盛是一大特点。 表二 贝叶斯统计计算的引用率 方向 引用率(次 ) 作者 W.Hastings( 1970)
MCMC方法 15017
MCMC方法 10706
S.Geman(1984)
浅谈统计学的发展脉质与特点 定 《中国大百科全书》

统计学: 研究怎样地收集、整理和分析数据, 以对所考察的问题做出推断或预测 直至为采取一定的决策和行动提供依据和建议。 《不列颠百科全书》 统计学: “收集和分析数据的科学与艺术。”
相关主题