当前位置:文档之家› chapter2非参数统计

chapter2非参数统计


证明: 无论总体是连续分布还 是离散分布,顺序统计 量x1 ,..., xn 总是样本分布的充分统 计量,又U ( x1 ,..., xn )是g ( )的无偏 估计, 从而g ( )的UMVUE为如下条件期望 g ( ) E (U ( x1 ,..., xn ) | ( x1 ,..., xn )) 由于U统计量是样本的对称函 数,故无论如何改变样 本中元素 的顺序都不改变 U统计量的值,所以 U ( x1 ,..., xn )是 ( x1 ,..., xn )的函数,根据条件期望 的性质,上述条件期望 等于 U ( x1 ,..., xn ).
生存函数的性质: (1) S(0)=1, S(+ )=0; (2) S(t)是递减函数; (3) 用经验分布函数估计生存函数
表示生存时间超过 t 的数据所占的频率. 危险函数: 表示个体生存时间超过给定时间的瞬时死亡率, 是在某一时刻(附近),对死亡发生的可能进 行度量的量.
危险函数的表达式:

置信区间和假设检验的关系
就单变量位置参数而言,置信区间和双边假设检验有 密切的联系. (1) 检验显著水平 a 和置信水平 1-a 是两个对立事件的概 率 (2) 若水平为 a的拒绝域为 W,则其对立事件是置信水平 为 1-a 的置信区间; (3) 若 H0在1-a的置信区间内则接受 H0,否则拒绝 H0. 置信区间和假设检验的这种关系成为对偶关系. 例:正态总体在方差已知情况下对均值的U检验.
(4)
n y ) ( y )(n ) n ( )
无偏估计的有效性
(5)一致最小方差无偏估计 (UMVUE ) 设参数分布族F {p(x; ), }, g( )是的一个可估参数,
*
的无偏估计类 g {g( ) | E(g( )) g( )}. g ( ) 也是一个
• 20世纪60年代,Hodges 和Lehmann 从秩检验统计量出 发,导出了若干估计量和置信区间;
• 20世纪70-80年代,非参数统计借助于计算机获得了更 稳健的估计和预测,促进了促进了非参数统计在应用领域 的发展.
•20世纪90年代后,有关非参数统计的应用和研究主要集 中在非参数回归和非参数密度领域.
第二章
基本概念
§2.1 非参数统计概念与产生 1.非参数统计的概念
非参数方法:不假定总体分布的具体形式,尽量从数据或 样本本身获得所需要的信息,通过估计而获得分布的结构, 并逐步建立对事物的数学描述和统计模型的方法. 参数方法:样本数据被视为从分布族的某个参数族抽取出 来的总体的代表,未知的仅是总体分布具体的参数值,这 样推断问题就转换为分布族的若干个未知参数的估计问题, 用样本对这些参数作出估计或进行假设检验,从而获得数 据背后的分布.

定理2.4证明 (1) 无偏性的证明可以利用U统计量的定义直接获得。
(2) 方差的证明
设排列 (i1 ,..., ik ),(j 1 ,..., j k )有i个共同的元素,则选取 具有
i k i 这种特征的排列对的方 法为:C nk C k C n k . 因为
从n个样本中选取 (i1 ,..., ik )有C nk中方法,从中选取具有 i个共
§2.2 假设检验回顾
一般的参数假设检验 H 0: 0; H 1: 0 .
显著性检验的基本思想: 为了对总体的分布类型或 对总体中未知参数的推断,首先提出假设H0,然后在 H0为真的条件下,通过选取恰当的统计量来构造一个小 概率事件,若在一次试验中小概率事件发生,则拒绝H0, 否则则接受H0. 假设检验问题需要探讨的问题: (1)如何选择零假设和备择假设
i 同元素的子集的方法有 Ck ,最后选取排列 (j 1 ,..., j k ) 的k - i个元
素方法数为C nkki .
可以证明上述方差序列是非减序列

证明可以利用定理2.6
例2.13
两样本的U检验统计量和分布
定义
2.3证明:由
U1.U 2 2 ....U n n
F(X (1) ) F2 (X (2) ) Fn 1 (X (n 1) ) n . 2 ... n 1 .F (X (n ) ) F(X (2) ) F (X (3) ) F (X (n ) ) F(X (1) )F(X (2) )...F(X (n ) ) F(X1 )F(X 2 )...F(X n )
n p (2)相合性: n (n );
(3)渐近正态性: 对于的估计序列 n , 若存在一个趋于 0的正数列 n ( ), 使得 规范化变量y

n 的分布函数收敛于标准 正态分布,即 n ( )
Fn ( y ) P (
证明利用伯努利大数定律很容易得到证明
伯努利大数定律:
证明过程比较复杂
2.3.2 生存函数
生存分析是研究生存现象和响应时间数据及其统计规律的一 门学科。该学科在生物学、医学、保险学、可靠性工程学、 人口学、社会学、经济学等方面都有重要应用。 基本方法: (1)参数法:指数分布法、Weibull分布法 (2)非参数法:如 非参数法:如 乘积极限法 、寿命表法、 logrank 检验检验、 Gehan比分检验 (3) 半参数法:如 半参数法:如 Cox回归模型 生存函数定义:设T为生存时间,是一个随机变量,其分布函 数为F(t),生存函数定义为 S(t)=P(T>=t)=1-F(t).

例1.11 例1.12
U统计量的数学特征
为了证明这个定理,我们引入下面的引理。
第一步定义一个与 h相关的序列。对 c 0,1,2, ...,k , 令h c ( x1 ,..., xc ) E (h( x1 ,..., xc , X c 1 ,..., X k )) 其中X c 1 ,..., X k 是来自分布 F的独立同分布变量。 h0 , hk h( x1 ,..., xk ),并且这些函数都以 为期望。 U统计量的方差依赖与 h c的方差。对 c 0,1,2, ...,k , 令
非参数统计的特点:
• 非参数统计方法对总体的额家丁相对较少,效率高,结果 一般有较好的稳定性; • 非参数统计可以处理所有类型的数据,有广泛的适用性; • 非参数统计思想容易理解,计算容易。 非参数统计的历史: •20世纪40-50年代,(1) Wilcoxon 两样本秩和检验,1947 年Mann和Whitney将结果推广到两组样本量不等的情况; (2)Pitman 提出了相对于非参数方法 相对于参数方法的相对效率的问题。
1.单一样本的U统计量和主要特征
(1) U统计量
对称核
构造对称核
这里构造后的核函数 (1)对称性; (2)无偏性 U统计量定义
U统计量的性质
(1) 无偏性 (2) 是样本的对称函数 (3) 一致最小方差无偏估计 定理: 设F {所有的连续分布 }(或F {所有的离散分布 }). 又设
g( )是F上的一个可估函数, h(X 1 ,..., X k ) 是g( ) 的一个核, 假设U (x 1 ,.., x n )是h对应的U统计量,则U是g( ) 的UMVUE.
将样本显示的特点作为对总体的猜想,并优先选作 备择假设,零假设是相对于备择假设而出现的.
(2) 检验的 p 值和显著性水平的作用 p 值:在一个假设检验中拒绝零假设的最小显著水平. 判断法则:
(3) 两类错误 第一类错误(弃真错误): H0为真,拒绝H0 一般由检验显著性水平控制 第二类错误(取伪错误): H0为假,接受H0 两类错误相互制衡,不能同时都减到很小. 检验的势
无偏估计,对于一切 g( ) g ,都有 var(g ( )) var( g( )) 则称 g ( )是的一致最小方差无偏估 计。
* *
一致最小方差无偏估计的求解: (1) 有充分统计量,无偏估计 (2)求条件期望E(充分统计量|无偏估计)
U统计量在非参数分布族一致最小方差无偏估计的求解中 也有非常重要的作用。
§2.3 经验分布和分布探索
2.3.1 经验分布
分布函数:设 x 为定义在样本空间上且取值于实数域的随 机变量,其分布函数定义为 F(x)=P(X<x) (1) 右连续 或 F(x)=P(X<=x) (2)左连续. 经验分布函数: 定义:当有独立随机样本X1,X2,…,Xn,对任意的x,定义
① 从定义可以看出,在 x 处的 函数值是 n 个观察值中小 于或等于 x 的频率. ② 给定 x, 是一个随机变量,n 服从二项分布 B(n,F(x)).
危险函数还可以表示为:
§2.4
渐进相对效率:
检验的相对效率
计算渐进效率应满足的条件如下定理:

§2.5 分位数和非参数估计 1.顺序统计量
顺序统计量中各分量既不独立,也不同分布。 X(1)=min(X1,X2,…,Xn)称为该样本的最小顺序统计量, X(n)=max(X1,X2,…,Xn)称为该样本的最大顺序统计量。 顺序统计量的分布 (1)
d
又由F ( X i ) 是来自U(0,1)上的iid样本,则有
F ( X1 ).F ( X 2 )...F ( X n ) Wi,Wi U (0,1), iid 样本
i 1 d n
2 n 所以 U1,U2 ,...,Un
为来自(0, 1)上均匀分布的iid样本。
引理证明:
如果两个排列 (i1, ...,ik ), ( j1 ,..., jk )有c个共同的整数,那么 cov(h( xi1 ,..., xik ), h( x j1 ,..., x jk )) E[(h( x1, ..., xc , xc 1 ,..., xk ) )(h( x1, ..., xc , x c 1 ,..., x k ) )] 这里xc 1 ,..., xk , x c 1 ,..., x k 在x1, ..., xc 给定的条件下是独立同 分布的, 所以 上式 E[(h( x1, ..., xc ) )(h( x1, ..., xc ) )] c
相关主题