当前位置:文档之家› chapter2非参数统计详解

chapter2非参数统计详解


4.分位数的图形表示
2) Q-Q图
§2.6 秩检验统计量 1. 无结点数据的秩及性质
秩统计量 (1) 定义
(2) 分布
(3) 边缘分布
推论2.3
线性符号秩统计量
2.有结数据的秩

秩统计量
结统计量
§2.7 U统计量
参数估计回顾:

设n 是的一个估计,评价一个估计优劣的标准有:

y)

( y)(n

)
(4) 无偏估计的有效性
例:正态总体在方差已知情况下对均值的U检验.
§2.3 经验分布和分布探索
2.3.1 经验分布
分布函数:设 x 为定义在样本空间上且取值于实数域的随 机变量,其分布函数定义为
F(x)=P(X<x) (1) 右连续 或 F(x)=P(X<=x) (2)左连续. 经验分布函数:
定义:当有独立随机样本X1,X2,…,Xn,对任意的x,定义
生存函数的性质: (1) S(0)=1, S(+ )=0; (2) S(t)是递减函数; (3) 用经验分布函数估计生存函数
表示生存时间超过 t 的数据所占的频率. 危险函数:
表示个体生存时间超过给定时间的瞬时死亡率, 是在某一时刻(附近),对死亡发生的可能进 行度量的量.
危险函数的表达式: 危险函数还可以表示为:
① 从定义可以看出,在 x 处的 函数值是 n 个观察值中小 于或等于 x 的频率.
② 给定 x, 是一个随机变量,n 服从二项分布 B(n,F(x)).
证明利用伯努利大数定律很容易得到证明 伯努利大数定律:
证明过程比较复杂
2.3.2 生存函数
生存分析是研究生存现象和响应时间数据及其统计规律的一 门学科。该学科在生物学、医学、保险学、可靠性工程学、 人口学、社会学、经济学等方面都有重要应用。
证明
(2)
证明 最大与最小次顺统计量的分布:在上式中分别取r=n和r=1. (3)
这里 s>r。 容量为n的样本最大顺序统计量x(n)与样本最小顺序统计 量x(1)之差称为样本极差,简称极差,常用R=x(n)-x(1)表示。
2.分位数 (1) 样本分位数
(2) 分布分位数
例如标准正态分布
3.分位数的估计
非参数统计的特点:
• 非参数统计方法对总体的额家丁相对较少,效率高,结果 一般有较好的稳定性;
• 非参数统计可以处理所有类型的数据,有广泛的适用性; • 非参数统计思想容易理解,计算容易。
非参数统计的历史:
•20世纪40-50年代,(1) Wilcoxon 两样本秩和检验,1947 年Mann和Whitney将结果推广到两组样本量不等的情况;
§2.4 检验的相对效率
渐进相对效率:
计算渐进效率应满足的条件如下定理:

§2.5 分位数和非参数估计
1.顺序统计量
顺序统计量中各分量既不独立,也不同分布。 X(1)=min(X1,X2,…,Xn)称为该样本的最小顺序统计量, X(n)=max(X1,X2,…,Xn)称为该样本的最大顺序统计量。 顺序统计量的分布 (1)
两类错误相互制衡,不能同时都减到很小. 检验的势
• 置信区间和假设检验的关系
就单变量位置参数而言,置信区间和双边假设检验有 密切的联系. (1) 检验显著水平 a 和置信水平 1-a 是两个对立事件的概 率 (2) 若水平为 a的拒绝域为 W,则其对立事件是置信水平 为 1-a 的置信区间; (3) 若 H0在1-a的置信区间内则接受 H0,否则拒绝 H0. 置信区间和假设检验的这种关系成为对偶关系.
基本方法:
(1)参数法:指数分布法、Weibull分布法
(2)非参数法:如 非参数法:如 乘积极限法 、寿命表法、 logrank 检验检验、 Gehan比分检验
(3) 半参数法:如 半参数法:如 Cox回归模型
生存函数定义:设T为生存时间,是一个随机变量,其分布函 数为F(t),生存函数定义为
S(t)=P(T>=t)=1-F(t).
(1)如何选择零假设和备择假设
将样本显示的特点作为对总体的猜想,并优先选作 备择假设,零假设是相对于备择假设而出现的.
(2) 检验的 p 值和显著性水平的作用 p 值:在一个假设检验中拒绝零假设的最小显著水平.
判断法则:
(3) 两类错误 第一类错误(弃真错误): H0为真,拒绝H0 一般由检验显著性水平控制 第二类错误(取伪错误): H0为假,接受H0
(2)Pitman 提出了相对于非参数方法 相对于参数方法的相对效率的问题。
• 20世纪60年代,Hodges 和Lehmann 从秩检验统计量出 发,导出了若干估计量和置信区间;
• 20世纪70-80年代,非参数统计借助于计算机获得了更 稳健的估计和预测,促进了促进了非参数统计在应用领域 的发展.

(1)无偏性;(渐进无
偏性lim n

n


(2)相合性:n p (n );
(3)渐近正态性:

对于的估计序列n , 若存在一个趋于0的正数列 n ( ),使得

规范化变量y n 的分布函数收敛于标准正态分布,即 n ( )

Fn ( y)

P(n n ( )
•20世纪90年代后,有关非参数统计的应用和研究主要集 中在非参数回归和非参数密度领域.来自§2.2 假设检验回顾
一般的参数假设检验
H 0: 0;H 1: 0.
显著性检验的基本思想: 为了对总体的分布类型或 对总体中未知参数的推断,首先提出假设H0,然后在 H0为真的条件下,通过选取恰当的统计量来构造一个小 概率事件,若在一次试验中小概率事件发生,则拒绝H0, 否则则接受H0. 假设检验问题需要探讨的问题:
第二章 基本概念
§2.1 非参数统计概念与产生 1.非参数统计的概念
非参数方法:不假定总体分布的具体形式,尽量从数据或 样本本身获得所需要的信息,通过估计而获得分布的结构, 并逐步建立对事物的数学描述和统计模型的方法.
参数方法:样本数据被视为从分布族的某个参数族抽取出 来的总体的代表,未知的仅是总体分布具体的参数值,这 样推断问题就转换为分布族的若干个未知参数的估计问题, 用样本对这些参数作出估计或进行假设检验,从而获得数 据背后的分布.
相关主题