若{}n X 的分布函数序列{()}n F x 与X 的分布函数()F x 有,在任意连续点x ,
lim ()()n n F x F x →∞
=。
依概率收敛
若0ε∀>,有()0n n P X X ε→∞
->−−−→。
准确的表述是,0ε∀>,0δ∀>,
,N n N ∃>,有()n P X X εδ-><成立
(3)几乎必然收敛
如果有(lim )1n n P X X →∞
==。
准确的表述是,除掉一个0概率集A ,对所有的\A ω∈Ω,
有lim ()()n n X X ωω→∞
=成立。
这是概率空间上的点收敛。
定理1。
(切贝雪夫大数律){}n X 相互独立,且有相同的期望和方差,(不一定同分布)
()n E X u =2
()n D X σ=,,n ∀ 记1
1n n i i Y X n ==∑,则P n Y u −−→。
统计发生——事物某方面的定量记录事前是不确定的,发生后的数据由真值和误差两部分构成,εμ+=X。
X 是数据,μ是真值,ε是误差。
导致误差的原因有:
1. 系统性误差:偏离真值的本质性错误,有内在原因所致;
2. 随机性误差:偏离真值的偶然性错误,没有内在原因,是纯偶然因素所致。
总体就是一个特定的随机变量
通过抽样,获得样本,构造样本统计量,由此推断总体中某些未知的信息
从总体中抽样是自由的,且当总体数量足够大,有放回与无放回抽样区别不大,有理由认为,取得的抽样观察值是没有关系的。
所以,样本在未抽取前它们是与总体X 同分布的随机变量,且是相互独立的,称此为随机样本。
定义2。
设1,,n x x 是取自总体X 的一组样本值, 1(,,)n g x x 是Borel 可测函数,则称随机变量1(,,)n g X X 是一个样本统计量。
如果总体X 中分布函数有某些参数信息是未知的,我们用统计量1(,,)n g X X 去推断这些信息,称此问题为统计推断问题。
给样本值11(,,),(,,)N N x x x y y y ''== ,定义: (1)样本均值
1
(/)n
i i x x n ==∑
(2)样本方差
2
21
1ˆˆvar()()1n
i i x x x n σ===--∑ 样本标准差
ˆ..)
s e e σ==(3)样本协方差 11
1ˆ(,)()()
1n
i i c o v x y x
x y y n ==---∑ 样本相关系数
1/2
ˆ(,)ˆˆ[()()]xy cov
x y var
x var y γ=
(4)样本k 阶矩 11n k
k i i A x n ==∑ 1,2,k =
(5)样本k 阶中心矩 1
1()n
k k i i B x x n ==-∑
1,2,k =
X 的左侧分位点F α,()()F P X F dF x α
αα∞
<==⎰。
左α分位点的概率含义是,随机变量
不超过该点的概率等于α
设总体X 分布已知,但其中有一个或多个参数未知,抽样1,,n X X ,希望通过样本来估计总体中的未知参数,称此为参数估计问题,它是统计推断理论中最重要的基础部分。
用样本矩作为总体矩的估计量,以及用样本矩的连续函数作为总体矩的连续函数的估计量,这种方法称为矩估计法,这是一种最自然的估计方法。
称ˆθ是参数θ的一个无偏估计,如果1ˆ((,,))n
E x x θθ= 对任意θ∈Θ成立。
当样本是
有限的时候,我们首先要考虑的是无偏性。
2
2
21
1ˆ()11n i i n S X X n n σ===---∑才是方差2σ的无偏估计。
故我们在样本统计量中定义2S 为样本方差。
ˆθ是参数θ的一个一致估计,如果依概率有1ˆlim (,,)n n x x θθ→∞
= 对任意θ∈Θ成立。
有效性
在所有关于参数θ的无偏估计类中0Θ,或所有的一致估计类1Θ中,如果存在
*ˆˆ()()D D θθ≤对任意0ˆθ∈Θ或任意1
ˆθ∈Θ成立,称*ˆθ是参数θ的一个无偏有效估计或一致渐近有效估计。
即*
ˆθ
具有最小方差性。
。
无论总体X 分布是什么,任意样本i X 和X 都是X 的无偏估计,但1
i DX DX n
=,所以X 比单独的样本估计i X 更有效。
设总体X 关于分布(,)F x θ存在两类问题,一类是分布的形式未知,一类是分布的形式已知但参数未知,提出的问题是,需要对分布的形式作出推断,此称为非参数检验的问题; 或需要对参数作出推断,此称为参数检验问题。
奈克—皮尔逊定理告诉我们,当样本容量n 固定,若要减少犯第一类错误的概率则犯第二类错误的概率会增加,要使两类错误都减少当且仅当增加样本容量。
超过了我们设定的F α,(如,体温超过37度。
)此意味一个小概率事件发生了。
于是,我们有理由拒绝命题0H 是真的。
211~(,)X N u σ,2
22~(,)Y N u σ, 且相互独立,取样有1211(),()n n x x y y 。
欲检验012:H u u =,或更一般,012:H u u u -=(u 已知)。
如何检验?
(1)若21σ、22σ已知
因为2
111
~(,
)X N u n σ,22
22
~(,
)Y N u n σ, 且相互独立,所以22
12
121
2
~(,
)X Y N u u n n σσ--+
,
~(0,1)X Y N ,
所以可找到检验统计量X Y U =。
(2)若22
212σσσ==,但2
σ未知,欲检验012:0H u u -=,
因为222
1122122
1
[(1)(1)]~(2)V n S n S n n χσ
=
-+-+-, 且与
~(0,1)X Y U N =
独立,
12~(2)t n n +-, 令222
1212
12121122n n S S S n n n n --=++-+-, 可得
221211
2V S n n σ
=+-,所以可找到统计量
12~(2)X Y T t n n =
=
+-。
注:如果u 未知,问题就变困难了,可以证明此时统计量T 就是一个非中心的t 分布。
(3)又如何知道22
212σσσ==?
可做假设检验21022
:1H σσ=。
因为2211121(1)~(1)n S n χσ--,2222222(1)~(1)n S n χσ--且独立。
所以,可找到统计量2
11222
~(1,1)S F F n n S =--。
(4)若22
12σσ≠,且未知。
问题就变困难多了,我们找不到合适的统计量。
如果样本容量
足够大,那么,可以用渐近检验的办法处理。
注意,)X Y U =
中,因为22
12σσ,未
知,但已知22
12,S S 是2212σσ,的一致估计,故用它们代替,有:
12,lim ~(0,1)n n X Y U N →∞
=。
从而当12,n n 充分大时可用渐近正态检验。
又当12n n n ==较小时,可以证明,
~()X Y t n
,注意,此与12~(2)X Y T t n n =
=
+-
自由度不同。
此意味当期望、方差相同时,样本可以合并,认为,X Y 属于同一总体。
当期望相同,方差不同时,样本不能简单合并。
注:关于012:H u u u -≤,或012:H u u u -≥,统计量相同,并采用单侧的右分位点或单侧的左分位点检验。
ˆOLS β
是无偏线性估计类中的有效估计。
β的极大似然估计在基本模型假定下就是ˆOLS β
估计做出后,评价、判断模型中的假定是否合理是对事前设定的模型做一个整体的把握。
我们可以把这些假定、设定归结为一些对未知参数的判断,如果这些判断基本正确或错误,那么从整体数据中就能够反映出来。
假设检验是估计完成后对模型的设定做进一步的确认。
它以证否的形式完成。
拒绝原假设,意味着命题真时犯错误的可能性可控制在一定的概率范围内。