当前位置:文档之家› 多元统计分析-第三章 多元正态分布

多元统计分析-第三章 多元正态分布

第三章 多元正态分布多元正态分布是一元正态分布在多元情形下的直接推广,一元正态分布在统计学理论和应用方面有着十分重要的地位,同样,多元正态分布在多元统计学中也占有相当重要的地位。

多元分析中的许多理论都是建立在多元正态分布基础上的,要学好多元统计分析,首先要熟悉多元正态分布及其性质。

第一节 一元统计分析中的有关概念多元统计分析涉及到的都是随机向量或多个随机向量放在一起组成的随机矩阵,学习多元统计分析,首先要对随机向量和随机矩阵有所把握,为了学习的方便,先对一元统计分析中的有关概念和性质加以复习,并在此基础上推广给出多元统计分析中相应的概念和性质。

一、随机变量及概率分布函数 (一)随机变量随机变量是随机事件的数量表现,可用X 、Y 等表示。

随机变量X 有两个特点:一是取值的随机性,即事先不能够确定X 取哪个数值;二是取值的统计规律性,即完全可以确定X 取某个值或X 在某个区间取值的概率。

(二)随机变量的概率分布函数随机变量X 的概率分布函数,简称为分布函数,其定义为:)()(x X P x F ≤=随机变量有离散型随机变量和连续型随机变量,相对应的概率分布就有离散型概率分布和连续型概率分布。

1、离散型随机变量的概率分布若随机变量X 在有限个或可列个值上取值,则称X 为离散型随机变量。

设X 为离散型随机变量,可能取值为1x ,2x ,…,取这些值的概率分别为1p ,2p ,…,记为k k p x X P ==)((Λ,2,1=k )称k k p x XP ==)((Λ,2,1=k )为离散型随机变量X 的概率分布。

离散型随机变量的概率分布具有两个性质: (1)0≥k p ,Λ,2,1=k(2)11=∑∞=k k p2、连续型随机变量的概率分布若随机变量X 的分布函数可以表示为dt t f x F x⎰∞-=)()(对一切R x ∈都成立,则称X 为连续型随机变量,称)(x f 为X 的概率分布密度函数,简称为概率密度或密度函数。

连续型随机变量的概率密度函数具有两个性质:(1)0)(≥x f(2)1)(=⎰∞∞-dx x f二、随机变量的数字特征(一)离散型随机变量的数字特征若X 为离散型随机变量,其概率分布为),2,1()(Λ===k p x X P k k ,则X 的数学期望(或称均值)和方差分别定义为:∑∞===1)(k k k p x X E μ[]()∑∞=-=-===1222)()()(k k k p x X E X E X Var X D μσ(二)连续型随机变量的数字特征 若X 为连续型随机变量,其密度函数为)(x f ,则X 的数学期望和方差分别定义为:⎰∞∞-==)()()(x d x xf X E μ()dx x f x X Var X D )()()(22⎰∞∞--===μσ方差的一个简便计算公式为222)]([)(X E X E -=σ(三)数学期望的数学性质1、设c 是常数,则c c E =)(2、设X 是随机变量,c 是常数,则)()(X cE cX E =3、设X 、Y 是任意两个随机变量,则)()()(Y E X E Y XE +=+4、设X 、Y 是任意两个相互独立的随机变量,则)()()(Y E X E XY E =(四)方差的数学性质 1、设c 是常数,则0)(=c D2、设X 是随机变量,c 是常数,则)()(2X D ccX D =3、设X 、Y 是任意两个相互独立的随机变量,则)()()(Y D X D Y X D +=+三、一些重要的一元分布 1、二项分布重复进行n 次相互独立的试验,若每次实验仅有两个可能结果,每次实验成功的概率均为p ,设X 为n 次独立实验中成功出现的次数,则离散型随机变量X 的分布律为:kn k p p k n k X P --⎪⎪⎭⎫ ⎝⎛==)1()(, n k ;,2,1,0Λ= 其中,p q p -=<<1,10,n 为自然数,称X 服从二项分布。

二项分布中np X E =)(,方差为)1()(2p np X Var -==σ。

2、超几何分布若N 个产品中有M 个不合格品,从N 中随机不放回地抽取n 个进行调查,X 为出现的不合格品数,则离散型随机变量X 的分布律为:⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛--⎪⎪⎭⎫ ⎝⎛==n N k n M N k M k X P )(,),min(,,2,1,0M n k Λ=则称X 服从超几何分布。

当N 很大,n 相对较少时,超几何分布近似于二项分布。

3、泊松分布若离散型随机变量X 的分布律为:!)(k e k X P k λλ-==, Λ,2,1,0=k其中0>λ,则称X 服从泊松分布。

泊松分布中λ=)(X E ,λσ==)(2X Var 。

在np =λ恒定的条件下,当n 趋于无穷,p 趋于零时,二项分布趋向于泊松分布。

4、正态分布若连续型随机变量X 的概率密度函数为:⎭⎬⎫⎩⎨⎧--=222)(exp 21)(σμσπx x f ,∞><∞-x 则称X 服从正态分布,记作),(~2σμN X ,其中参数μ、2σ分别是随机变量X 的数学期望和方差。

当0=μ,12=σ时,随机变量X 的分布为标准正态分布。

当n 很大,p 和q 都不太大时,二项分布可用正态分布近似计算。

5、卡方分布设随机变量n X X X ,,,21Λ皆服从)1,0(N ,且相互独立,则其平方和∑=ni i X 12所服从的分布称为卡方分布,记为:)(~2n X χ,n 为自由度,表示平方和∑=ni i X 12中独立随机变量的个数。

6、t 分布设随机变量)1,0(~N X,)(~2n Y χ,且X 与Y 相互独立,则随机变量nY X t =的分布称为t 分布。

记为)(~n t t ,n 为自由度。

随着自由度n 趋向于无穷大,t 分布以标准正态分布为极限。

7、F 分布 设随机变量)(~2n Xχ,)(~2m Y χ,且X 与Y 相互独立,则随机变量mY n X F =服从第一自由度为n 、第二自由度为m 的F 分布,记为),(~m n F F 。

第二节 多元统计分析中的基本概念在社会、经济及自然科学等许多领域,常常需要同时研究多个指标,例如,要研究上市公司的盈利状况,就涉及到公司的主营业务利润、营业利润、利润总额和净利润等总量指标,主营业务利润率、经营净利率、资产利润率、资产净利率、净资产收益率、总资产报酬率等相对指标,每股收益、加权每股收益等平均指标。

这些变量都是随机变量,随机变量之间往往存在一定的联系,因而需要把这些随机变量作为一个整体来研究。

一、随机向量及概率分布 (一)随机向量设有p 个随机变量p X X X ,,,21Λ,且它们之间有一定的联系,这些随机变量组成的整体就是随机向量,记为()'=p X X X X ,,,21Λ。

在多元统计分析中,仍将所研究对象的全体称为总体,它是由许多个体构成的集合,如果构成总体中的个体是有p 个观测指标的个体,称这样的总体为p 维总体,或p 元总体。

由于从p 维总体中随机抽到一个个体,其p 个指标观测值不能事先精确知道,它依赖于被抽到的个体,因此,p 维总体可用p 维随机向量来表示,这里的维或元表示共有几个分量。

(二)随机向量的概率分布 设()'=pX X X X ,,,21Λ是p 维随机向量,它的多元概率分布函数定义为:),,,(),,,()(221121p p p x X x X x X P x x x F x F ≤≤≤==ΛΛ,记为)(~x F X ,其中:()p p R x x x x∈=,,,21Λ,p R 表示p 维空间。

1、离散型随机向量的概率分布 定义3.1:若()'=p X X X X ,,,21Λ是p 维随机向量,若存在有限个或可列个p 维数向量,,,21Λx x 记k k p x X P ==)((Λ,2,1=k ),且满足121=++Λp p ,则称X 为离散型随机向量,并称k k p x XP ==)((Λ,2,1=k )为离散型随机向量X 的概率分布。

2、连续型随机向量的概率分布 定义3.2:设()p x x x F x F X ,,,)(~21Λ=,若存在一个非负函数()p x x x f ,,,21Λ,使得()()p xxp p dt dt dt t t t f x x x F x F pΛΛΛΛ2121211,,,,,,)(⎰⎰∞-∞-==对一切()p p R x x x x∈=Λ,,21都成立,则称X 为连续型随机向量,称()p x x x f ,,,21Λ为分布密度函数。

一个p 维变量的函数()p x x x f ,,,21Λ能作为p R 中某个随机向量的分布密度函数,当且仅当(1)0),,(21≥p x x x f Λ,()p p R x x x ∈'∀,,,21Λ(2)()⎰⎰∞∞-∞∞-=1,,,2121p p dx dx dx x x x f ΛΛΛ例3.1:试证函数⎩⎨⎧=+-0),()(2121x x e x x f , 其它,0021≥≥x x为随机向量()'=21,X X X的密度函数。

证:只要验证函数满足密度函数的两个条件即可。

(1) 显然,0),(21≥x x f(2)()⎰⎰⎰⎰∞∞+-∞∞-∞∞-=0021)(212121,dx dx e dx dx x x f x x⎰⎰∞∞+-=0201)(][21dx dx e x x⎰∞-=022dx e x∞--=02x e =1二、边际分布 设()'=pX X X X ,,,21Λ是p 维随机向量,由它的)(p q <个分量组成的子向量),,,(21)('=q i i i i X X X X Λ的分布为X 的边际(或边缘)分布,相对的把X 的分布称为联合分布。

通过变换X 中各分量的次序,总可假定)1(X正好是X 的前q 个分量,其余qp -个分量为)2(X,即⎥⎦⎤⎢⎣⎡=)2()1(X X X ,相应的取值也可以分为两部分,即⎥⎦⎤⎢⎣⎡=)2()1(x x x ,当X 的分布函数是),,,()(21p x x x F x F Λ=时,)1(X 的分布函数即边际函数为:),,,()(21)1(q x x x F x F Λ=),,,(2211q q x X x X x X P ≤≤≤=Λ),,,,,,(12211∞≤∞≤≤≤≤=+p q q q X X x X x X x X P ΛΛ ),,,,,,(21∞∞=ΛΛq x x x Fp p x x dx dx x x f qΛΛΛΛ11),(1⎰⎰⎰⎰∞-∞-∞∞-∞∞-=q x x p q p dx dx dx dx x x f qΛΛΛΛΛ1111),(⎰⎰⎰⎰∞-∞-+∞∞-∞∞-⎥⎦⎤⎢⎣⎡=所以)1(X的边际密度为p q p q dx dx x x f x x x f ΛΛΛΛ1121)1(),(),,,(+∞∞-∞∞-⎰⎰=例3.2:对例1中的()'=21,X X X 求边际密度函数。

相关主题