当前位置:文档之家› 多元统计分析期末考试考点整理

多元统计分析期末考试考点整理

二名词解释
1、多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广
2、聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。

将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。

机而获得的非确定值,是概率中的一个基本概念。

即每个分量都是随机变量的向量为随机向量。

类似地,所有元素都是随机变量的矩阵称为随机矩阵。

4、统计量:多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量
二、计算题
'16 V 2 > 设乂= 沪訂〜弘3,功其中以=・6—刀辽=-*4-1
[2 T 试判断可+盹与5 一門是否独立?
I河J
解:
X ^71 -心;心丹7 +细贝」
"IU -6 -16?
三"16 20
-16 20 40
"2'10 -6-1 沪
阪划的联■合分市为场(17-0 Id 20 )
-3,厂"20 40丿
故不独立-
2.对某地区农村的6名2周羽男婴的身高,胸围,上半臂围进行测量’ 得相关救摒如下,根据以往资料”该地区城市2同岁男婴的这三个指标的坟值压=&0戈霞现欲裡塞元卫蛊性的假定下检验迪地区农村男婴星否与城市舅婴有柞同的均值.
勺『4.3107-14.6210 3.9464 >其中x=60.2QST】= (115.6924^-14.6210 3.172-37 3760
丿、8.9464-37 376035.5936 丿(^ = 0.01,^ 01G,2) = 99.2, ^(33)=29.5,^^ 0,4) =1^.7)
答:
2假设检验问题’ H.—卩=氏H、.弹丰丘
'-8.0\
经计算可得=X —乂= 2 2 )
厂1 J
'43107 -14.6210 S.9464、r4=(23,13848)-1-14 6210 3 172 -37,3760
、8.9464 -37.3760 35.593S
构造检验统廿量=严=并(元—辭L〔文-迪)
= 6x70.0741 = 420.445
由题目已知弘dg由是
^ = ^^1(3,3)=1475
所以在显著性水平法= 001下,拒绝原设凤
即认为赛村和城市的2周岁男婴上述三个指标的均値有显著性差异
2设x=〈召禺九虽亍讥g,协方差阵艺二“7
p p 1
,p p P
(1>试从工出发求X的第一总体主成分*
(2)试间当°取笋大BJ才链頤一主咸分冊贡離率诙旳%以匕
答:
厂1
得旳所对应的单也特征向量为i 故得第一主威分Z 二愿气兀冷兀
C2)第一个主成分的贲献率为
-------- ----------- = 112£>95% 丘+為+凤+《 4
题型三解答题
1、 简述多元统计分析中协差阵检验的步骤
答:
第一,提出待检验的假设
和H1;
第二,给出检验的统计量及其服从的分布;
第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值, 看是否落入否定域中, 以便对待判假设做出决策
(拒绝或接受)。

2、 简述一下聚类分析的思想
答:聚类分析的基本思想, 是根据一批样品的多个观测指标, 具体地找出一些能够度量样品
或指标之间相似程度的统计量,
然后利用统计量将样品或指标进行归类。

把相似的样品或指
标归为一类,把不相似的归为其他类。

直到把所有的样品(或指标)聚合完毕 3、 多元统计分析的内容和方法
答:1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量, 使研究问题得到简化但损失的信息又不太多。

(1)主成分分析(2)因子分析(3)对应分析

2、分类与判别,对所考察的变量按相似程度进行分类。

(1)聚类分析:根据分析样本的各研 究变量,将性质相似的样本归为一类的方法。

(2)判别分析:判别样本应属何种类型的统计 方法。

4、系统聚类法基本原理和步骤 答: 1) 先计算n 个样本两两间的距离 2) 构造n 个类,每个类只包含一个样本
4⑴由
丄-1 -P
-p -P
-P a —1
-P
~P -p —卩
A-1 ~P
-P 一厂 -P 久一
1
=屏1=特征根为4, = 1十泅,
解人所对应的方程
-P
i-1
~P
-P -P
4—1
~P
0.95x-4-l ------- 二 ------农 0.933
3)合并距离最近的两类为一新类
4)计算新类与当前各类的距离
5)类的个数是否等于1,如果不等于回到3在做
6)画出聚类图
7)决定分类个数和类
5、聚类分析的类型有:
答:
(1)对样本分类,称为Q型聚类分析
(2)对变量分类,称为R型聚类分析# Q 型聚类是对样本进行聚类,它使具有相似性特征
的样本聚集在一起,使差异性大的样本分离开来。

#R型聚类是对变量进行聚类,它使具有
相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。

6、简述欧氏距离与马氏距离的区别和联系。

4.1简述欧氏距离与马氏距离时区别和联系.
答=设P维空闾射中的两悬1=的血“ XJ 和Y P Y r-Y P D则欧氏距离为欧氏距离的局隈有①在鲂元数据分析中,其度董不合理.②会受到买际间题中童纲的覚响.
设X,T是来自均值向重为|J,协方差为z的总体G中的卩维样本.则马氏距离沟
—1 —1
DtK, Y)= X-Y ;Z X-Y ■当広二【即单位阵时陰Y)=X-Y' X-Y =
¥ = YJ-即欧氏距离°
因此,在一定程度上,欧氏距离是马氏距离的特殊情况,马氏距离是欧氏^厲的推广.
7、试述系统聚类的基本思想。

答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。

8对样品和变量进行聚类分析时所构造的统计量分别是什么?简要说明为什么这样构
造?
答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。

因为我们把n个样本看作
p维空间的n个点。

点之间的距离即可代表样品间的相似度。

常用的距离为
(―)匪韓E 藹%8)=(工蛊
-FL
q 取不同他,分尚 ?
絶汨跆禽(「1)巧⑴-V ||疋議-乂話
(―)马氏距离
対变星的相说性.
捋变壘書ftp 维空间的向远.一股用 <—)夹用余弦
h

^^・-丘・「£〔“-和”
9、在进行系统聚类时,选择距离公式应遵循哪些原则?
答:(1)要考虑所选择的距离公式在实际应用中有明确的意义。

如欧氏距离就有非常明确的
空间距离概念。

马氏距离有消除量纲影响的作用。

(2 )要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。

如在进行聚类分析 之前已经对变量作了标准化处理,则通常就可采用欧氏距离。

(3)要考虑研究对象的特点和计算量的大小。

样品间距离公式的选择是一个比较复杂且带
有一定主观性的问题, 我们应根据研究对象的特点不同做出具体分折。

实际中,聚类分析前 不妨试探性地多选择几个距离公式分别进行聚类, 然后对聚类分析的结果进行对比分析, 以 确定最合适的距离测度方法。

10、欧式距离的优点缺点
⑴EC 式距筈(Eurlii 距盟)
对建仇-诃严
优点:几何意义明确,简单,容易掌握,由于中学数学就已初步接触,数学知识不多的人也 可以把握它的基本含义。

缺点:从统计学的角度看,使用欧式距离要求一个向量的 n 个分量不相关,且具有相当的方
差,或者说各个坐标对欧式距离的贡献同等且变差大小相同, 此时使用欧式距离才合适,且 效果良好,否则就不能如实反映情况且容易导致错误的结论。

因此需要对坐标加权,化为统
计距离
11、 模糊聚类分析的实质和基本原理
答:模糊聚类分析的实质就是根据研究对象本身的属性而构造模糊矩阵,
在此基础上根据一
(1) (3)
欧氏距离(u 令(2) =(乂
3
1/2
切出雪夫跖离(叼=沖)日卩〔8〉= J -
(三)里时巨离 心M -xp
我们更多地要了辭变虽的变化趋勢或变化£向.因此用相呆性进行衝昼“
(-)柜董系数
CO E 0
定的隶属度来确定其分类关系
基本原理:如果水平满足,则按水平分出的每一类必是按水平分出的每一类的子类。

(p62页)
12、模糊聚类分析计算步骤:
答:
(1)对原始数据进行变换。

变换方法通常有标准化变换、极差变换、对数变换等。

(2)计算模糊相似矩阵
(3)建立模糊等价矩阵
(4)进行聚类。

相关主题