当前位置:文档之家› zz-多元统计分析方法(含答案)

zz-多元统计分析方法(含答案)

均变动bi个标准单位 E. 是由偏回归系数标准化得到的
判别分析是一种(C)的统计方法。
A. “无师可循”,对个体归类 B. “无师可循”,对群体分 类 C. “有师可循”,对个体归类 D. “有师可循”,对群体分 类
E. 以上都不对
Fisher准则下的判别分析,判别临界值YC的确定从 理论上讲,(B)方法最合理。
新样品的判断分类也越可靠。√
逐步判别中Λ大,表明该函数在K类之间的判别能
力越强。×
Q型聚类分析是对变量进行聚类。 ×
有序样品聚类中,为了求出最优分割,必须定义
类的直径和目标函数。 √
有序样品聚类中,如果Si到Sj为一类,其间有j-i+1个样品, 则类直径只能定义为j-i+1个样品观察值的离均差平方和。 ×
多元线性回归要求应变量为定量资料;
Logistic回归要求应变量为二分类或多分类资料; Cox比例风险回归要求应变量为表示时间长短的资
料。
8. 某医师用B超测量一批4岁男孩心脏纵径x1(cm)、 心脏横径x2(cm)和心象面积y(cm2)三项指标,在 统计软件包的支持下,得到多元线性回归方程:
3. 聚类分析常被分为哪两大类?常用的距离 有哪几种?
聚类分析常被分为:
R型聚类(变量聚类)
Q型聚类(样品聚类) 常用的距离:
绝对值距离、欧氏距离、马氏距离、明氏距 离、切比雪夫距离和兰氏距离。
4. 常用的类间距离分类的方法有哪几种?
最短距离法、最长距离法、中间距离法、重心法、 类平均法、可变类平均法、离差平方和法和可变 法。
无=0,有=1 对照=0,病例=1
对上面6个危险因素按连续变量采用逐步法 进行多变量筛选,最终进入方程的危险因素分 别为X2,X3,X4,X6结果见下表:
表2 进入方程中的自变量及有关参数
入选变量 吸烟量X2 声嘶史X3 摄食新鲜蔬菜X4 癌症家族史X6
b 1.487 1.917 -3.764 3.632
b2=3.662086的含义是:对于心脏纵径相同的4岁 男孩,其心脏横径每增加1 cm,则心象面积平均 增加3.662086 cm2。
R2=0.81表示:4岁男孩心象面积的变异中可由 其心脏纵径和心脏横径解释的部分占81%。
9. 某北方城市研究喉癌发病的危险因素,用1:2配 对的病例-对照研究进行了调查。现选取6个可能 的危险因素并节录25对数据,各因素的赋值如下:
增加有统计学意义的自变量后,R2增大;增加无
统计学意义的自变量后, R2减小。 ×
对于R型聚类,它的聚类指标是相似系数,包括相
关系数、列联系数、点相关系数。 √
当多元回归方程中,增加一个作用不大的自变量 时,剩余平方和肯定会减少,所以剩余标准差也
会减少。 ×
决定系数开方得R,称为多元相关系数或复相关系数, 它表示多元回归中应变量Y与各个自变量线性组合间 的相关。√
B. 一组,各类一个 D. 事先不能确定
逐步判别中,变量的判别能力和函数的判别能力 的检验统计量分别是(A )
A. F、X2
B. X2 、 F
C. 均为F E. T 、X2
D. 均为X2
逐步判别中,剔选变量时,(B)变量Xi判别能力 越强。
A. Ui越大 C. Pi越大 E. 以上均不对
B. Ui越小 D. Pi越小
表1 喉癌的危险因素与赋值说明
危险因素
变量名
赋值说明
咽炎
X1
吸烟量(支/日)
X2
无=1,偶尔=2,经常=3
每日0支=1,每日1~4支=2, 每日5~9支=3,每日10~19支=4, 每日20支~=5
声嘶史
X3
摄食新鲜蔬菜
X4
摄食水果
X5
癌症家族史
X6
是否患喉癌
Y
无=1,偶尔=2,经常=3 少=1,经常=2,每天=3 很少=1,少量=2,经常=3
多元回归方程中,自变量作用显著当然很好,但即使 有些自变量作用不显著,只要有点作用,多几个自变 量总比少几个好。×
若X1、X2与周围其他变量没有什么关系,则用简单相 关系数r表示它们的相关性是可以的。若还存在着对X1、 X2关系密切的其他变量,则r就不能真实地反映X1、X2 之间的关系,需要用偏相关系数。 √
A. 两均数平均值
B. 用样本含量加权
C. 用方差加权平均
D. 目视法
E. 以上方法均可
Bayes公式法理论上要求(D )
A. 各类指标Xi间相互独立 B. 各类别AG间互斥
C. 各类别AG构成完备事件
D. ABC
E. AC
Bayes准则下所建立判别函数式有(B )
A. 一个 C. 一组,各指标一个 E. 以上均不对
Sb 0.551 0.944 1.825 1.866
X2 7.921 4.119 4.253 3.983
P 0.0069 0.0424 0.0392 0.0471
OR 4.423 6.798 0.023 37.793
问:写出logistic回归方程 试分析4个自变量回归系数的意义
logistic回归方程如下:
5. Fisher判别和Bayes判别的判别准则有何 不同?
Fisher判别准则:
变异用离均差平方和表示,要求各类之间 的变异尽可能地大,而各类内部的变异尽可能 地小(既类类之间变异最大,类内之间变异最 小)。
Bayes判别的判别准则:
是聚类分析与判别分析关系?
多元线性回归分析中,反映回归平方和在应变量Y 的总离均差平方和中所占比重的统计量是( E)
A.复相关系数
B.偏相关系数
C.偏回归系数
D.回归均方
E.决定系数
作多元回归分析时,若降低进入的F界值,则进入 方程的变量一般会(A)
A. 增多
B. 减少
C. 不变
D. 可增多也可减少
E. 以上都不对
10. 某医生对218例成年男子的3个指标:身高X1、
体重X2、肺活量X3进行了测量,并计算出它们的 简单相关系数和一级偏相关系数,r12=0.807, r13=0.935,r23=0.770,r13.2=0.832,r23.1=0.075 (前四个相关系数有统计学意义,第五个没有统 计学意义)。
判别分析是根据某些指标的观测值对所研究的对
象判断其归属类别的一种统计分析方法。√
所谓训练样本就是一定数量的已知实际类别且各
指标的观测值均齐全的样本。 √
建立Fisher两类判别的准则是使类间差别最大,而
类内变异最小。 √
系统聚类法不仅试用于对样本的聚类,也可用于
对指标的聚类。 √
判别分析效果好坏的关键是训练样本,训练样品 数越多,则所建立的判别函数就越有效,用于对
A. Pi最大者
B. Pi最大且有统计学意义者
C. Pi最小者
D. Pi最小且有统计学意义者
E. 只要有统计学意义者
向后剔除法中,方程和偏回归系数的检验依次 是(A)
A. F检验、t检验
B. t检验、F检验
C. 均为F检验
D. 均为t检验
对于标准偏回归系数,下列哪些是错误的?(A)
A. 其大小受自变量所取单位的影响 B. 无单位,可直接用以比较 C. 其数值大小可以衡量每个自变量对y作用的大小 D. 它表示固定其他变量,当Xi变动一个标准差单 位,y平
有序样品聚类中,如果n个样品要分为k类,分类方案会有 许多种,不同的分类方案所求得的目标函数也会不同。√
目标函数一般定义为类直径之和。一般目标函数越大,这 个分类方案就越合理。 ×
有序样品聚类中,计算n个样品分为k类的最小目标函数, 即分别算出所有可能的分法的k类的类直径之和,其中最 小者就是最小目标函数。此分类方式即为最优分割。 √
二者同属分类问题。 聚类分析“无师可循”,其目的就是把相似的东
西归成类;判别分析“有师可循”,对个体进行 归类。 当各类总体不清楚时,可先用聚类分析法进行聚 类,然后建立判别函数,再对新个体判别其归属。
7. 一般情况下,多元线性回归、Logistic回 归和Cox比例风险回归对应变量的资料类 型各有什么要求?
➢ β4=-3.764,其相应的优势比OR4=0.023,表示摄食新 鲜蔬菜为保护因素,说明在其他因素不变的情况下, 每天摄食新鲜蔬菜比少摄食新鲜蔬菜或经常摄食新鲜 蔬菜患喉癌的危险低。
➢ β6=3.623表示,其相应的比数比OR6=37.793,表示喉 癌家族史为危险因素,说明在其他因素不变的情况下, 有癌症家族史者患喉癌的危险是没有癌症家族史的 37.793倍 。
多元统计分析 方法习题指导
赵珍 Tel:4366365 流行病学与卫生统计学教研室
主要章节:
▪ 多重线性回归 ▪ 聚类分析 ▪ 判别分析 ▪ Logistic族回归
简答题
1. 评价多重线性回归方程的方法? 方差分析法
F检验是把所有自变量作为一个整体,检验它 们对应变量Y的影响是否具有统计学意义。
决定系数R2法
R2表示方程中的自变量能够解释应变量Y变化 的百分比,其值越接近1,说明模型对数据的拟合 程度越好。
2. 常用的衡量方程优劣的标准有哪些?
复相关系数R,其值越大方程拟合越好。 校正复相关系数Radj,其值越大方程拟合越好。 剩余标准差Sy.12….m ,其值越小说明回归效果越好。 赤池信息准则AIC,其值越小越好。 Cp统计量。
Y=-3.12695+3.210445x1+3.662086x2,经检 验,方程与两个自变量均有统计学意义。
– 结合专业知识解释以上两个偏回归系数的含义。
– 若决定系数R2=0.81,请解释其含义。
答:
相关主题