当前位置:文档之家› 多元统计分析自己写

多元统计分析自己写

多元统计分析有哪些应用?比较关系预测分类评价各种应用对应的多元统计分析方法比较:多元方差分析关系:回归模型预测:回归模型分类:聚类分析与判别分析、回归模型评价:主成分分析与因子分析⏹多元回归、logisitic回归、Cox回归、Poisson回归多元统计分析方法主要内容多元T检验、多元方差分析⏹Hotelling T2⏹multivariate analysis of variance (MANOV A)多元线性回归(multivariate linear regression)logistic回归(logistic regression)Cox比例风险模型(Cox model)Poisson回归(Poisson regression)聚类分析(cluster analysis)判别分析(discriminant analysis)主成分分析和因子分析生存分析本课程的要求上机做练习,分析实际资料学会看文献,判断统计分析的应用是否正确统计软件SAS,或Stata, SPSS10.01考试:理论占30%,实验占70%二、多元统计分析的基本概念研究因素从广义的角度看,所有可以测量的变量都可以成为研究因素,比如:年龄、性别、文化程度、人体的各种生物学特征和生理生化指标环境因素、心理因素等。

狭义来看,研究因素是指可能与研究目的有关的影响因素多元统计分析对多变量样本的要求①分布:多元正态分布、相互独立、多元方差齐②样本含量目前尚没有多元分析的样本含量估计方法,一般认为样本含量应超过研究因素5-10倍以上即可。

数值变量→分类成有序分类变量哑变量的数量=K-1(K为分类数)三、多元统计分析的主要内容和任务主要内容:多因素分析是研究多个变量之间的依存关系的统计方法。

在多个研究因素中,应根据专业知识确定哪些是结果变量(反应变量),哪些解释变量(自变量),通过一些特殊的统计模型对数据进行拟合,找出众多的解释变量中与反应变量有关的因素(影响因素),并确定其作用的大小和方向。

研究目的可以分为2大类①研究因素的依赖性:即某一反应变量与多个解释变量间的依存关系。

如多元线性回归、logistic回归、Cox回归、判别分析等。

②研究因素间的互依性:即无反应变量和解释变量之分,研究多个因素间彼此关系或彼此影响。

如主成份分析、因子分析、聚类分析、典型相关分析等。

主要任务多因素间的关系错综复杂,因此多元统计分析的主要任务是使复杂问题简化,将无关的因素丢弃,即抓住西瓜丢去芝麻。

即抓住主要矛盾将无关或影响甚微的因素去除。

思路有2种:①直接减少研究因素;②通过变量变换减少研究因素:主成分分析、因子分析、典型相关等。

目的是使复杂问题简单化。

衡量回归方程的标准建立回归方程时要求:既要尽可能提高拟合的精度,又要尽可能使模型简单。

常用的衡量方程“优劣”的标准有:1、决定系数(R2);2、复相关系数R3、调整决定系数(R2adj);4、剩余标准差(sy.x1x2…xp)。

5、赤池信息准则(AIC)6、Cp统计量逐步回归(一)Stepwise(逐步回归法)是一种从众多的回归模型中快速选择“最优”模型的统计思维方法或建模策略,保证“最优”模型中的自变量少而精。

它的作用主要是筛选回归自变量。

方法有:逐步向前法和逐步向后法。

逐步回归(二)步骤(介绍逐步向前法):1、事先给定一个剔除变量的标准;2、按自变量对因变量的贡献大小,由大到小依次进入方程;3、每当一个自变量进入方程,重新对方程内的自变量进行假设检验,有统计学意义的自变量继续留在方程中,无统计学意义的自变量则被剔除;4、如此边引入边剔除,直到既没有新的有统计学意义的自变量可引入方程内,也没有无统计学意义的自变量被剔除方程外为止。

逐步回归(三)一、引入和剔除变量的标准:1、假设检验的P值:对偏回归系数进行假设检验,P值越小,说明对因变量的贡献越大;2、偏回归平方和的检验统计量F 值:对偏回归系数进行假设检验,F 值越大,说明对因变量的贡献越大。

二、偏回归平方和的概念:所有自变量都在方程内算出回归平方和SS回,把xi除去再算出回归平方和SS回-i,两者之差即为xi的偏回归平方和。

三、检验水准剔除变量的水准P剔和引入变量的水准P选,为了防止计算机进入“死循环”,要求前者略大于后者。

指标的量化(一)应用线性回归时要求因变量是定量指标,自变量与因变量的关系为线性的。

1、对定量指标:符合线性要求的,直接以原变量形式进入分析;若不符合线性要求的,作适当变量变换,直到符合线性关系时,方可作回归分析。

2、对定性指标:(1)二分类指标:若变量x为性别,则女性为x=0,男性为x=1,作出的回归方程中x的系数b表示男性的因变量y比女性平均多b个单位。

指标的量化(二)(2)多分类指标:若变量x为血型(A、B、AB、O型四种),则需用3个哑变量(或指示变量)表示四种血型:x1 =0、x2 =0、x3 =0,表示O型;x1 =1、x2 =0、x3 =0,表示A型;x1 =0、x2 =1、x3 =0,表示B型;x1 =0、x2 =0、x3 =1,表示AB型。

O型为对比的基础,方程中x1的系数b1表示A型血者的因变量y比O型血者平均多b1个单位;x2的系数b2表示B型血者的y比O型血者平均多b2个单位;x3的系数b3表示AB型血者的y比O型血者平均多b3个单位。

指标的量化(三)3、对等级资料(1)若变量x为文化程度,而且因变量y的改变在每个等级上是近似相等的,则将等级数量化后直接进入分析。

如:x=0表示文盲,x=1表示小学,x=2表示中学,x=3表示中学,x=4表示大学本科,x=5表示硕士、博士。

结果中x 的系数b表示:文化程度每上升一个等级,则因变量增加b个单位;(2)若因变量y的改变在每个等级上是不相等的,则与多分类指标一样要设哑变量,结果解释也与其一样。

回归系数反常的原因回归方程建立后,可能发现回归系数从专业知识上解释不通;或整个方程显著,但每个变量均没有显著性;或有些变量从专业上看很重要,却选不进方程。

原因主要有:1、数据中有离群值或异常值;2、样本含量不够,或自变量数太多;3、自变量的观察范围太窄,或方差太小;4、自变量之间存在共线性。

•多元共线性会导致的现象:1.符号与实际不符合2.回归系数的估计值与实际相差太大3.回归系数的标准误太大,重要变量选不进方程4.整个方程有显著性,而每一个自变量均无显著性多重共线性(一)例如试建立由外形指标(x1、x2、x3分别为身长、头围、体重)推测胎儿周龄y的回归方程:y对x1、x2、x3的一般多元线性回归分析,建立方程为ŷ=11.0117+1.6927x1-2.1589x2+0.0075x3,出现头围的回归系数为负的不合理现象。

怀疑3个自变量之间存在共线性。

共线性的主要解决方法:岭回归或主成分回归。

多重共线性(二)多重共线性一词最早由R.弗里希于1934年提出,它指的是回归模型中某些或所有自变量间存在完全或近似完全的线性关系。

目前常用的多重共线性诊断方法有:1.自变量的相关系数矩阵诊断法:研究变量的两两相关分析,如果自变量间的相关系数很大,则认为存在多重共线性。

2.方差膨胀因子(the variance inflation factor,VIF)诊断法:方差膨胀因子表达式为:VIFi=1/(1-R2i)。

其中Ri为自变量xi对其余自变量作回归分析的复相关系数。

当VIFi很大时,表明自变量间存在多重共线性。

多重共线性(三)3.容忍值(Tolerance,简记为Tol)法:容忍值实际上是VIF的倒数,即Tol=1/VIF。

其取值在0~1之间,Tol越接近1,说明自变量间的共线性越弱;Tol越接近0,说明自变量间的共线性越强。

在应用时一般先预先指定一个Tol值,容忍值小于指定值的变量不能进入方程,计算结果具有稳定性。

4.条件数:某些维度该指标的数值大于30,则说明存在共线性5.特征根分析法:如果相当多维度的特征根约等于0SPSS过程:在打开按钮“Statistics”后的对话框中,选中“Collinearity Diagnostics”和“Part and Partial Correlations”即可;结果中有相关系数矩阵、VIF、Tol、条件数。

岭回归简介关键:确定岭参数k。

步骤:1、选择不同的岭参数k,估计相应的回归系数;2、将不同k值时的回归系数连成一条曲线,即岭迹;3、观察岭迹稳定(或各回归系数稳定)时所对应的k值即为岭参数k;4、建立岭参数k下的回归方程。

优点:岭回归分析所得的回归方程符合实际情况。

• logistic 的主要内容 • 非条件logistic 回归 • 条件logistic 回归 • 多类结果的logistic 回归• 有序结果的累计比数logistic 回归 • logistic 回归的正确应用 • 二分类logistic 回归的SPSS 过程 •配对logistic 回归的SPSS 过程• 多分类有序的logistic 回归SPSS 分析过程 模型简介传统方法与logistic 回归的关系 回归系数的解释模型的估计与假设检验 建模策略• 多元线性回归的适用条件: 复习前面的内容:条件:线性关系、独立、正态、方差齐等。

分类变量的比例;定量变量的比例为什么要引入logistic 回归模型• 经典方法的局限性(如分层校正技术) 1.只能将因素分析2个或几个水平;2.只能控制2-3个混杂因素的干扰,且各因素各水平的组合需要足够的样本含量;3.只能判断因素对发病的影响是否存在,不能对危险因素的作用大小进行定量分析,同时也不能分析交互效应。

• 1 模型简介P 发病的概率, 0≤P ≤1。

Cox(1970) logit 变换•logistic 回归模型• P 发病的概率。

1122m mP x x x αβββ=++++•为“机会”或“优势”(odds)• 为优势之对数(log odds) 和优势比• logistic 回归模型的几种形式2 传统方法与logistic 回归• 四格表资料(病例对照)与logistic 的关系 • 分层四格表资料与logistic 的关系例 四格表资料探讨妇女使用雌激素与患子宫内膜癌的病例-对照研究mm x x x P βββα++++= 2211logit m m x x x P βββα++++= 2211logit• 四格表资料的logistic 回归X=1 表示使用过雌激素 X=0 表示未使用过雌激素四格表资料与logistic 回归••例 分层四格表资料与logistic 回归按年龄分层的心肌梗死与近期口服避孕药的关系传统方法与logistic 回归的关系• 单因素病例对照研究的OR ,与logistic 回归等价;•分层病例对照研究的ORMH ,与logistic 回归结果近似。

相关主题