数据分析与统计软件一、问卷的设计(一)问卷中的题目设计分为单选题和多选题,其中单选题的设计一般采用李克特(Likert)五点量表法。
(二)问卷分析的步骤:拟编预试问卷—预试—整理问卷与编号—项目分析—因素分析—信度分析—再测信度1.项目分析目的:利用t检验方法对预试问卷中的题目进行筛选。
步骤:P41-42(吴)2.因素分析(效度分析、维度分析)(1)探索性因素分析目的:利用因子分析方法(主成分)对预试问卷的效度进行分析。
(2)验证性因素分析目的:利用因子分析方法(主成分)对预试问卷的效度进行验证。
3.信度分析目的:利用信度分析方法对预试问卷调查所得数据的可信性进行分析。
4.再测信度目的:利用相关分析方法对预试问卷的前后两次调查所得数据的可信性进行分析。
二、问卷数据的分析1.多重响应分析:Analyze→Multiple Response作用:分析多项选择题,包括多项选择题题集的定义及频数分析。
特别:列联表分析:Analyze→Descriptive Statistics →Crosstabs 作用:分析属性变量间是否相互独立。
2.均值检验(t-检验)3.方差分析4.协方差分析5.相关分析6.回归分析(路径分析)7.聚类分析多重响应分析多重响应分析也称为多(复)选题分析。
在量化研究中,除了单选题、李克特量表外,常见的回答发生即是复选题。
所谓复选题即是题目的可选答案不止一个,答案的选项可以多重选择或者题项可勾选其中多个选项。
下面是一份问卷(其中部分):1.您的性别:□男□女2.您对数学学习的兴趣:□非常感兴趣□一般□无兴趣3.您平时喜欢的文学作品:(1)□外国的(2)□中国的(3)□古代的(4)□近代的(5)□现代的4.您平时喜欢的体育项目:(1)□爬山(2)□游水(3)□跑步(4)□打篮球其中1、2题为单选题,3、4题为多(复)选题。
下面介绍与单、多选题有关的软件处理方法。
一、变量的编码方法1.对单选题一个题目用一个变量即可。
如第1题用A1(取值为1或者2——要做标签)第2题用A2(取值为1或2或3——要做标签)。
2.对多选题一个题目用一个代码,该题目下的一个选项为另一代码,由这两个代码组成该题的变量。
如:第3题用代码A3,选项(1)——(5)的代码分别是M1—M5,于是该题的变量有5个:A3M1, A3M2, A3M3, A3M4, A3M5,它们构成了第3题的变量集,集合名为A3。
第4题用代码A4,选项(1)——(4)的代码分别是M1——M4,于是该题的变量有4个:A4M1,A4M2,A4M3,A4M4,它们构成了第4题的变量集,集合名为A4。
注:以上多选题的选项,选中的记为1,不选中的记为0。
二、定义多选题题集A4M1,A4M2,A4M3,A4M4为例,它们是同以题目的4个可复选的选项,它们组成一个集合,集合名为A4。
★【Analyze】→【Multiple Response 】→【Define Sets】★把A4M1,A4M2,A4M3,A4M4 选入“Variables in Set’的方框中。
★在给出集合名A4即可。
注:每一个复选题都要定义题集。
三、多选题的频数分布★Analyze→Multiple Response →Frequencies★把每一个题的题集选入“Table(s) for”的方框中;★点击OK即可。
四、多选题的列联表及其检验因为列联表的行和之和=列和之和所以,在●单选题与单选题;●单选题与复选题中的一个选项所构成的列联表进行(独立性)检验。
其方法是进入Analyze→Descriptive Statistics →Crosstabs过程。
量表分析一.李克特(Likert)五点量表法此量表的填答方式,以五点量表最为常用,因为它的内部一致性较好,常用的选项名称如下:●非常符合5 ,符合4,有时符合3,不符合2,非常不符合1。
●总是如此5,时常如此4,有时如此3,很少如此2,从未如此1。
●非常同意5,同意4,不能确定3,不同意2,极不同意1。
●非常重要5,重要4,不能确定3,不重要2,极不重要1。
二.量表分析步骤1.项目分析;2.效度分析;3.信度分析.三.项目分析1.编制数据文件一份量表,一般分为若干个层面,每个层面有若干调查题项。
如1: 学校办学水平意见调查表,分两个层面编制。
第一层面: 教师工作满意度,有若干题项;第二层面:教师教学投入,有若干题项。
如2: 父母影响调查表: 第一层面: 父母压力(A)第二层面: 心理支持(B)第三层面: 作业协助(C)编制数据文件时,变量名可以是: A层面:A1,A2,A3,…B层面:B1,B2,B3,…C层面:C1,C2,C3,….也可以是题序号。
2.项目分析目的:将不适合的题项删除。
“不合适”标准: ★标准一: 在高分组与低分组中,无显着性差异(无区分能力)的题项。
★标准二: 与总分相关不显着的题项。
●标准一的统计处理:(1)计算总分T 方法:Tranform →Compute(2)对总分排序方法: Data→Sort cases(3)按总分分别取前(或后)的27~30(%)样本作为高分组与低分组。
(4)在数据文件中设立一个分组变量,高分组的样本记为1,低分组的样本记为2。
(5)进行t检验。
●高分组与低分组差异不显着的题项应该去掉或者修改。
●标准二的统计处理:用总分T对所有题项作相关分析(即求相关系数)Analyze→Correlate →Bivariate注意:把t放在第一行,易读结果。
●与总分相关不显着的题项应该去掉或者修改标准一与标准二所得的结果不一定相同,作项目分析时,只需说明是用什么标准即可.四.效度分析效度有内容效度,效标关联效度与建构效度之分(近来还倡导专家效度)。
此处介绍:建构效度——指测验能够测量出理论的特征或概念的程度。
如果我们根据理论的假设结构,编制一份量表或测验,经实际测验结果——受试者所得的实际分数,经统计检验结果能有效解释受试者的心理特征,则此测验或量表即具有良好的建构效度,当然说明建构效度好,内容效度也好,因为内容效度是通过题目的合理性来判断的。
(一)总量表的效度分析此处所用的方法是因子分析法(因素分析法)按因子分析的原理及效度分析的含义,此处因子分析时因素(公因子)个数应是量表设计时的层面数。
如果量表效度高,应说是一个层面的含义就是一个公因子,如: A1,A2,A3,…. 的公因子应解释为家长压力B1,B2,B3,……的公因子应解释为心理支持C1,C2,C3,……的公因子应解释为作业协助注意到:●因子分析的含义是由已知的A1,A2,A3,….找未知公因子。
●效度分析的含义是由已知的公因子来判定量表编制的题项A1,A2,A3,….是否能说明公因子。
●所取定因子分析中累计贡献率为因子分析的解释率,解释率越高,量表的效度越高。
(二)各层面的因子(素)分析提取一个公因子,观测其与该层面各题目的相关系数,以说明题项是否合适,其累计贡献率为该层面的解释率。
五.信度分析指量表或试卷的可靠性(一)总量表的信度Analyze→Scale →Reliability Analysis在主对话框中的Model选Alpha,点击子对话框Statistics,选○Scale if item deleted。
注:各题项在Alpha if Item Deleted 的值与Alpha 进行比较,也可以作为判断该题项是否合适的标准之一。
(二).各层面的信度分析注: (1)信度高,有时也称为内部一致性高。
(2)一般而言,总量表的题项多,其信度系数通常会大于各分量表(层面)的信度系数。
第十四章因子分析一般书中提到:将主成分分析再向前推进一步,就是因子分析。
也就是说,要了解因子分析,必须对主成分分析有所了解。
事实上,在因子分析的讨论中,所用到的因子提取方法,常用的是用主成分分析的方法来提取。
因此,在介绍因子分析之前,先简单地介绍一下主成分分析。
一、主成分的直观含义1.处理实际问题的一对矛盾一方面,对实际问题需要有更全面的了解,必须测量其多项指标(即变量多);另一方面,变量过多,不但给统计处理带来很多麻烦,还可能抓不到本质。
2.解决这对矛盾的方法方法之一:把原始变量综合成较少的几个“综合变量(指标)”。
“综合指标”的含义:(1)尽可能多地原始指标的信息;(2)“综合指标”之间相互无关(这样会给解释综合指标的含义带来方便)。
3.主成分满足(1)、(2)的“综合指标”称为原来指标的主成分。
例如,了解数学系学生的学习能力,可以选择他们所学过的所有的专业课成绩(原始变量),这将有二十个左右,根据专业的特点,应该有几个“综合指标”(主成分):空间想象能力,逻辑推理能力,记忆能力。
二、主成分的求法设x1,x2,…,x p为原始变量,f1,f2,…,f q为主成分,当然q≤p。
主成分f j是原变量x1,x2,…,x p的线性组合f j =a j ’x=a 1x 1+a 2x 2+…+a p x p其中x=(x 1,x 2,…,x p )’ , a j =(a 1j ,a 2j ,…,a pj )’,j=1,2,…,q 。
第一主成分满足D(f 1)=max{D(f j ),j=1,2,…,q}第二主成分满足D(f 2)=max{D(f j ),j=2,…,q}且Cov(f 1,f 2 )=0,即f 1与f 2不相关。
第三主成分满足D(f 3)=max{D(f j ),j=3,4,…,q}且Cov(f 1,f 3 )=0,Cov(f 2,f 3 )=0。
如此下去,得到q 个公因子。
主成分个数的确定方法:满足下式子 q f D f D f D f D f D f D p q 等)的最小的给定数值(如85.0)()()()()()(2121≥++++++ΛΛ上式中左边的式子称为的累计贡献率。
第一节 因子分析模型一、 基本问题1.模型如果从x 1,x 2,…,x p 中提取了主成分f 1,f 2,…,f q ,从数学上讲,原变量x i 应可由f 1,f 2,…,f q 线性表出,即 x i =αi1f 1+αi2f 2+…+αiq f q +εi , i=1,2,…,p (1)其中附加一个εi,可以理解为f1,f2,…,f q未包含x i的特殊信息或者是随机误差。
例如,x1,x2,x3分别表示数分、高代、解几的成绩(原变量),f1,f2,f3分别表示空间想象能力,逻辑推理能力,记忆能力(主成分)。
如果我们想分别了解以上课程对的f1,f2,f3依赖程度(或这三个公因子在以上课程成绩上的体现情况),这样就有了(1)式的出现。
一般地,称(1)式为因子分析模型。
●因子分析模型(1)在形式上象多元线性回归模型,但它与线性回归模型有本质的差异,这是因为公因子是f1,f2,…,f q不可观测的,所以(1)不能用多元线性回归模型的方法去处理。