第一章一些基本概念讲课之前问问大家EXCELL用得怎么样?会使用公式编辑吗?调出上标、下标:工具→自定义→命令→格式→右边找到X2、X2拖出来调出公式编辑器:工具→自定义→命令→插入→右边找到公式编辑器,拖出来SPSS是“社会科学统计软件包”(Statistical Package for the Social Science)的简称,是一种集成化的计算机数据处理应用软件。
SPSS是世界上公认的三大数据分析软件之一(SAS、SPSS和SYSTAT)。
§1.1 统计是什么?•统计是人类思维的一个归纳过程•站在一个路口,看到每过去20辆小轿车时,也有100辆自行车通过,而且平均每10个轿车载有12个人,于是,你认为小汽车和自行车在这个路口的运载能力为24:100•这是一个典型的统计思维过程•一般来说,统计先从现实世界收集数据(信息),如观测路口的交通,然后,根据数据作出判断,称为模型。
模型是从数据产生的,模型也需要根据新的信息来改进。
•不存在完美的模型,模型的最终结局都是被更能够说明现实世界的新模型所取代。
统计学可以应用于几乎所有的领域:精算,农业,动物学,人类学,考古学,审计学,晶体学,人口统计学,牙医学,生态学,经济计量学,教育学,选举预测和策划,工程,流行病学,金融,水产渔业研究,遗传学,地理学,地质学,历史研究,人类遗传学,水文学,工业,法律,语言学,文学,劳动力计划,管理科学,市场营销学,医学诊断,气象学,军事科学,核材料安全管理,眼科学,制药学,物理学,政治学,心理学,心理物理学,质量控制,宗教研究,社会学,调查抽样,分类学,气象改善,博彩等。
•一句话,•统计学(statistics)是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。
•以归纳为主要思维方式的统计,不是以演绎为主的数学。
•统计可应用于各个不同学科,在有些学科已经有其特有的方法和特点;如生物统计(biostatistics)、经济计量学(econometrics)以及目前很热门的生物信息(bioinformation)和数据挖掘(Data Mining)的方法主体都是统计。
§1.2 现实中的随机性和规律性,概率和机会•从中学起,我们就知道物理学的许多定律,例如v=v0+at; F=ma等等•但是在许多领域,很难用如此确定的公式或论述来描述一些现象。
•一些现象既有规律性又有随机性(randomness)•肺癌患者中(主动或被动)吸烟的比例较大,这体现了规律性•而绝非每个吸烟的人都会患肺癌,这体现了随机性•再如,一般来说,白种人身材比黄种人要高些,这就是规律性•但对于具体的一个白人和一个黄种人,就很难说谁高谁矮了,这体现随机性•什么是概率(probability)?新闻中最常见的是“降水概率”•从某种意义说来,概率描述了某件事情发生的机会。
显然,这种概率不可能超过百分之百,也不可能少于百分之零。
•概率是在0和1之间(也可能是0或1)的一个数,描述某事件发生的机会。
•有些概率是无法精确推断的。
比如你明天感冒的概率•有些概率是可以知道的。
比如在打桥牌时得到一手黑桃的概率为1/635013559600,大约为1.574770×10-12(条件是洗牌均匀,没有作弊)。
实际上得任何特定的一手牌的概率都是一样的,对吗?§1.3 变量和数据•一节火车车厢有多少坐位是一个固定的数目,称为常数(constant)或者常量。
但是,开车后,坐在这节车厢的旅客有多少就没准了。
这有随机性。
该车厢的乘客数为变量(variable)。
•一个学校的注册在校男女生比例是固定的,为常量。
但是,该校任意一群学生的男女生比例就不一定和全校的比例一样了,它为变量(variable)。
•当变量按照随机规律所取的值是数量时该变量称为定量变量或数量变量(quantitative variable);因为是随机的,也称为随机变量(random variable)。
•如身高体重,购买某商品的人数等等•象性别,观点之类的取非数量值的变量就称为定性变量或属性变量或分类变量(qualitative variable,或categorical variable)。
这些定性变量也可以由定量变量来描述,如男女生的数目,持有某观点的人数比例等等。
•定性变量只有用数量来描述时,才有可能建立数学模型,并使用计算机来分析。
•数据中它们通常用哑元(dummy variable)代表,比如性别用0、1代表,三种收入用0、1、2代表(或用字母代表)•有了变量,何谓数据?•不同机构调查所得到的武汉收入万元以上市民的比例都不一样,这是变量。
而这些调查产生一些数目,这些数目就是数据(data)。
•数据是关于变量的观测值。
通过数据可验证有关的理论或假定。
•比如通过抽样调查验证美国选民对共和党候选人的支持率是否超过50%。
通过抽样,可以检验某批产品是否合格等等§1.4 变量之间的关系•现实世界紧密联系的:人们想知道投资方式和经济效益之间的关系、旅客人数和经济发展之间的关系等等•不讨论变量之间的关系,就无从谈起任何有深度的应用,统计的基本概念就仅仅是摆设而已。
§1.4.1 定量变量间的关系例1.1.广告投入和销售之间的关系。
下表(数据ads.txt)显示了某企业的广告投入•能否从该数据回答下面问题:•这两个变量是否有关系?如果有,它们的关系是否显著?这些关系是什么关系,能否用数学模型来描述?这个关系是否带有普遍性?这个关系是不是因果关系?•关于因果关系•在可控制的试验中,较容易找到因果关系;比如治疗方式和疗效的关系等。
但是,一般来说,变量之间有关系这个事实并不意味着一定存在明确的因果关系。
•比如,中国GDP在一年中是快速增长的,而一个刚出生的英国婴儿在这一年中的体重也是快速增长的。
•如果画出图来,它们有类似线性的关系。
但它们显然没有因果关系•只要有关系,即使不是因果关系也不妨碍人们利用这种关系来进行推断。
•比如利用公鸡打鸣来预报太阳升起;虽然公鸡打鸣绝对不是日出的原因(虽然打鸣发生在先)•简单的办法(诸如画图)可以得到一些信息,但不一定能够给出满意的答案。
需要更多的工具和手段来进行数值分析得到更加严格和精确的解答。
此,需要继续我们的课程§1.4.2 定性变量间的关系例1.2.下面是对123人进行关于某项政策调查所得结果的一个简单的三维表,它显示了人们的收入和性别对该项政策的观点。
(table7.txt)。
表1.2 不同收入和不同性别人群对某项政策的观点•从这个数据,希望可以看出收入、性别对观点是否有影响及如何影响•如果要得到更加精确的结论,就要进行进一步的分析和计算•这是后面列联表分析或多项分布对数线性模型的内容§1.4.3 定性和定量变量间的混和关系•有些数据不是仅有定性变量或仅有定量变量•需要知道包括定性和定量两种变量的一些变量之间的关系例1.3某新教法实验后,实验组和对照组的测验成绩表(满分为30分)问:实验组与对照组的学习效果是否存在差异?(成绩X和组group变量)演示以上三例数据的输入SPSS的界面当打开SPSS后,展现在我们面前的界面如下:请注意窗口顶部显示为“SPSS for Windows Data Editor”,表明现在所看到的是SPSS的数据管理窗口。
这是一个典型的Windows软件界面,有菜单栏、工具栏。
特别的,工具栏下方的是数据栏,数据栏下方则是数据管理窗口的主界面。
该界面和EXCEL极为相似,由若干行和列组成,每行对应了一条记录,每列则对应了一个变量。
由于现在我们没有输入任何数据,所以行、列的标号都是灰色的。
请注意第一行第一列的单元格边框为深色,表明该数据单元格为当前单元格。
定义变量该资料是定量资料,设计为成组设计,因此我们需要建立两个变量,一个变量X 代表成绩,另一个变量group代表实验组、对照组。
点击界面左下方“Variable View”,系统弹出定义变量对话框如下:在“Name”下方输入“group”、“X”两个变量名便可以了。
往下是变量情况描述,可以看到系统默认该变量为数值型,长度为8,有两位小数位,尚无缺失值,显示对齐方式为右对齐。
可以设定变量类型、标签、缺失值和列显示格式等,当然我们要根据变量的性质更改变量的属性。
输入数据点击界面左下方“Variable View”,系统弹出"Data View"对话框,我们根据变量输入数据:保存数据选择菜单File==>Save,由于该数据从来没有被保存过,所以弹出Save as对话框如下:单击保存类型列表框,可以看到SPSS所支持的各种数据类型,有DBF、FoxPro、EXCEL、ACCESS等,这里我们仍然将其存为SPSS自己的数据格式(*.sav文件)。
在文件名框内键入tspss1.3并回车,可以看到数据管理窗口左上角由Untitled 变为了现在的变量名tspss1.3。
数据的预分析数据的简单描述首先我们需要知道数据的基本情况,如均数、标准差等。
选择Analyze==>Descriptive Statistics==>Descriptives菜单,系统弹出描述对话框如下:该对话框可分为左右两大部分,左侧为所有可用的侯选变量列表,右侧为选入变量列表。
我们只需要描述X,用鼠标选中X,单击中间的,变量X的标签就会移入右侧,注意这时OK按钮变黑,表明已经可以进行分析了,单击它,系统会弹出一个新的界面如下所示:该窗口上方的名称为SPSS for Windows Viewer,即(结果)浏览窗口,整个的结构和资源管理器类似,左侧为导航栏,右侧为具体的输出结果。
结果表格给出了样本数、最小值、最大值、均数和标准差这几个常用的统计量。
还应当看看分组的描述情况。
这里要用到文件分割功能,请切换回数据管理窗口,选择Data==>Split File菜单,系统弹出文件分割对话框如下:选择单选按钮Organize output by groups,将变量GROUP选入右侧的选入变量框,单击OK钮,此时界面不会有任何改变,但请再做一次数据描述,你就可以看到现在数据是分Group=1和Group=2两种情况在描述了!如果定义了文件分割,则它会在以后的所有统计分析中起作用,直到你重新定义文件分割方式为止。
绘制直方图统计指标只能给出数据的大致情况,没有直方图那样直观,我们就来画个直方图瞧瞧!选择Graphs==>Histogram,系统会弹出绘制直方图对话框如下:将变量X 选入Variable 选择框内,单击OK 按钮。
此时结果浏览窗口内会绘制出如下二个直方图:两组的数据没有特别偏的分布,也没有十分突出的离群值,因此无须变换,可以直接采用参数分析方法来分析。