目录实验一描述性分析实验二正态总体的均值检验实验三非参数检验实验四方差分析实验五回归分析实验六判别、聚类分析实验七主成分分析实验八因子分析实验一描述性分析【实验目的】1.掌握数字特征的计算(A);2. 掌握相关矩阵计算(A)。
【实验原理】数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用;是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
要对数据进行分析,当然要分析数据中包含的主要信息,即要分析数据的主要特征,也就是说,要研究数据的数字特征。
对于数据的数字特征,要分析数据的集中位置、分散程度。
数据的分布是正态的还是偏态等。
对于多元数据,还要分析多元数据的各个分量之间的相关性等。
【实验项目设计】1.给定一组单变量数据,分组计算均值、方差、Q1、Q3、偏度、峰度。
2.给定一组多变量数据,计算相关矩阵。
【实验内容】一、单样本的数字特征计算(习题1.4) 从某商店的营业日中随机抽取12天,得日营业额数据为(单位:万元):12.5, 17.2, 9.1, 25.4, 31.2, 20, 18.9, 22.8, 21.1, 17.8, 25.1, 27.7试求样本均值、样本方差、样本变异系数、样本中位数、上样本四分位数、下样本四分位数、样本四分位数间距和极差。
1. 建数据集Data d4;Input x @@;Cards;12.5 17.2 9.1 25.4 31.2 20 18.9 22.8 21.1 17.8 25.1 27.7;Run;2. 使用“SAS/ 分析家”菜单(1)打开“分析家”界面。
选择SAS界面的级联菜单:“解决方案”➢“分析”➢“分析家”。
(2)调出数据文件Work.D4 。
在界面的空白处,右键弹出菜单,选择级联菜单:“文件”➢“按SAS名称打开”。
依次选择逻辑库和文件对象,分别为“Work”、“D4”,单击“确定”按钮。
(3)确定分析方法。
选择界面上的级联菜单:“统计”➢“描述性统计”➢“分布”(4)输送变量。
首先选中变量“x”,然后单击“Analyst”按钮。
即完成变量的输送,确定变量“x”作为分析变量。
单击“OK”。
(5)得到输出结果上述使用“分析家”的调用过程等价于程序调用univariate过程:proc univariate data=d4;Var x;Run;3. 解答样本均值mean =样本方差Variance =样本变异系数Coeff Variation =样本上四分位数75% Q3 =样本中位数Median =样本下四分位数25% Q1 =极差Range =样本四分位数间距Interquartile Range =二、相关矩阵计算(例3.2.3) 今对31个人进行人体测试,考察或测试的七个指标是:年龄(x1)、体重(x2)、肺活量(x3)、1.5英里跑的时间(x4)、休息时的脉搏(x5)、跑步时的脉搏(x6)和跑步时记录的最大脉搏(x7)。
数据列于表3.2.1。
现欲对这些指标作一些相关分析。
1. 对于给定EXCEL数据文件,导入数据建数据集e323.sas7bdat2. 使用SAS/INSIGHT菜单【实验目的】1. 掌握单正态总体样本的均值检验(B );2. 掌握两独立组样本(服从正态总体)进行均值比较(A );3. 掌握两对照组样本(服从正态总体)进行均值比较(A );4. 了解两组样本均值差的置信区间计算(C )。
【实验原理】1. 单样本总体均值的t 检验()()00:20:~11H H x t t t n t t n μμαμμ===−−−−→->-统计量:拒绝域:2. 两独立组样本总体的方差比较()()()121220:112222121120:~1,11,1,1,1,H H s F F F n n s F F n n F F n n σσαασσ=-==−−−−→--≥--≤--统计量:拒绝域:【实验项目设计】1. 单个正态总体的均值检验;2. 两独立组样本(服从正态总体)进行均值比较检验;3. 两对照组样本(服从正态总体)进行均值比较检验。
【实验内容】一、单个正态总体的均值检验(习题1.4) 从某商店的营业日中随机抽取12天,得日营业额数据为(单位:万元):12.5, 17.2, 9.1, 25.4, 31.2, 20, 18.9, 22.8, 21.1, 17.8, 25.1, 27.7 试检验:μ0 = 10 。
1. 建数据集Data d4;Input x @@;Cards;12.5 17.2 9.1 25.4 31.2 20 18.9 22.8 21.1 17.8 25.1 27.7;Run;2. 使用“SAS/ 分析家”菜单(1)打开“分析家”界面。
(2)调出数据文件Work.D4 。
(3)确定分析方法。
选择界面上的级联菜单:“统计”➢“假设检验”➢“均值的单样本T检验”(4)输送变量。
确定变量“x”为分析变量。
(5)得到输出结果3. 解答H0: μ0=10 H1: μ0≠10检验方法:t检验统计量取值: t=____检验p值=_______结论:拒绝/接受H0.二、两独立组样本(服从正态总体)进行均值比较(习题1.22) 为比较甲、乙两种安眠药的疗效,将20名患者分成两组,每组10人,假定服药后延长的睡眠时间都近似服从正态分布且方差相等,测得其数据如下:1.9, 0.8, 1.1, 0.1, -0.1, 4.4, 5.5, 1.6, 4.6, 3.40.7, -1.6, -0.2, -1.2, -0.1, 3.4, 3.7, 0.8, 0, 2试问在显著性水平a=0.05下检验两种安眠药的疗效有无显著性差异,p值是多少?1. 建数据集前面的“分析家”界面不要关闭,切换到程序编辑窗口,输入程序。
Data d22;Input x y;Cards;1.9 0.70.8 -1.61.1 -0.20.1 -1.2-0.1 -0.14.4 3.45.5 3.71.6 0.84.6 03.4 2;Run;2. 使用“SAS/分析家”菜单(1)回到“分析家”界面,调出数据文件work.d22(2)确定分析方法。
选择级联菜单:“统计”➢“假设检验”➢“均值的双样本T检验”(3)设置数据集work.d22中,各样本分组数据对应的变量个数:“Two variables”。
(4)输送变量。
将变量“x”输送给“group1”,“y”输送给“group2”,单击“OK”(5)输出结果如下(6)涉及到两独立组的方差,继续检验两组方差是否相等。
回到“分析家”界面上,选择级联菜单“统计”➢“假设检验”➢“方差的双样本T检验”(7)输送变量。
将变量“x”输送给“group1”,“y”输送给“group2”,单击“OK”。
(8)输出结果如下3. 解答H0: σ1=σ2 H1: σ1≠σ2检验方法:F检验统计量取值:F=____检验p值=_______结论:拒绝/接受H0.两独立组的方差是/否相等。
H0: μ1=μ2 H1: μ1≠μ2检验方法:t检验统计量取值: t=____检验p值=_______结论:拒绝/接受H0. 两种安眠药的疗效有/无显著性差异三、两对照组样本(服从正态总体)进行均值比较(习题1.24)甲、乙两种稻种分别播种在10块试验田中,每块试验田甲、乙稻种各种一半。
假设同一块田中两种作物的产量之差服从正态分布。
现获10块田的成对产量如下表所示(单位:公斤),试问两种稻种产量有无显著性差异(a=0.05),p值是多少?1. 建数据集Data d24;Input x y @@ ;Cards;140 135 137 138 136 125 140 140 145 128148 131 140 130 135 140 144 131 141 125;Run;2. 使用“SAS/分析家”菜单(1)回到“分析家”界面,调出数据文件work.d24(2)确定分析方法。
选择级联菜单:“统计”➢“假设检验”➢“均值的双样本成对T检验”(3)输送变量。
设置各分组数据对应的变量个数:“Two variables”,并输送变量“x”“y”,单击“OK”,得到输出结果如下:3. 解答H0: μ1=μ2 H1: μ1≠μ2检验方法:t检验统计量取值:t=____检验p值=_______结论:拒绝/接受H0,两种稻种产量有/无显著性差异.实验三非参数检验【实验目的】1.掌握卡方检验(A);2.熟悉符合检验、符号秩和检验、秩和检验。
【实验原理】非参数统计是统计分析的重要组成部分。
可是与之很不相称的是它的理论发展远远不及参数检验完善,因而比较完善的可供使用的方法也不多。
在SAS中,非参数统计主要由UNIVARIATE过程、MEANS过程和NPAR1WAY过程来实现,使用SAS的“分析家”系统可以方便地进行界面操作。
【实验项目设计】1.对列联表,检验行变量与列变量的关联性;2.给定一组未知总体的样本数据,检验μ=μ0;3.给定两组未知总体的样本数据,检验μ1=μ2。
【实验内容】一、对列联表,检验行变量与列变量的关联性(习题4.7) 下表为某药治疗感冒效果的3x3列表。
疗效\年龄儿童成年老年合计显著58 38 32 128一般28 44 45 117较差23 18 14 55合计109 100 91 300试问:疗效与年龄是否关联(a=0.05)?1. 建数据集Data d0407;Do effect='显著', '一般','较差';Do age='儿童','成年','老年';input num @@;output;end;end;Cards;58 38 3228 44 4523 18 14;Run;2. 使用“SAS/ 分析家”菜单(6)打开“分析家”界面。
(7)调出数据文件Work.D0407。
(8)确定分析方法。
选择界面上的级联菜单:“统计”➢“表分析”得到列联表的空白界面。
(9)输送变量。
选中变量“effect”,单击“Row”按钮;选中变量“age”,单击“Column”按钮;选中变量“num”,单击“Cell Counts”按钮。
完成变量输送。
显示如下。
(10)选择附加的统计方法。
在列联表分析(Table Analysis)界面的右边下角,点击“statistics”按钮,打开选项设置页。
勾选“chi-square statistics”。
如图所示。
单击“OK”按钮。
值得一提的是,卡方检验默认使用近似计算,目的是为了节省时间。
当然也可以勾选中间的“Exact test ”选项卡,来指定精确检验,只是某些时候的运行时间无法控制。