何晓群编著,《现代统计分析方法与应用》第三版,中国人民大学出版社,2012。
数据和部分程序下载第2章服装标准例程序利用R软件,运行如下R程序便可计算相应的条件均值和条件协方差矩阵:#均值向量m=matrix(c(154.98,83.39,70.26,61.32,91.52),nrow=5,ncol=1);m;#协方差矩阵sigma=matrix(c(29.66,6.51,1.85,9.36,10.34,6.51,30.53,25.54,3.54,19.53,1.85,25.54,39.86,2.23,20.70,9.36,3.54,2.23,7.03,5.21,10.34,19.53,20.70,5.21,27.36),5,5);sigma;#条件均值x5=85;m1=matrix(m[1:4,1],4,1)+matrix(sigma[1:4,5]*sigma[5,5]^(-1),4,1)%*%(x5-sigma[5,1]);m1;#条件协方差1(d[x1,x2,x3,x4|x5])d1=sigma[1:4,1:4]-matrix(sigma[1:4,5]*sigma[5,5]^(-1),4,1)%*%matrix(sigma[5,1:4],1,4);d1;#条件协方差2(d[x1,x2,x3|x4,x5])d2=d1[1:3,1:3]-matrix(d1[1:3,4]*d1[4,4]^(-1),3,1)%*%matrix(d1[4,1:3],1,3);d2;注:上面程序假定585X ,可以根据实际情况更改5X的值以计算相应的条件均值。
利用R软件,运行如下的R程序便可计算出偏相关系数:#均值向量m=matrix(c(154.98,83.39,70.26,61.32,91.52),nrow=5,ncol=1);m;#协方差矩阵sigma=matrix(c(29.66,6.51,1.85,9.36,10.34,6.51,30.53,25.54,3.54,19.53,1.85,25.54,39.86,2.23,20.70,9.36,3.54,2.23,7.03,5.21,10.34,19.53,20.70,5.21,27.36),5,5);sigma;#偏相关系数1(r[12.45])r1=d2[1,2]/sqrt(d2[1,1]*d2[2,2]); r1;#偏相关系数2(r[13.45])r2=d2[1,3]/sqrt(d2[1,1]*d2[3,3]); r2;#偏相关系数3(r[23.45])r3=d2[2,3]/sqrt(d2[2,2]*d2[3,3]); r3;第3章例3.1 某超市为了研究顾客对三种牌号的矿泉水的喜好比例,以便为下一次进货提供决策,随机观察了150名购买者,并记录下他们所买的品牌,统计出购买三种品牌的人数如表3-1。
表3-1 顾客购买喜好调查这些数据是否说明顾客对这三种矿泉水的喜好确实存在差异?表3-7 喜好地板的数据表3-9)(ˆijn E 的计算(括号中的数)表3-11表3-12表3-13表3-15 工作表现按地区划分的结果表3-17 按所喜欢的电视节目类型分类的三组人员样本表3-19 宾馆注销房间的数据表3-202χ检验的计算表3-23表3-242χ检验的计算表3-266.在进行一项市场调查时,得到了关于375个家庭的户主受教育水平和年收入的资料。
表3-27是这些资料按两种标准进行交叉分类的结果。
试以0.05的显著性水平检验关于收入与受教育水平彼此独立的零假设。
表3-27表3-28表3-29第4章例4.1假定我们需要研究化肥施用量与粮食产量的关系,以便准确地定出化肥施用量的单位变化如何影响粮食产量的平均单位变化,进而确定合理的化肥施用量。
表4.1列出了20组粮食产量与化肥施用量的数据。
图4.1给出20个样本点的分布状况。
表4.1 粮食产量与化肥施用量例4.2 在研究我国人均消费水平的问题中,把全国人均消费金额记作y(元);把人均国民收入记为x(元)。
我们收集到1986-2005年20年的样本数据(x i,y i),i=1,2,…,n。
数据见表4.2。
表4.2 人均国民收入表表4.8 1973年Anscombe构造了四组数据表4--9表4--10第5章表5.4表5.7表5.10第5章习题9的数据表5.11第6章数据表6-7表6-9第7章例7.3表7-1是五大钢铁公司反映经营状况的十大指标,为了比较国内钢铁公司与韩国蒲项钢铁公司的差距,下面做出韩国蒲项钢铁公司、宝钢、鞍钢、武钢、首钢五家钢铁公司的脸谱图。
表7-1例7.4资料仍取我国35个上市公司的资料。
常见的EXCEL就可画出很漂亮的雷达图。
用EXCEL画雷达图的方法,比如仅对深能源和深南电两公司画雷达图,方法如下:在EXCEL窗口中,输入资料格式如下:例7.7附:MATLAB做星座图的程序%每一行为一个样本,行数目代表样本数,列数目代表维数X=[109.61 8.71 18.51 3.36 10.91 19.19 61.02 29.73127.17 10.5 17.53 2.75 10.29 14.34 58.81 80.63118.87 9.73 20.44 5.2 7.65 18.74 53.21 60.35125.74 10.93 14.19 6.12 13.53 17.85 68.05 47.46];[row,col]=size(X);%1 将数据变换为角度Xmin=min(X); %1 * colXmax=max(X); %1 * colSita=(X-ones(row,1)*Xmin)./(ones(row,1)*Xmax-ones(row,1)*Xmin)*pi;%2 适当的选取权重w=1/col;%3 每一点的路径Xi=cos(Sita);Yi=sin(Sita);Uk=w*cumsum(Xi,2);Vk=w*cumsum(Yi,2);%4 画一个半径为1的上半圆i=[0:pi/100:pi];hold on;plot(cos(i),sin(i));hold on;plot([-1:1/100:1],0*[-1:1/100:1]);%5 画星座图for i=1:rowhold on;plot(Uk(i,:),Vk(i,:),'.-');hold on;plot(Uk(i,col),Vk(i,col),'*');end第8章[例8.1] 若我们需要将下列11户城镇居民按户主个人的收入进行分类,对每户作了如下的统计,结果列于表8.1。
在表中,“标准工资收入”、“职工奖金”、“职工津贴”、“性别”、“就业身份”等称为指标,每户称为样品。
若对户主进行分类,还可以采用其他指标,如“子女个数”、“政治面貌”等,指标如何选择取决于聚类的目的。
表8.1 某市2001年城镇居民户主个人收入数据X1 职工标准工资收入 X5 单位得到的其他收入X2 职工奖金收入 X6 其他收入X3 职工津贴收入 X7 性别X4 其他工资性收入 X8 就业身份X1 X2 X3 X4 X5 X6 X7 X8 540.00 0.0 0.0 0.0 0.0 6.00 男国有1137.00 125.00 96.00 0.0 109.00 812.00 女集体1236.00 300.00 270.00 0.0 102.00 318.00 女国有1008.00 0.0 96.00 0.0 86.0 246.00 男集体1723.00 419.00 400.00 0.0 122.00 312.00 男国有1080.00 569.00 147.00 156.00 210.00 318.00 男集体1326.00 0.0 300.00 0.0 148.00 312.00 女国有1110.00 110.00 96.00 0.0 80.00 193.00 女集体1012.00 88.00 298.00 0.0 79.00 278.00 女国有1209.00 102.00 179.00 67.00 198.00 514.00 男集体1101.00 215.00 201.00 39.00 146.00 477.00 男集体【例8.3】为了研究辽宁等5省份2000年城镇居民消费支出的分布规律,根据调查资料作类型划分。
指标名称及原始数据见表8.3。
资料来源中国统计年鉴(2000年)。
表8.3 2000年5个省市城镇居民平均每人全年消费性支出数据X1 食品支出(元/人)X5 交通和通讯支出(元/人)X2 衣着支出(元/人)X6 娱乐、教育和文化服务支出(元/人)X3 家庭设备、用品及服务支出(元/人)X7 居住支出(元/人)X4 医疗保健支出(元/人)X8 杂项商品和服务支出(元/人)X1 X2 X3 X4 X5 X6 X7 X8辽宁1772.14 568.25 298.66 352.20 307.21 490.83 364.28 202.50浙江2752.25 569.95 662.31 541.06 623.05 917.23 599.98 354.39河南1386.76 460.99 312.97 280.78 246.24 407.26 547.19 188.52甘肃1552.77 517.16 402.03 272.44 265.29 563.10 302.27 251.41青海1711.03 458.57 334.91 307.24 297.72 495.34 274.48 306.45 [例8.8] 城镇居民消费水平通常用表8.4中的八项指标来描述,八项指标间存在一定的线性相关。
为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际就是对指标聚类。
原始数据列于表8.4。
将原始数据录入SPSS,并依次点击“Analyze”→“Correlate”→“Bivariate”,打开Bivariate Correlations对话框,把八个变量选入Variables栏中,单击“OK”,得到这八个指标对应的相关系数,列于表8.5。
表8.4 2005年31个省、市、自治区城镇居民月平均消费数据x1 人均粮食支出(元/人) x5 人均衣着支出(元/人)x2 人均副食支出(元/人)x6 人均日用杂品支出(元/人) x3 人均烟、酒、饮料支出(元/人)x7 人均水电燃料支出(元/人) x4 人均其他副食支出(元/人)x8 人均其他非商品支出(元/人)4.近几年,中国房地产业得到了长足的发展,但房地产价格的上涨一直饱受争议,甚至有逃离“北、上、广”的言论,这也从侧面反映了房地产价格的区域性特征,下表为2008年中国31个省、市、自治区房地产业的相关统计数据,试根据这些数据分别进行R型和Q型聚类分析。