第一章统计数据的收集与整理1.1算术平均数是怎样计算的?为什么要计算平均数?ny iy —答:算数平均数由下式计算:n ,含义为将全部观测值相加再被观测值的个数除,所得之商称为算术平均数。
计算算数平均数的目的,是用平均数表示样本数据的集中点,或是说是样本数据的代表。
1.2既然方差和标准差都是衡量数据变异程度的,有了方差为什么还要计算标准差?答:标准差的单位与数据的原始单位一致,能更直观地反映数据地离散程度。
1.3标准差是描述数据变异程度的量,变异系数也是描述数据变异程度的量,两者之间有什么不同?答:变异系数可以说是用平均数标准化了的标准差。
在比较两个平均数不同的样本时所得结果更可靠。
1.4完整地描述一组数据需要哪几个特征数?答:平均数、标准差、偏斜度和峭度。
1.5下表是我国青年男子体重(kg)。
由于测量精度的要求,从表面上看像是离散型数据,不要忘记,体重是通过度量得到的,属于连续型数据。
根据表中所给出的数据编制频数分布表。
66 69 64 65 64 66 68 65 62 64 69 61 61 68 66 57 66 69 66 65 7 67 66 66 62 66 66 64 62 62 65 64 65 66 72 6 67 62 65 65 61 64 62 64 65 62 65 68 68 65 67 68 62 63 7 62 63 68 65 68 57 67 66 68 63 64 66 68 64 63 6 67 67 65 67 67 66 68 64 6759 66 65 63 56 66 63 63 66 67 63 7 69 67 67 66 68 64 65 71 61 63 61 64 64 67 69 7 70 64 62 69 7 64 68 69 65 63 67 63 70 65 68 67 69 66 65 67 66 74 64 69 65 64 65 65 68 67 65 65 66 67 72 65 67 62 67 71 69 65 65 75 62 69 68 68 65 63 66 66 65 62 61 68 65 64 67 66 64 6 65 6 69 60 63 59 67 61 68 69 66 64 69 65 68 67 64 64 66 69 73 68 60 60 63 38 62 67 65 65 69 65 67 65 72 66 67 64 61 64 66 63 63 66 66 66 63 65 63 67 68 66 62 63 61 66 61 63 68 65 66 69 64 66 70 69 7 67 65 66 62 61 65 65 6答:首先建立一个外部数据文件,名称和路径为:E:\data\exer1-5e.dat。
所用的SAS程序和计算结果如下:proc format;value hfmt56-57='56-57' 58-59='58-59' 60-6仁'60-61'62-63='62-63' 64-65='64-65' 66-67='66-67'68-69='68-69' 70-71=70-71' 72-73=72-73'74-75=74-75:run;data weight;in file 'E:\data\exer1-5e.dat';in put bw @@;run;proc freq;table bw;format bw hfmt.;run;The SAS SystemCumulative CumulativeBW Freque ncy Perce nt Freque ncy Perce nt56-57 3 1.0 3 1.058-59 4 1.3 7 2.360-61 22 7.3 29 9.762-63 46 15.3 75 25.064-65 83 27.7 158 52.766-67 77 25.7 235 78.368-69 45 15.0 280 93.370-71 13 4.3 293 97.772-73 5 1.7 298 99.374-75 2 0.7 300 100.01.6将上述我国男青年体重看作一个有限总体,用随机数字表从该总体中随机抽出含量为10的两个样本,分别计算它们的平均数和标准差并进行比较。
它们的平均数相等吗?标准差相等吗?能够解释为什么吗?答:用means过程计算,两个样本分别称为y1和y2,结果见下表:The SAS SystemVariable N Mea n Std DevY1 10 64.5000000 3.5039660Y2 10 63.9000000 3.1780497随机抽出的两个样本,它们的平均数和标准差都不相等。
因为样本平均数和标准差都是统计量,统计量有自己的分布,很难得到平均数和标准差都相等的两个样本。
1.7从一个有限总体中采用非放回式抽样,所得到的样本是简单的随机样本吗?为什么?本课程要求的样本都是随机样本,应当采用哪种抽样方法,才能获得一随机样本?答:不是简单的随机样本。
从一个有限总体中以非放回式抽样方法抽样,在前后两次抽样之间不是相互独立的,后一次的抽样结果与前一次抽样的结果有关联,因此不是随机样本。
应采用随机抽样的方法抽取样本,具体说应当采用放回式抽样。
n ny i y 2 y i y2,其中 $ y i c。
y.出1.8证明i 1 i 1若用c或y i Cy i编码时,前式是否仍然相等?(2)令i 1 nY ii 1 ______C" 用第二种编码方式编码结果,两式不再相等。
1.9 有-个样本:y 1, y 2, ,yn ,设B 为其中任意一个数值。
证明只有当 B y 时,n yB 2i 1最小 。
这是平均数的一个重要特性,在后面讲到兀线型回归时还会用到该特性。
y B 2°答: 令PY,为求使p 达最小之B ,令By -2yB 0 By则n 。
1.10检测菌肥的功效,在施有菌肥的土壤中种植小麦,成苗后测量苗高,共100株,数据如下[1]:10.0 9.3 7.2 9. 1 8.5 8. 0 10.5 10.6 9.6 10.1 7.06.79.5 7. 10.5 7. 8.19.67.69.48 910.07.5 7.25. 7.3 8. 7.16.15.26.80 710.09.97.54. 7.6 7. 9.76.2 8.06.958.3 8.6 10.04. 4.9 7.8.3 8.4 7.8 7.5 8 06.6 10.0 6.5 9. 5 8.5 11.0 9.7 6.6 10.0 5.0 6.58.08.4 8.7.47. 8.17.77.57.13 47.87.68.6 6.7.0 6.6.76.3 6.4 11.0410.57.85.0 8.7.0 7.5.26.79.08.64答:(i )令y i y i平均数特性之③。
y i y i y i_Y平均数特性之②。
_ 2_y C4.6 6.9 3.5 6. 9.7 6.5.86.4 9.3 6.42 4编制苗高的频数分布表,绘制频数分布图,并计算出该样本的四个特征数。
答:首先建立一个外部数据文件,名称和路径为:E:\data\exr1-10e.dat。
SAS程序及结果如下:opti ons no date;|_proc format;value hfmt3.5-4.4='3.5-4.4' 4.5-5.4='4.5-5.4' 5.5-6.4='5.5-6.4'6.5-7.4='6.5-7.4' 7.5-8.4='7.5-8.4' 8.5-9.4='8.5-9.4'9.5- 10.4=95-104 10.5-11.4='10.5-11.4:run;data wheat;in file 'E:\data\exr1-10e.dat';in put height @@;run;proc freq;table height;format height hfmt.;run;proc capability graphics n opri nt;var height;histogram/vscale=co unt;in set mean var skew ness kurtosis;run;The SAS SystemThe FREQ ProcedureCumulative Cumulative height Freque ncy Perce nt Freque ncy Perce nt3.5-4.4 1 1.00 1 1.004.5-5.4 9 9.00 10 10.005.5-6.4 11 11.00 21 21.006.5-7.4 23 23.00 44 44.007.5-8.4 24 24.00 68 68.008.5-9.4 11 11.00 79 79.009.5-10.4 15 15.00 94 94.0010.5-11.4 6 6.00 100 100.00HDBH数据的接收范围/(U L-1)频数<214 1<245.909 1 3<277.818 2 11<309.727 3 19<341.636 4 26<373.545 5 22<405.454 5 11<437.363 6 13<469.272 7 6<501.181 8 3<533.090 9 2根据上表中的数据作出直方图。
答:以表中第一列所给出的数值为组界,直方图如下:1.11北太平洋宽吻海豚羟丁酸脱氢酶(HDBH )数据的接收范围频数表[2]如下:(略作调整)1.12灵长类手掌和脚掌可以握物一侧的皮肤表面都有突起的皮肤纹嵴。
纹嵴有许多特征,这些特征在胚胎形成之后是终生不变的。
人类手指尖的纹型,大致可以分为弓、箕和斗三种类型。
在手指第一节的基部可以找到一个点,从该点纹嵴向三个方向辐射,这个点称为三叉点。
弓形纹没有三叉点,箕形纹有一个三叉点,斗形纹有两个三叉点,记录从三叉点到箕或斗中心的纹嵴数目称为纹嵴数( fin ger ridge cou nt, FRC)。
将双手十个指尖的全部箕形纹的纹嵴数和/或斗形纹两个纹嵴数中较大者相加,称为总纹嵴数( total fin ger ridge cou nt, TFRC)。