第一章统计数据的收集与整理算术平均数是怎样计算的为什么要计算平均数答:算数平均数由下式计算:n yynii∑==1,含义为将全部观测值相加再被观测值的个数除,所得之商称为算术平均数。
计算算数平均数的目的,是用平均数表示样本数据的集中点,或是说是样本数据的代表。
既然方差和标准差都是衡量数据变异程度的,有了方差为什么还要计算标准差答:标准差的单位与数据的原始单位一致,能更直观地反映数据地离散程度。
标准差是描述数据变异程度的量,变异系数也是描述数据变异程度的量,两者之间有什么不同答:变异系数可以说是用平均数标准化了的标准差。
在比较两个平均数不同的样本时所得结果更可靠。
完整地描述一组数据需要哪几个特征数答:平均数、标准差、偏斜度和峭度。
下表是我国青年男子体重(kg)。
由于测量精度的要求,从表面上看像是离散型数据,不要忘记,体重是通过度量得到的,属于连续型数据。
根据表中所给出的数据编制频数分布表。
6 66964656466686562646961616866576669666570645867666667666662666664626265646566726 06665616166676265656164626465626568686567686263706564656266626368656857676668636 466686463664696566676767656767666864675 9666563566663636667637067706264726967676 6686465716163616464676970666465646370646 2697068656365666468696563676370656867696 66567667464696564656568676565666772656762677169656575626968686563666665626168656467666466168676359656646369627169663596761686966646965686764646669736866633666666667266666666668 2 7 5 5 9 5 7 5 6 7 4 1 4 6 3 3 6 6 66 63 65 63 67 68 66 62 63 61 66 61 63 68 65 66 69 64 66 70 6970636465646767656662616565606365626664答:首先建立一个外部数据文件,名称和路径为:E:\data\。
所用的SAS 程序和计算结果如下:proc format; value hfmt56-57='56-57' 58-59='58-59' 60-61='60-61' 62-63='62-63' 64-65='64-65' 66-67='66-67' 68-69='68-69' 70-71='70-71' 72-73='72-73' 74-75='74-75'; run;data weight;infile 'E:\data\'; input bw @@; run;proc freq; table bw;format bw hfmt.; run;The SAS SystemCumulative CumulativeBW Frequency Percent Frequency Percent -----------------------------------------------------56-57 3 3 58-59 4 7 60-61 22 29 62-63 46 75 64-65 83 158 66-67 77 235 68-69 45 280 70-71 13 293 72-73 5 298 74-75 2 300将上述我国男青年体重看作一个有限总体,用随机数字表从该总体中随机抽出含量为10的两个样本,分别计算它们的平均数和标准差并进行比较。
它们的平均数相等吗标准差相等吗能够解释为什么吗答:用means 过程计算,两个样本分别称为1y 和2y ,结果见下表:The SAS SystemVariable N Mean Std Dev---------------------------------------- Y1 10 Y2 10 ----------------------------------------随机抽出的两个样本,它们的平均数和标准差都不相等。
因为样本平均数和标准差都是统计量,统计量有自己的分布,很难得到平均数和标准差都相等的两个样本。
从一个有限总体中采用非放回式抽样,所得到的样本是简单的随机样本吗为什么本课程要求的样本都是随机样本,应当采用哪种抽样方法,才能获得一随机样本答:不是简单的随机样本。
从一个有限总体中以非放回式抽样方法抽样,在前后两次抽样之间不是相互独立的,后一次的抽样结果与前一次抽样的结果有关联,因此不是随机样本。
应采用随机抽样的方法抽取样本,具体说应当采用放回式抽样。
证明()()∑∑==±='-='-'n i ni i i iiC y y y yy y 1122,。
其中若用C y y ii ='或i i Cy y ='编码时,前式是否仍然相等答:(1)令 C y y i i ±='则 C y y ±=' 平均数特性之③。
()()()[]()∑∑∑===-=±-±='-'ni i n i i ni iy y C y C y y y 121212(2) 令 C y y ii =' 则C yy =' 平均数特性之②。
()()2122112C y yC y C yy y ni ini i ni i∑∑∑===-=⎪⎭⎫ ⎝⎛-='-'用第二种编码方式编码结果,两式不再相等。
有一个样本:n y y y ,,,21Λ,设B 为其中任意一个数值。
证明只有当y B =时,()∑=-ni B y 12最小。
这是平均数的一个重要特性,在后面讲到一元线型回归时还会用到该特性。
答:令 ()∑-=2B y p , 为求使p 达最小之B ,令()02=∂-∂∑B B y则 ()yn y B B y ===-∑∑02 。
检测菌肥的功效,在施有菌肥的土壤中种植小麦,成苗后测量苗高,共100株,数据如下[1]:编制苗高的频数分布表,绘制频数分布图,并计算出该样本的四个特征数。
答:首先建立一个外部数据文件,名称和路径为:E:\data\。
SAS程序及结果如下:options nodate;proc format;value hfmt'' '' '''' '' '''' '';run;data wheat;infile 'E:\data\';input height @@;run;proc freq;table height;format height hfmt.;run;proc capability graphics noprint;var height;histogram/vscale=count;inset mean var skewness kurtosis;run;The SAS SystemThe FREQ ProcedureCumulative Cumulativeheight Frequency Percent Frequency Percent ---------------------------------------------------------------------1 19 1011 2123 4424 6811 7915 946 100北太平洋宽吻海豚羟丁酸脱氢酶(HDBH)数据的接收范围频数表[2]如下:(略作调整)HDBH数据的接收范围频数/(U·L-1)<2141< 13< 211< 319< 426< 522< 511< 613< 76< 83< 92根据上表中的数据作出直方图。
答:以表中第一列所给出的数值为组界,直方图如下:灵长类手掌和脚掌可以握物一侧的皮肤表面都有突起的皮肤纹嵴。
纹嵴有许多特征,这些特征在胚胎形成之后是终生不变的。
人类手指尖的纹型,大致可以分为弓、箕和斗三种类型。
在手指第一节的基部可以找到一个点,从该点纹嵴向三个方向辐射,这个点称为三叉点。
弓形纹没有三叉点,箕形纹有一个三叉点,斗形纹有两个三叉点,记录从三叉点到箕或斗中心的纹嵴数目称为纹嵴数(finger ridge count, FRC)。
将双手十个指尖的全部箕形纹的纹嵴数和/或斗形纹两个纹嵴数中较大者相加,称为总纹嵴数(total finger ridge count, TFRC)。
下表给出了大理白族人群总纹嵴数的频数分布[3]:TFRC分组中值频数11~3020231~5040151~7060871~90802991~11010054111~13012063131~15014068151~17016051171~19018018191~2102006首先判断数据的类型,然后绘出样本频数分布图,计算样本的四个特征数并描述样本分布形态。
答:总纹脊数属计数数据。
计数数据的频数分布图为柱状图,频数分布图如下:样本特征数(以TFRC的中值计算)SAS程序:options nodate;data tfrc;do i=1 to 10; input y @@;input n @@;do j=1 to n;output;end;end;cards;20 240 160 880 29100 54120 63140 68160 51180 18200 6;run;proc means mean std skewness kurtosis;var y;run;结果见下表:The SAS SystemAnalysis Variable : YMean Std Dev Skewness Kurtosis------------------------------------------------------------------------------------------------------------从频数分布图可以看出,该分布的众数在第七组,即总纹脊数的中值为140的那一组。