统计学第一至四章答案第一章一、思考题1.统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。
统计方法可分为描述统计和推断统计。
2.统计数据的分类:按计量尺度:分类数据、顺序数据和数值型数据按获取数据的方式:观测数据和实验数据按数据与时间的关系:截面数据和时间序列数据特点:分类数据各类别之间是平等的并列关系,各类别之间的顺序可以任意改变;顺序数据的分类是有序的;数值型数据说明的是现象的数量特征,是定量数据;观测数据是通过调查或观测而收集到的数据,是在没有对事物进行人为控制的条件下得到的;实验数据是在实验中控制实验对象而收集到的数据;截面数据也称静态数据,描述的是现象在某一时刻的变化情况;时间序列数据也称动态数据,描述的是现象随时间的变化情况。
3.对武昌分校的全体教师进行工资调查,那么全体教师就是总体,从中抽取五十名教师进行调查,这五十名教师的集合就是样本,全体教师工资的总体平均值和总体标准差等描述特征的数值就是参数,五十名教师工资的样本平均值和样本标准差等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说教师的工资。
4.有限总体:指总体的围能够明确确定,而且元素的数目是有限可数的。
例如:武昌分校10 级金融专业学生无限总体:指总体所包含的元素是无限的、不可数的。
例如:整个宇宙的星球5.变量可分为分类变量、顺序变量、数值型变量。
同时数值型变量可分为离散型变量和连续型变量。
6.离散型变量只能取有限个值,而且其取值都以整位数断开,可以一一列举,例如“产品数量” 、“企业数”。
连续型变量的取值指连续不断的,不能一一列举。
例如“温度” 、“年龄”。
二、练习题1.(1)数值型变量(2)分类变量(3)数值型变量(4)顺序变量(5)分类变量2.(1)这一研究的总体是IT 从业者,样本是从IT 从业者中抽取的1000 人,样本量是1000(2)“月收入”是数值型变量(3)“消费支付方式”是分类变量3.(1)这一研究的总体是所有的网上购物者(2)“消费者在网上购物的原因”是分类变量第二章一、思考题1:答:1:普查的特点:①:普查通常是一次性的或周期性的;②:普查一般需要规定统一的调查时间;③:普查的数据一般比较准确;4:普查的使用围比较狭窄,只能调查一些最基本的、特定的现象。
2 :抽样调查的特点:①:经济性;②:时效性强;③:适应面广;④:准确性高。
2:答:具体收集方法有:①:询问调查:a:访问调查,b:邮寄调查,c:调查,d:计算机辅助调查,e:座谈会,f:个别深度访问;②:观察与实验:a:观察法,b:实验法。
3:答:调查方案包括以下几个方面的容:调查目的、调查对象和调查单位、调查项目、调查表等。
4:答:⑴:调查问卷指的是用来收集调查数据的一种工具,是调查者根据调查目的和要求所设计的,由一系列问题、备选答案、说明以及码表组成的一种调查形式:⑵组成:由开头部分、甄别部分、主体部分和背景部分组成。
5:注意的问题:①:提问的容尽可能的短;②:用词要确切、通俗;③:一项提问只包括一项容;④:避免诱导性的问题;⑤: 避免否定式的提问;⑥:避免敏感性的问题。
6:方法主要有:两项选择法、多项选择法、顺序选择法、评定尺度法、双向列连法五种。
7:问题设计时应注意的问题:①:问题的安排应该具有逻辑性;②:问题的顺序应该先易后难;③:能引起被调查者兴趣的问题先放在前面;④:开放性问题放在后面。
第三章一、思考题1:答:数据预处理容: 数据审核(完整性和准确性;适用性和实效性),数据筛选和数据排序.2:答:区别:首先:条形图中的每一个矩形表示一个类别,其宽度没有意义,而直方图的宽度则表示各组的组距;其次:由于分组数据具有连续性,直方图的各矩形通常是连续排列的,而条形是分开排列的;最后:条形图主要用于展示定性数据,而直方图则主要是用于展示定量数据。
3:答:区别:饼图只能显示一个样本各部分所占的比例,而环形图可显示多个样本各部分所占的比例。
4:与直方图相比,茎叶图既能给出数据的分布状态况,又能给出每一个原始数值,即保留了原始数据的信息。
而直方图虽然能很好地显示数据的分布,但是不能保留数据的原始数据信息。
5:应注意的问题:图标中应包括以下特征:①:显示数据、②:让读者把注意力集中在图形的容上,而不是在绘制图形的程序上③:避免歪曲、④:强调数据之间的比较、⑤:服务于一个明确的目的、⑥:有对图形的统计描述和文字说明。
第四章一、思考题1、一组数据的分布特征可以从三个方面进行测度:一是分布的集中趋势,反映各数据向其中心值靠拢或集中的程度:二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏态和峰态。
2、四分位数的计算方法:四分位数是一组数据排序后处于25% 和75%位置上的值,根据原始数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置,该位置上的数值就是四分位数。
3、几何平均数是指一组数据值的连乘积的数据值个数次方根。
比率数据属于相对数,它不能如绝对数那样对其进行累加,而只能对其进行连乘。
在实际应用中,对于比率数据的平均采用几何平均要比算数平均更合理。
4、众数是一组数据分布的最高峰点所对应的数值,不受极端值的影响。
如果数据的分布没有明显的最高峰,众数也有可能不存在;如果有两个或多个最高峰点,也可以有两个或多个众数。
主要适合作为分类数据的集中趋势测度值。
中位数是一组数据排序后处于中间位置上的变量值,不受极端值的影响。
主要适合作为顺序数据的集中趋势测度值,在研究收入分配是很有用。
平均数对数值型数据计算的,而且利用了全部数据信息,在实际应用中最广泛。
当数据呈对称分布或近似对称分布时,三个代表值相等或相近,此时应选择平均数。
但平均数易受极端值的影响,对于偏态分布的数据,平均数的代表性较差,此时应考虑中位数或众数。
5、对于顺序数据,主要使用四分位差来测量其离散程度;对于数值型数据主要使用方差或标准差来测量其离散程度。
6、有了平均数和标准差之后,可以计算一组数据中每个数值的标准分数,以测度每个数值在该组数据中的相对位置, 并可以用 它来判断一组数据是否有离散点。
7、标准差是反映数据差异水平的绝对值。
一方面,标准差数值的大小受原始数据绝对值大小的影响, 绝对值大的,标准差的值自然也就大,绝对值小的,标准差的值自然也就小;另一方面, 标准差与原始数据的计量单位相同, 采用不同计量单位计量的数据,其标准差的值也就不同。
因此,对于不同组别的数据,如果 原始数据的绝对值相差较大或计量单位不同时,就不能用标准差直接比较其离散程度,这时需要计算离散系数。
二、练习题1. ⑴M o =1O 中位数位置=n+1/2=10+1/2=5.5 M e =102. (1)依表数据可知 M o 19 M o 23,将数据排序,可得:中位数位置=口 13 所以M=232n 25(2) Q 25%位置 6.25, Q 25% 19 0.25* (19 19) 194 43* 25Q 75%位置18.75, Q 75% 25 0.75* (27-25) 26.54⑵Q 25%位置 - 2.5 , Q 25%4 7 5.5 42 Q 75%位置30 7.5 , Q 75%12 12 12 4 2x = X ii 1 2 n 4 严=96/10=92X (2 9.6)2 (15 9.6)24.210 1 (3)s=(4) 从众数、中位数及平均数看,网民年龄大多在 差较大,网民间年龄差异较大。
3. ( 1)如图所示:(3) 因为两种排队方式平均数不同,所以只能用离散系数进行比较。
V 1 = 1j97 0.274;V 20714 0.102 因为 V 1>V 2,所以第一种方式离 7.27 散程度更大。
茎叶 数据个数 55 1 66 7 8 3 7 1 3 4 8 85 5.5 6.6 7.8 7.8 63(2) x7 9 9 (5.5 7)2 (7.8 7)2 Xi 19 1517 23 2425 (X i X)i 1 (19 24)2 (23 24)2 ” 25 1 .1062 6.6525 1 23〜24.标准4.08 hr0.714 sn 1(4)选择第二种方式。
因为第二种的平均等待时间短,离散程度小于第一种,每位顾客等待时间差别小,更具有优势。
4.甲的平均成本=总产量2100 3°0° 1200 660019.4115 20 30乙的平均成本=总成本眾1500 1囂 需18.29 15 20 30两单位单位成本虽然一致, 但乙企业中成本较低的产品比重较大, 从而拉低了总平均成本。
受样本大小的影响。
(2)两位调查人员得到的身高的平均差应该相差不打,因为标准差也并不受样本大小影响。
(3)所取样本较大的调查员获得身高最高或最低者的机会更大,因为样本取得越多,变化围越大。
7. 比较男女生体重差异,应用离散系数进行比较:v 女=5/50=0.1 v 男=5/60=0.08以A 项测试比较理想。
9. 根据公式Z i 二乞丄得 s6. (1)两位调查人员得到的平均身高相差不多,均值的大小并不 (2)男生:X 60* 2.2 132磅,s5* 2.2 11 磅 女生:X 50*2.2 110磅,s5* 2.2 11 磅 8. 可以通过标准分数进行比较:A …115 100 , xB x B Z A 」 A 1;Z B 」旦 15 X A X A425 400 0.550 因为A 项测试的平均分数高出1个标准差,而B 只高出0.5个,所所以女生的体重差异较大。
由图可知,周一和周六两天失去了控制。
10.(1)应该采用离散系数,它避免了不同数据水平高低对其的影响。
(2)成年组身高的离散系数:V s=4.2/172.1=0.幼儿组身高的离散系数:V s=2.5/71.3=0.因为幼儿组身高的离散系数大于成年组的,所以幼儿组身高的离散程度相对较大。
11.(1) 应该从平均数和标准差两个方面进行评价,在对各种方法的优劣进行评价时,应该用离散系数。
(2)如图所示:从三种方法的集中趋势看, A的平均产量、中位数以及众数最高从离散程度看, A 的离散系数最小,应该选择 A。
12.( 1)应该用标准差来评价。
( 2)从图中两种股票的离散程度可知,商业类股票的收益率的离散程度小,因而投资风险也较小。
(3)从投资获益角度我会选高科技类股票,高风险高回报;从投资风险角度,我会选商业类股票,风险较小。