思考与练习 一、思考题1、 分类数据的图示方法,其中包括条形图、Pareto 图、对比条形图和饼图等。
顺序数据除了上文提到的条形图、pareto 图、对比条形图、饼图之外还可以借助累积频数分布图和环形图来进行描述。
2、 条形图、饼图、环形图、累积分布图、直方图、茎叶图、箱形图、散点图、线图、三维散点图、气泡图、雷达图等。
3、 数据分组按照分组标志的不同可以分为单变量值分组和组距分组两种。
根据组距不同还可以分为等距分组和不等距分组。
4、 分组和编制频数分布表的具体步骤如下:第1步:排序。
将变量按照一定的大小顺序进行排序,通常是由小至大的递增顺序,使用计算机软件进行整理时此步可以忽略。
第2步:确定组数。
一般与数据本身的特点及数据的多少有关。
由于分组的目的之一是为了观察数据分布的特征,因此组数的多少应适中。
如组数太少,数据的分布就会过于集中,组数太多,数据的分布就会过于分散,这都不便于观察数据分布的特征和规律。
组数的确定应以能够显示数据的分布特征和规律为目的。
一般情况下,一组数据所分的组数 K 不应少于 5组且不多于 15组,即 5< K <15。
在实际分组时,也可以借助经验公式来确定组数K ,2lg lg 1nK += 其中n 为数据的个数,对结果四舍五入取整数即为组数。
第3步:确定各组的组距。
在组距分组中,一个组的最小值称为下限(low limit );一个组的最大值称为上限(upper limit ),组距(class width )是一个组的上限与下限的差。
组距可根据全部数据的最大值和最小值及所分的组数来确定,即,组距=(最大值—最小值)/组数 。
5、 饼图是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例,对于研究结构性问题十分有用。
环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示。
饼图只能显示一个总体和样本各部分所占的比例,而环形图则可以同时绘制多个总体或样本的数据系列,每一个总体或样本的数据系列为一个环。
因此环形图可显示多个总体或样本各部分所占的相应比例,从而有利于进行比较研究。
6、直方图与条形图是不同的,首先,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。
其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。
最后,条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。
7、茎叶图类似于横置的直方图,与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息。
而直方图虽然能很好地显示数据的分布,但不能保留原始的数值。
在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。
8、统计图一般由下面几个部分构成:(1)标题,即图的名称,简明扼要说明资料的中心内容,必要时注明时间和地点,一般写在图的正下方位置,同时将图形的编号写在标题的前面。
(2)标目,分为纵标目与横标目,分别表示纵轴与横轴数字刻度的意义,一般注明度量衡单位。
(3)点线条面,借以用来显示数据的元素,这是图形的主体部分,用于显示数据和展示数据的规律和关系。
(4)刻度,指在纵轴或横轴上的坐标。
(5)图例,其目的是为了使读者能区分统计图中各种图形的意义。
9、一般用“图优性(Graphical excellency)”来描述一个好的统计图。
“图优性”是指图形能够在最短的时间内,用最少的笔墨,在最小的空间里,给观众最多的思想。
一张好的图形应包括如下基本特性:显示数据,集中反映图形的内容,避免歪曲,数据之间可进行有效比较,目的明确且唯一,统计描述和文字说明清晰。
10、常见的统计表一般由4个主要部分组成,即表头、行标题、列标题和数据,此外,必要时可以在统计表的下方加上表外附加说明。
11、在具体编制统计表时,应当遵循以下几点规则:(1)统计表的结构要合理,内容要简练,形式要美观。
比如行标题、列标题、数字资料的位置应安排合理。
如果有合计一项,一般放在最后一行或最后一列。
有时,由于强调的问题不同,行标题和列标题可以互换,但应使统计表的横竖长度比例适当,避免出现过高或过长的表格形式。
(2)统计表一般使用“三线表”的形式,如表3—24所示,表的上下两端横线一般用粗线条绘制,用细线把行标题和数字资料进行分离,统计表的左右两端不封口。
这样使人看起来清楚、醒目、美观。
如果数据关系复杂,单靠三条线是不够的,在这种情况下,数据资料也可用横线或竖线对数据资料进行分开,以表明数据的隶属关系,但必须用细线,总之表中尽量少用横竖线。
(3)表头一般应包括表号、总标题和表中数据的单位等内容。
总标题应简明确切地概括出统计表的内容,一般需要表明统计数据的时间(When)、地点(Where)以及何种数据(What),即标题内容应满足3W要求。
如果表中的全部数据都是同一计量单位,可放在表的右上角标明,若各变量的计量单位不同,则应放在每个变量后或单列出一列标明。
(4)表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一。
当数字因小可略而不计时,可写上“0”;当缺某项数字资料时,可用符号“…”表示;不应有数字时用符号“一”表示,一张填好的统计表不应出现空白单元格。
(5)在绘制统计表时,为保证统计资料的科学性与严肃性,在统计表下,应注明资料来源,以表明表中数据的可靠性,或是方便读者查阅使用。
必要时,也可在统计表下添加注解,以对变量或数据进行必要的解释和文字说明。
二、单项选择题1-5 C A C C D 6-10 C B B B C 11-15C D D B C16-20C D D B B 21-25BB B C B 26-30A C A B D三、练习题1、(1)属于顺序数据(2)(3)成绩人数累计频率A880.1B25330.4125C26590.7375D15740.925E6801总计80801(4)2、(1)(2)正态分布3、(1)接收频率累积%接收频率累积% 49510.00791530.00 59520.00891152.00 691040.00691072.00 791570.0049582.00 891192.0059592.00 994100.00994100.00合计0-合计0-(2)(3)VAR00001 Stem-and-Leaf Plot Frequency Stem & Leaf2.00 4 . 133.00 4 . 6673.00 5 . 0032.00 5 . 895.00 6 . 011445.00 6 . 577997.00 7 . 00013448.00 7 . 556667886.00 8 . 0113445.00 8 . 577893.00 9 . 0221.00 9 . 7Stem width: 10.00Each leaf: 1 case(s)4、(2)接收频率%累积%接收频率累积%694 4.00991122.00%791216.00109940.00%891632.0089856.00%991854.00119770.00%1091672.0079682.00%1191486.00129490.00%129894.0069294.00%139498.00139298.00%(3)1492100.00其他1100.00% 100——VAR00004 Stem-and-Leaf Plot Frequency Stem & Leaf2.00 6 . 896.00 7 . 2335668.00 8 . 0112345611.00 9 . 122245567889.00 10 . 0024666787.00 11 . 23558994.00 12 . 46782.00 13 . 241.00 14 . 1Stem width: 10.00Each leaf: 1 case(s) 5、(1)VAR00003 Stem-and-Leaf PlotFrequency Stem & Leaf1.00 11 . 62.00 12 . 021.00 12 . 82.00 13 . 042.00 13 . 562.00 14 . 222.00 14 . 78.00 15 .1.00 15 . 52.00 16 . 021.00 16 . 84.00 17 . 0233Stem width: 100.00 Each leaf: 1 case(s) 6、(1)计数项:时间时间汇总7:0037:3048:0048:3079:002总计20(2)7、(1)、(2)8、(1)(2)(3)9、(1)接收频率%累积%接收频率%累积% 291010.0020-30510.00391626.0030-40826.00491238.0040-50638.00591664.0050-601364.00692084.0060-701084.00791296.0070-80696.00894100.0080-902100.00合计100-合计100-(2)(3)10、(1)(2)11、(1)(2)(3)第四章 二、单项选择题1-5CADBD 6-10BCBDD 11-15BACCC 16-20BBBCD 21-25CDACC 26-28DAA 三、计算分析题4.1(1)首先将数据由小到大进行排列,中位数的位置为7211321=+=+n ,即排在第7位的数值为中位数,即民生银行的营业收入为中位数,=e M 350.17亿元。
平均数()亿元=809.14621384.10604.12337.402904.49001=++++=∑=Λnxx ni i(2)25.34134===n Q L 的位置即L Q 在第3个数值(145.13)和第4个数值(176.11)之间0.25的位置上,因此875.15225.0)13.14511.176(13.145=⨯-+=L Q (亿元)5.79413343=⨯==n Q U 的位置 即U Q 在第9个数值(1295.31)和第10个数值(3340.37)之间0.75的位置上,因此105.282975.0)31.129537.3340(31.1295=⨯-+=U Q (亿元)(3)百分位数的位置()()9.3131003013100===Pi 由于i 不是整数,百分位数的位置就是第1+i 个位置的数据的整数部分,则第30个百分位数是第4个数,即华夏银行的营业收入176.11亿元为第30个百分数。