第一章绪论思考题1.什么就是统计学?请简要说明一下它的发展过程。
统计学就是关于数据搜集、整理、归纳、分析的方法论科学。
统计学的发展主要经历了三个阶段:(1)17世纪中叶至18世纪,统计学的产生与形成阶段;(2)18世纪末至20世纪中叶,统计推断方法与理论体系确立的阶段;(3)20世纪50年代以来,统计理论、方法与应用进入了一个全面发展的阶段。
2.统计学、统计数据,以及统计活动之间有什么关系?统计活动直接影响统计数据的数量与质量;统计学就是统计实践活动的理论概括,同时,它又用理论与方法研究分析统计实践活动,统计学与统计活动就是理论与实践的关系。
3.统计学的研究方法有哪些,它们有怎样的关系?并举例说明。
主要方法有两个:(1)描述统计:搜集由试验或调查所获得的资料,进行整理、归类,计算出各种用于说明总体数量特征的数据,并运用图形或表格的形式将它们显示出来。
(2)推断统计:指利用概率论的理论,根据试验或调查获得的样本信息科学地推断总体的数量特征。
关系:描述统计与推断统计都就是统计方法的两个组成部分,前者就是统计学的基础,后者就是现代统计学的主要内容。
由于现实问题中,要获得总体数据存在很大的难度,能够获得的数据多为样本数据,因此,推断统计在现代统计学中的地位与作用越来越重要,它已成为统计学的核心内容。
当然,描述统计的重要性不可忽略,通过它得到可靠的统计数据并为后面的推断统计提供有效的样本信息,只有这样,才可以运用推断统计方法得出符合实际情况的结论。
4.简要说明总体、样本、变量的概念。
总体:根据一定的目的确定的所要研究对象的全体,它就是统计问题最基本的要素;样本:从总体中随机抽取的若干单位构成的集合体,它就是统计问题的第二要素;变量:可变的数量;变量的具体表现,即可变数量的不同取值,称为变量值。
5.简述SPSS统计软件的特点与应用领域。
(1) 特点:第一,工作界面友好完善、布局合理、操作简便,大部分统计分析过程可以借助鼠标,通过菜单命令的选择、对话框参数设置、点击功能按钮来完成,不需要用户记忆大量的操作命令。
菜单分类合理,并且可以灵活编辑菜单以及设置工具栏。
第二,具有完善的数据转换接口,可以方便地与Windows其她应用程序进行数据共享与交换。
可以读取Excel、FoxPro、Lotus等电子表格与数据库软件产生的数据文件,可以读取ASCII数据文件。
第三,提供强大的程序编辑能力与二次开发能力,方便高级用户完成更为复杂的统计分析任务的需要,具有丰富的内部函数与统计功能。
第四,附带丰富的数据资料实例与完善的使用指南,为用户学习掌握软件的使用方法提供更多的方便。
软件启动后,用户可直接上网访问SPSS公司主页获得更多的帮助与信息。
(2) 应用领域:社会科学、自然科学、经济管理、商业金融、医疗卫生、体育运动等。
6.SPSS软件的数据编辑器包括哪些内容?(1) 标题栏,显示当前工作文件名称。
(2) 主菜单栏,排列SPSS的所有菜单命令。
(3) 工具栏,排列系统默认的标准工具图标按钮,此栏图标按钮可以通过单击View菜单的Toolbars命令选择隐藏、显示或更改。
(4) 状态栏,状态栏位于SPSS窗口底部,它反映了工作状态。
当用户将光标置于不同的区域时或者进行不同的操作时将显示不同的内容。
(5) 数据编辑栏,用户通过键盘输入的数据首先显示在这里。
(6) 数据显示区域。
它就是一个二维的表格,编辑确认的数据都将在这里显示,其中每一个矩形格为单元格(Cell),其中边框加黑的单元格称为选定单元格。
数据显示区域的左边缘排列观测量序号,上边缘排列要定义的各变量名。
7、调查表明,顾客每周花在某超市蛋糕的平均费用就是30元,她们选择经常购买蛋糕的主要原因就是该蛋糕味道很好。
要求:(1) 总体就是什么?(2) 该项研究所使用的方法就是描述统计方法还就是推断统计方法?(1) 总体就是所有的购买蛋糕的顾客;(2) 推断统计方法。
第二章数据整理与描述思考题1.获取统计数据有哪两种途径?一种就是直接向调查对象搜集反映调查单位的统计数据,一般称为原始数据或第一手数据;另一种就是搜集已经加工、整理过的、说明总体现象的数据,一般称为次级数据或第二手数据。
2.统计数据的搜集有哪几种方法?直接观察法、访问法、报告法、问卷法。
3.对统计数据进行搜集时,有哪几种组织方式?普查、抽样调查、重点调查、典型调查。
4.什么就是数据分组?数据分组的方式有哪几种?(1)统计数据分组就是根据统计研究目的,按某一标志将数据分别列入不同的组,使组与组之间有比较明显的差别,而在同一组内的单位具有相对的同质性,即同一组内各单位之间具有某些共同的特征。
(2)统计数据分组可以按品质标志分组与按数量标志分组。
(一)按品质标志分组就就是按照事物的性质与属性特征进行分组。
一般来言,按品质标志分组的操作比较容易,分组也相对稳定。
如人口按性别分组、职工按文化程度分组等;(二)按数量标志分组,就就是按照事物的数量特征进行分组。
例如,企业按职工人数、产值、产量等标志分组,人口按年龄分组等。
5.简述组距、组限、组数与组中值的含义以及它们的计算方法。
(1) 组距就是指各组中最大变量值与最小变量值之差,用i表示。
计算方法为:i=R/n, 其中,n表示组数,R表示变量最大值与最小值之差(即全距);(2) 组限就是指限定各组组距的数值。
各组的较大值称上限,较小值称下限;(3) 组数就是指数据被分成的组个数。
计算方法为:1+=.3322Nn lg式中:n表示组数;N表示变量值个数;(4) 组中值就是上限到下限之间的中点数值,其计算公式为:组中值=(上限+下限)/26、向上积累与向下积累的数据有什么区别?累计频数(或频率)可以就是向上累计频数(或频率),也可以就是向下累计频数(或频率)。
(1) 向上累计频数(或频率),通常就是指由变量值小的组向变量值大的组依次累计;(2) 向下累计频数(或频率),通常就是指由变量值大的组向变量值小的组依次累计。
7、什么就是频数分布?试描述频数分布表的编制过程。
(1) 分布数列就是指在统计分组的基础上,将总体的所有单位按一定标志分组整理,并按一定顺序排列,形成总体单位在各组的分布;(2) 一、确定变量数列的形式。
根据变量的类型与变量值的多少及现象本身的特点确定就是编制单项数列还就是编制组距数列。
二、组距式变量数列编制方法:计算全距、确定组数、确定组距、确定组限、计算组中值、计算累计频数与累计频率。
8、对统计数据进行描述时,有哪几种统计图表表达方式?有统计表与统计图,其中统计图包括:直方图、折线图、曲线图。
9、直方图与折线图有什么区别与关系?折线图可以在直方图的基础上,将直方图的每个长方形的顶端中点用折线连点而成。
如果不绘直方图,也可以用组中值与频数求出坐标点,连接而成。
它们与横轴围成的区域面积相等。
10、请举出自己实际生活中的一组数据,对它进行分组,然后绘制直方图、折线图以及箱线图,分析该组数据的结构特征。
略练习题1.某地区7月份的气温数据(单位:摄氏度)如下:28 31 32 29 31 33 30 32 34 29 32 30 38 38 37 39 34 36 36 33 34 30 37 36 32 38 35 30 34 35 35(1) 对以上数据进行适当的分组;(2) 绘制直方图,说明该城市气温分布的特点。
解:(1) 频数分布如下:[28,30) 3;[30,32) 6;[32,34) 6;[34,36) 7;[36,38) 5;[38,40) 4; (2) 直方图略。
从直方图可以瞧出,该地区7月份气温集中在34~36摄氏度的天数最多,其次多的时间集中在30~32摄氏度或32~34摄氏度。
2、某人的家位于城市的A地,工作单位位于城市的B地,为了确定A、B两地的车程,她记录了60天(来回共乘车120次)内往返于A、B两地所花的时间(单位:分钟),所得数据如下:(1) 利用SPSS对以上数据进行排序。
(2) 以组距10进行等距分组,编制频数分布表,并绘制直方图。
解:(1) 略(2) 频数分布表如下:[80,90) 10,[90,100) 37,[100,110) 33,[110,120) 25,[120,130) 15; 直方图略。
(1) 用SPSS对以上数据进行适当的分组,编制频率分布表。
(2) 计算出累积频数与累积频率。
(3) 绘制直方图与折线图。
解:(1)、(2)(3) 略。
4、为评价某餐馆服务质量,随机调查了120个顾客对它的评价。
评价服务质量的等级分为五种:A、优;B、较好;C、中等;D、较差;E、极差。
调查结果如下表所示:(1) 编制频率分布表;(2) 绘制条形图,找出对该餐馆评价等级的分布。
解:(1) 频率分布表如下:(2) 略(1) 对该校四年级学生的成绩绘制直方图;(2) 根据直方图分析四年级学生的成绩分布特点。
解:(1) 略;(2) 左偏分布。
6、为了确定灯泡的使用寿命(单位:h),在一批灯泡中随机抽取100只进行测试,所得结果如下:(1) 利用SPSS对上面的数据进行排序;(2) 以10为组距进行等距分组,构建频率分布表;(3) 根据分组数据绘制茎叶图与箱线图,说明数据分布的特点。
解:(1) 略;(2)(3) 略。
第三章数据特征的度量思考题1.数据分布的特征可以从哪些方面进行度量与描述?(1) 数据集中程度度量的常用方法有均值(算术平均数)、调与平均数、几何平均数、众数、中位数。
(2) 数据离散程度的测度方法,常用的有极差、内距、标准差及离散系数。
2.简述中位数、四分位数、十分位数的概念,并举例说明。
中位数就是将顺序排列的统计数据从中间分成相等的两部分;四分位数就就是将排序后的数据4等分的三个数值,每部分包含25%的数据,其中中间的四分位数就就是中位数,其余两项分别为下四分位数(Q1)与上四分位数(Q3);十分位数与百分位数分别就是将排序后的数据10等分与100等分的数值。
3. 简述众数、中位数与均值的特点与关系。
(1) 关系:当数据呈对称分布时,均值、中位数、众数必定相等,即有Mo Me x ==; 当数据呈左偏分布时,均值小于中位数且小于众数,即有Mo Me x <<; 当数据呈右偏分布时,均值大于中位数且大于众数,即有Mo Me x >>;(2) 特点:均值就是根据所有数据计算的一般水平代表值,数据信息的提取足够充分,特别就是当用样本信息估计总体特征时,均值就更显示其良好的特征。
因而在统计数据分析中均值起着很重要的作用。
众数、中位数虽然数据信息利用不够充分,但当数据有极端值出现时,中位数的优势就显现了。
4. 简述内距、极差、标准差的概念,并举例说明。
(1) 内距:又称为四分位数差,就是指上四分位数与下四分位数之差,通常用Q d 表示; (2) 极差:也称全距,它就是一组数据的最大值与最小值之差;在组距式数列中,极差可以就是最高组的上限与最低组下限之差; (3) 标准差:也称均方差,就是各数据与均值离差平方平均数的平方根。