题号:1 题型:简答/计算题本题分数:8
什么是聚类分析?聚类分析的作用是什么?
∙聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。
它是一种重要的人类行为。
∙聚类分析的目标就是在相似的基础上收集数据来分类。
聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。
在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
∙聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。
∙聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。
∙生物
∙聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识
∙地理
聚类能够帮助在地球中被观察的数据库商趋于的相似性
∙保险行业
聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组
∙因特网
聚类分析被用来在网上进行文档归类来修复信息
∙电子商务
聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。
题号:2 题型:简答/计算题本题分数:6
简述类间平均距离连接法的概念。
∙类平均法(Average Linkage)中,用两类样品中,所有观测值两两观测间距离的平均作为类间距离.
类平均法事一种应用比较广泛,聚类效果较好的方法
题号:3 题型:简答/计算题本题分数:10
简述层次聚类法的基本思想。
∙层次聚类[1] 方法对给定的数据集进行层次的分解,直到某种条件满足为止。
具体又可分为凝聚的,分裂的两种方案。
∙1凝聚的层次聚类是一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被满足,绝大多数层次聚类方法属于这一类,它们只是在簇间相似度的定义上有所不同。
∙2分裂的层次聚类与凝聚的层次聚类相反,采用自顶向下的策略,它首先将所有对象置于同一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一簇,或者达到了某个终止条件。
∙层次凝聚的代表是AGNES算法,层次分裂的代表是DIANA算法。
∙
题号:4 题型:简答/计算题本题分数:6
简述概率抽样的概念。
∙概率抽样是指在调查总体样本中的每个单位都具有同等可能性被抽中的机会。
又称随机抽样,概率抽样以概率理论和随机原则为依据来抽取样本的抽样,是使总体中的每一个单位都有一个事先已知的非零概率被抽中的抽样。
总体单位被抽中的概率可以通过样本设计来规定,通过某种随机化操作来实现,虽然随机样本一般不会与总体完全一致。
题号:5 题型:简答/计算题本题分数:4
简述不重复抽样的概念。
∙不重复抽样又叫不重置抽样或不放回抽样,是指统计抽样时每个单位只能被抽到一次,即每次被抽到的单位记录后不再放回总体,这样每次抽选都使下一次待抽选的总体减少一个单位。
这实际上等于从总体中同时抽取n 个单位组成一个样本。
在不重复抽样中每一次抽选各样本单位的概率是不同的,但可以验证各样本被抽中的概率是相等的。
由于抽样方法的改变,使估计和检验的平均误差的计算也发生了变化
题号:6 题型:简答/计算题本题分数:8
简述整群抽样的优点。
∙整群抽样的优点是实施方便、节省经费。
整群抽样方法的运用,需要与分层抽样方法区别。
当某个总体是由若干个有着自然界限和区分的子群(或类别、层次)所组成,同时,不同子群相互之间差很大、而每个子群内部的差异不大时,则适合于分层抽样的方法;反之,当不同子群之间差别不大、而每个子群内部的异质性比较大时,则特别适合于采用整群抽样的方法。
题号:7 题型:简答/计算题本题分数:8
简述分层抽样的优点。
∙1、就是在不断增加样本规模的前提下降低抽样的误差,提高抽样的精度。
2、分层抽样的另一个优点,就是非常便于了解总体内不同层次的情况,便于对总体不同的层次或类别进行单独研究。
∙分层抽样尽量利用事先掌握的信息,并充分考虑了保持样本结构和总体结构的一致性,这对提高样本的代表性是很重要的。
当总体是由差异明显的几部分组成时,往往选择分层抽样的方法
题号:8 题型:简答/计算题本题分数:4
简述区间估计的概念。
∙区间估计,是参数估计的一种形式。
1934年,由统计学家J.奈曼所创立的一种严格的区间估计理论。
置信系数是这个理论中最为基本的概念。
通过从总体中抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,以作为总体的分布参数(或参数的函数)的真值所在范围的估计。
题号:9 题型:简答/计算题本题分数:10
简述决定系数的含义和作用。
∙决定系数(coefficient of determination),有的教材上翻译为判定系数,也称为拟合优度。
是相关系数的平方。
表示可根据自变量的变异来解释因变量的变异部分。
如某学生在某智力量表上所得的 IQ 分与其学业成绩的相关系数 r=0.66,则决定系数 R^2=0.4356,即该生学业成绩约有 44%可由该智力量表所测的智力部分来说明或决定
∙判定系数只是说明列入模型的所有解释变量对因变量的联合的影响程度,不说明模型中单个解释变量的影响程度。
∙对时间序列数据,判定系数达到0.9以上是很平常的;但是,对截面数据而言,能够有0.5就不错了。
∙
题号:10 题型:简答/计算题本题分数:4
简述总体相关系数的概念。
∙相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示。
由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。
∙相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确
切地表明两个变量之间相关的程度。
相关系数是用以反映变量之间相关关系密切程度的统计指标。
相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数
∙
题号:11 题型:简答/计算题本题分数:6
简述预测标准误差的概念。
∙估计标准误差(Se)是说明实际值与其估计值之间相对偏离程度的指标,主要用来衡量回归方程的代表性。
∙估计标准误差的值越小,则估计量与其真实值的近似误差越小,但不能认为估计量与真实值之间的绝对误差就是估计标准误差。
题号:12 题型:简答/计算题本题分数:12
∙什么是平均指数?它有哪两大类编制方法?
∙平均指数法是通过对个体指数加权平均计算的指数,是总指数的一张计算方法,习惯上把这一种方法计算的总指数称为平均指数。
先对比,后平均。
1.用综合指数变形权数编制
如已掌握了各种商品销售量的个体指数和基期的各种商品的实际销售额资料时,就可以用q0p0为权数,对产品个体指数按加权算术平均指数形式,编制商品销售量总指数。
2.用固定权数编制
为了计算上的方便,加权算术平均指数也可以用固定权数(W)编制,我国商品零售物价指数(RPI),居民消费价格指数(CPI)都是固定权数按加权算术平均指数公式计算的
题号:13 题型:简答/计算题本题分数:4
简述不加权指数的概念。
∙具体的说就是不加权的指数只是把指数股的股价求和在除以总个数
题号:14 题型:简答/计算题本题分数:4
简述数量指数的概念。
数量指标是指在经济活动中用以反映规模大小和数量多少等数量特征的各种指标。
它用绝对数表示。
如,工农业主要产品产量、基本建设投资额、房屋竣工面积、职工人数等。
数量指标对反映国民经济计划的实现程度,并据以规定各种具体比例关系等具有重要作用。
它
为各种有关质量指标的计算提供依据。
题号:15 题型:简答/计算题本题分数:6
简述指数体系的概念。
指数体系是指由三个或三个以上存在一定数量对等关系的统计指数所构成的有机整体。
指数体系中的各个指数之间的数量对等关系表现在两个方面: 一是现象总体指数等于各个影响因素指数的连乘积;二是一个受多因素影响指标的总增减量等于其各影响因素分别变动使其增减数量之和。