数据分析笔试题目及答案解析数据分析笔试题目及答案解析——第1题——1. 从含有N个元素的总体中抽取n个元素作为样本,使得总体中的每一个元素都有相同的机会(概率)被抽中,这样的抽样方式称为?A. 简单随机抽样B. 分层抽样C. 系统抽样D. 整群抽样答案:A——第2题——2. 一组数据,均值中位数众数,则这组数据A. 左偏B. 右偏C. 钟形D. 对称答案:B「题目解析」分布形状由众数决定,均值大于众数的化,说明峰值在左边,尾巴在右边,所以右偏。
偏态是看尾巴在哪边。
——第3题——3. 对一个特定情形的估计来说,置信水平越低,所对应的置信区间?A. 越小B. 越大C. 不变D. 无法判断答案:A「题目解析」根据公式,Z减小,置信区间减小。
——第4题——4.关于logistic回归算法,以下说法不正确的是?A. logistic回归是当前业界比较常用的算法,用于估计某种事物的可能性B. logistic回归的目标变量可以是离散变量也可以是连续变量C. logistic回归的结果并非数学定义中的概率值D. logistic回归的自变量可以是离散变量也可以是连续变量答案:B「题目解析」逻辑回归是二分类的分类模型,故目标变量是离散变量,B错;logisitc回归的结果为“可能性”,并非数学定义中的概率值,不可以直接当做概率值来用,C对。
——第5题——5.下列关于正态分布,不正确的是?A. 正态分布具有集中性和对称性B. 期望是正态分布的位置参数,描述正态分布的集中趋势位置C. 正态分布是期望为0,标准差为1的分布D. 正态分布的期望、中位数、众数相同答案:C「题目解析」N(0,1)是标准正态分布。
——第6题——6. 以下关于关系的叙述中,正确的是?A. 表中某一列的数据类型可以同时是字符串,也可以是数字B. 关系是一个由行与列组成的、能够表达数据及数据之间联系的二维表C. 表中某一列的值可以取空值null,所谓空值是指安全可靠或零D. 表中必须有一列作为主关键字,用来惟一标识一行E. 以上答案都不对答案:B「题目解析」B. 关系是一张二维表,表的每一行对应一个元组,每一列对应一个域,由于域可以相同,所以必须对每列起一个名字,来加以区分,这个名字称为属性。
——第7题——7. 想要了解一个地区人群的一般收入水平,以下什么指标不能使用?A. 方差B. 几何平均数C. 众数D. 中位数E. P值答案:B E「题目解析」几何平均数:几何平均数是对各变量值的连乘积开项数次方根。
求几何平均数的方法叫做几何平均法。
如果总水平、总成果等于所有阶段、所有环节水平、成果的连乘积总和时,求各阶段、各环节的一般水平、一般成果,要使用几何平均法计算几何平均数,而不能使用算术平均法计算算术平均数。
根据所拿握资料的形式不同,其分为简单几何平均数和加权几何平均数两种形式。
——第8题——8. 以下属于聚类算法的是?A. ARIMAB. 朴素贝叶斯C. 支持向量机D. K-MEANS答案:D「题目解析」A.时间序列B.C. 分类模型D 聚类——第9题——9. 样本中各观察值均加5后?A. 方差加25B. 标准差加5C. 均值加5D. 中值加5答案:C D「题目解析」样本中各观察值均加5后,标准差和方差不变,均值和中值加5。
因为标准差反映数据的离散程度,所有观察值相同的变化,对波动没有影响。
举个例子,样本中3个观察值都为1,则方差为0。
样本中每个观察值均加5,变成3个5,方差还是0。
——第10题——10. 一批零件共10个,其中有3个不合格品,从中一个一个不放回取出,则第三次才取得不合格品的概率是?(填小数)答案:0.175「题目解析」(7/10) __ (6/9) __ (3/8) = 0.175——第11题——11. 某业务线的营业收入为:200,220,250,300,320万元,则平均增长量为?万元答案:30「题目解析」平均增长量 = 累计增长量 / (时间数列项数-1)=(320-200)/(5-1)=30 误区:是除以4 不是5第12题——14. 经一番研究后,我们开发出了一个新的商品详情页中’相关商品’模块的算法,并且打算通过AB Test(50%用户保留原先的算法逻辑为控制组,50%用户使用新的算法逻辑为实验组)来进行评估。
假如你是此次实验的数据分析师,请问你会怎么评估控制组和实验组的表现?请按重要性列出最重要的三个指标并给出你的分析过程。
「题目解析」相关商品的点击率=相关商品链接点击次数/当前页面浏览次数相关商品的____率=____行为发生次数/相关商品浏览行为次数当前商品与相关商品一同____的概率=共同____/当前商品____第13题——13. 请写sql语句:想要了解班级内同学的考试情况,现有一张成绩表表名为A,每行都包含以下内容(已知表中没有重复内容,但所有的考试结果都录入在了同一张表中,一个同学会有多条考试结果):student_id,course_name,score现在需要知道:每门课程得到成绩的同学人数每门课程的平均成绩如果对于每门课程来说,60分以下为不及格,高于60为及格,统计每门课程及格和不及格的人数「题目解析」官方答案:1.2.select course_name ,count(distinct student_id) asstudent_num ,avg(score) as avg_scorefrom Agroup by 13.select course_name ,case when score 60 then 不及格 else 及格 end as level ,count(student_id) as student_numfrom Agroup by 1,2 参考答案第3问selectcourse_name,case when score 60 then 不及格else 及格 end as level,count(student_id) as student_numfrom Agroup by 1,2 我的代码:-- 我的答案,第三问SELECT course_name, SUM(CASE WHEN score = 60 THEN 1 ELSE 0 END ) AS 及格,SUM(CASE WHEN score 60 THEN 1 ELSE 0 END) AS 不及格FROM AGROUP BY course_name;数据分析笔试试题及答案1、异常值是指什么请列举1种识别连续型变量异常值的方法异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。
在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值.常见的异常值检验方法如下:基于统计的方法基于距离的方法基于密度的方法基于聚类的方法基于偏差的方法基于深度的方法t检验:按照t分布的实际误差分布范围来判别异常值,首先剔除一个可疑值,然后按t分布来检验剔除的值是否为异常值。
狄克逊检验法:假设一组数据有序x1格拉布斯检验法:与狄克逊检验法思想一样,其检验公式为:指数分布检验:SPSS和R语言中通过绘制箱图可以找到异常值,分布在箱边框外部;2、什么是聚类分析聚类算法有哪几种请选择一种详细描述其计算原理和步骤。
聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。
聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。
聚类与分类的不同在于,聚类所要求划分的类是未知的。
聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。
其中,前两种算法是利用统计学定义的距离进行度量。
常见的聚类方法有:K-pototypes算法,K-Means算法,CLARANS算法(划分方法),BIRCH算法(层次方法),CURE算法(层次方法),DBSCAN算法(基于密度的方法),CLIQUE算法(综合了基于密度和基于网格的算法);k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。
一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
其流程如下:(1)从 n个数据对象任意选择 k 个对象作为初始聚类中心;(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;(3)重新计算每个(有变化)聚类的均值(中心对象);(4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。
优点:本算法确定的K 个划分到达平方误差最小。
当聚类是密集的,且类与类之间区别明显时,效果较好。
对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为 O(NKt),其中N是数据对象的数目,K是聚类中心,t是迭代的次数。
缺点:1. K 是事先给定的,但非常难以选定;2. 初始聚类中心的选择对聚类结果有较大的影响。
3.数据标准化技术是将数据按比例缩放,使之落入一个小的特定区间。
去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
常用的方法有:(1)总和标准化。
分别求出各要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即4.缺失值处理方法1) 直接丢弃含缺失数据的记录如:个案剔除法,这种方法却有很大的局限性。
它是以减少样本量来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。
当缺失数据所占比例较大,特别是当缺数据非随机分布时,这种方法可能导致数据发生偏离,从而得出错误的结论。
2)补缺A. 用平均值来代替所有缺失数据:均值替换法,均值替换法也是一种简便、快速的缺失数据处理方法。
使用均值替换法插补缺失数据,对该变量的均值估计不会产生影响。
但这种方法是建立在完全随机缺失(MCAR)的假设之上的,而且会造成变量的方差和标准差变小。
B. K -最近距离邻居法:先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。