数据统计分析-第一次作业
————————————————————————————————作者:————————————————————————————————日期:
简答题:
1 什么是统计学?请结合自己的课题介绍统计学的内含
答:统计学是一门研究随机现象,以推断为特征的方法论科学,“由部分推及全体”的思想贯
穿于统计学的始终。
具体地说,它是研究如何搜集、整理、分析反映事物总体信息的数字资料,并以此为依据,对总体特征进行推断的原理和方法;是关于收集、整理、分析和解释统计数据的科学,是一门认识方法论性质的科学,其目的是探索数据内在的数量规律性,以达到对客观事物的科学认识。
我的研究课题是用生物信息学的方法来研究微卫星方面的问题。
本课题的研究最初就是用统计学的方法对不同基因组中的微卫星进行统计,分析微卫星与物种的相关性及联系。
进行本课题的研究,首先,收集数据,在NCBI中下载多条基因组数据,之后,根据生物不同的特征,对数据进行分类及整理,接下来,运用统计学的相关概念比如相对密度、相对风度、回归方程等进行基因组中微卫星的分布的计算,之后,运用R语言作图,将微卫星的分布可视化,更深入地进行研究分析分布规律与生物功能及进化的联系。
2 举例说明总体,样本,参数,统计量,变量这几个概念
答:总体是包含所研究的全部个体(数据)的集合。
样本是从总体中抽取的一部分元素的集合。
参数是用来描述总体特征的概括性数字度量。
统计量是用来描述样本特征的概括性数字度量。
变量是说明现象某种特征的概念。
比如欲调查某高校的2017届研究生毕业生就业率情况,那么该高校的所有2017届研究生毕业生则构成一个总体,其中的每一个研究生毕业生都是一个个体。
若从该高校的所有2017届研究生毕业生中按某种抽样规则抽出了100位毕业生,则这100位毕业生就构成了一个样本。
在这项调查中就业情况感兴趣,那么就业率就是一个变量。
通常关心某高校的2017届研究生毕业生平均就业率,这里这个平均值就是一个参数。
只有样本的有关就业率的数据,用此样本计算的平均值就是统计量。
3 比较概率抽样和非概率抽样的特点,指出各自适用情况
答:概率抽样:抽样时按一定的概率以随机原则抽取样本。
每个单位别抽中的概率已知或
可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽到的概率。
技术含量和成本都比较高。
如果调查目的在于掌握和研究对象总体的数量特征,得到总体参数的置信区间,就使用概率抽样。
非概率抽样:操作简单,时效快,成本低,而且对于抽样中的统计学专业技术要求不是很高。
它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。
它同样使用市场调查中的概念测试(不需要调查结果投影到总体的情况)。
4 简述异众比率、四分位差、方差或标准差的适用场合
答:异众比率主要是衡量众数对一组数据的代表程度主要适合测度分类数据的离散程度;
四分位差主要适合于测度顺序数据的离散程度;
方差能够较好的反映出数据的离散程度,是实际中应用最广的离散程度测量值,标准差和方差基本上同时应用。
5 简述众数、中位数和平均数的特点和应用场合。
答:众数主要用于测度分类数据的集中趋势,也适用于作为顺序数据以及数值型数据集中
趋势的测度值。
一般情况下,只有在数据量较大的情况下,众数才有意义。
中位数主要用于测量顺序数据的集中趋势,适用于测量数值型数据的集中趋势,但不适用于分类数据。
平均数是集中趋势的最主要测度值,主要适用于数值型数据,而不适用于分类数据和顺序数据。
6 根据自己的经验体会举几个服从正态分布的随机变量的实例。
答:如某种仪器每月出现故障的次数、一本书一页中的印刷错误、某一医院在某一天内的
急诊病人数、某班某次的考试成绩、某地区成年男性的身高、某公司年销售量、同一车间产品的质量等。
7请解释中心极限定理并结合自身经验列举中心极限定理的应用场景
答:中心极限定理是概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理。
这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量累积分布函数逐点收敛到正态分布的积累分布函数的条件。
它是概率论中最重要的一类定理,有广泛的实际应用背景。
中心极限定理:设从均值为μ、方差为σ^2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为(σ^2)/n 的正态分布。
中心极限定理则表明变量在分布上的特征.
例如对一千居民收入随机调查,发现无论低收入还是高收入都是少数,而中等收入占多数,即为正态分布.
计算题(要求使用R语言计算,列出计算过程中用到的R命令)
1 一种产品需要人工组装,现有三种可供选择的组装方法。
为检验哪种方法更好,随机抽取15个工人,让他们分别用三种方法组装。
下面是15个工人分别用三种方法在相同的时间内组装的产品数量:
单位:个
方法A 方法B 方法C
164 167 168 165 170 165 164 168 164 162 163 166 167 166 165 129
130
129
130
131
]30
129
127
128
128
127
128
128
125
132
125
126
126
127
126
128
127
126
127
127
125
126
116
126
125
要求:(1)你准备采用什么方法来评价组装方法的优劣?
如果让你选择一种方法,你会作出怎样的选择?试说明理由
答:应该用组装数量的平均数和标准差来评价组装方法的优劣。
平均数反映了
组装数据的多少,标准差反映了组装方法的稳定性。
要评价各种方法的优劣,需要计算每种方法的平均组装数量、标准差,并用离散系数比较每种方法的离散程度,有关结果如下表:
方法A 方法B 方法C
平均数=165.60分钟标准差=2.13分钟离散系数=0.013 平均数=128.73分钟
标准偏差1.75分钟
离散系数=0.014
平均数=125.53分钟
标准偏差=2.77分钟
离散系数=0.022
应选择方法A,因为其平均组装数量多,而且离散系数小,说明该种方法也比较稳定。
> x <- c(164,167,168,165,170,165,164,168,164,162,163,166,167,166,165)
>x <- c(129,130,129,130,131,130,129,127,128,128,127,128,128,125,132)
>x <-c (125,126,126,127,126,128,127,126,127,127,125,126,116,126,125)
> mean(x)
> sd(x)
2 调节一个装瓶机使其对每个瓶子的灌装量均值为μ盎司,通过观察这台装瓶机对每个瓶子的灌装量服从标准差 1.0
σ=盎司的正态分布。
随机抽取由这台机器灌装的9个瓶子形成一个样本,并测定每个瓶子的灌装量。
试确定样本均值偏离总体均值不超过0.3盎司的概率。
解:依题意,总体方差已知,均值的抽样分布服从N(μ,σ2/n)的正态分布,
由正态分布,标准化得到标准正态分布:z=~N(0,1),因此,样本均值不超过总体均值的概率P为:
P(|x-μ|
=P(-0.9z0.9)
=2(0.9)-1 (查表)
=2*0.8159-1
=0.6318
综上:(P(|x-μ|=0.6318
3 某快餐店想要估计每位顾客午餐的平均花费金额。
在为期3周的时间里选取49名顾客组成了一个简单随机样本。
(1)假定总体标准差为15元,求样本均值的抽样标准误差。
(2)在95%的置信水平下,求边际误差。
(3)如果样本均值为120元,求总体均值的95%的置信区间。
解:(1)依题意知:假定总体标准差为σ=15,
则样本均值的抽样标准误差:
(2)已知置信水平1-α=95%,得Zα/2=1.96
则边际误差为
(3)已知样本均值 x=120,置信水平1-α=95%, 得Zα/2=1.96
这时总体均值置信区间为:,即置信区间为
(120-4.199,120+4.199)=(115.801,124.199)
4 根据流行病学调查的数据,某种儿童疾病的发生率为1%。
如果要求99%的置信区间,若要求边际误差不超过2%,请问应该抽取多少样本才能够达到上述要求?
解:p=0.01 α=0.01 Zα/2=2.58 △<=0.02
根据公式
n = 2.58*2.58*0.01*0.99/(0.02*0.02)
≈165
应该抽取165个样本才能达到上述要求。