海南大学生物统计一、名词解释。
★集团:也称总体或母体,是符合指定条件的所有个体所组成(有限与无限)。
☆集团参数:由集团的全部个体观测值按一定方法计算出来的、反应集团特征的数值。
☆个体:构成集团的基本单位;对每个个体的同一特征(性状)进行观测可得到1个观测数据。
☆样本:按一定方法从集团中抽取出的一部分个体构成一个样本。
☆样本统计量:由样本中的全部个体观测值按一定方法计算出来的、反应样本特征的数值。
★偶然误差(机误):由非研究因素(环境条件)的随机波动对研究对象的影响而行成的试验指标的随机变化(实际观测值以真值为对称中心随机波动)。
☆系统误差:由非研究因素(环境条件)的趋势性(方向性)变化对研究对象的影响而行成的试验指标的方向性变化(实际观测值表现为普遍比真值大或小)。
☆准确度:实际观测值与真值间的符合程度。
☆精确度:实际观测值相互间的符合程度。
☆重复:每个处理在试验结束后能获得2个或更多的观测值。
★局部控制(区组化):将试验空间分范围地控制环境因素,使其对处理小区的影响达到最大程度的一致。
☆随机排列:各处理在小区中的位置由机会(而非主观意愿)决定且每个处理被安排在每个小区的机会要相等。
☆重复区:试验空间内人为根据环境变化情况划分的、各种非研究因素能够保持最大程度一致性的区域。
☆小区:安排试验处理的最小空间区域。
☆试验方案(狭义):根据试验目的和要求所拟定进行比较的一组试验处理的总称。
★试验因子:对试验对象在某方面的表现(试验指标)有影响的,试验过程中需要进行考查的条件。
★试验因素:有待比较的一组处理的因子。
★试验处理:预先设计好实施在试验单位上的一种具体措施。
☆试验水平:在试验中被人为设置的每种状态。
★试验指标:在某一项研究活动中,并不可能对所有的经济性状都进行研究,故而只能确定其中的某一个或某几个性状为需要进行研究和分析的目标性状,其余均为非目标性状,则相应的目标性状即为试验研究中的试验指标。
☆试验效应:试验指标因研究因子水平的不同而表现出的数量变化。
☆主效应:试验指标在单个因子水平间表现出的平均差异称为该因子的主效应。
☆交互效应:不同因子间的相互影响从而导致的试验指标的变化,即复因子试验中去除各因子主效应后的剩余效应则为因子间的交互效应。
☆试验空间:放置试验对象并实施研究活动的空间。
★适合性测验:根据X 2值估计实际数据与预期理论值假设测验的统计方法。
★统计学第一类错误:统计假设μ=μ0为真,被判为假。
☆统计学第二类错误:统计假设μ=μ0为假,被判为真。
★显著水平:统计学中犯第一类型错误的最大概率。
★t 0.05,12:自由度为12,显著水平为5%的相关系数t 的值。
★正交实验:根据正交表来安排的试验。
★局部控制(区组化):将试验空间分范围地控制环境因素,使其对处理小区的影响达到最大程度的一致。
☆边缘效应:因试验小区或试验地边缘位置的试验对象由于受外部条件的影响而表现出来的试验指标观测数值异常现象。
☆随机变量:是一个取值具有随机性的变量,是抽象化的存在随机变量的概率分布:指随机变量的取值出现概率的。
★小机率原理:如果某事件发生的概率足够小,则在一次(实践)观察中,有理由相信这一事件将不发生。
★回归截距:a ,是x=0时,y 的值,即回归直线在y 轴上的截距。
★回归系数:n x x xy x xy SSx SPxy b /)(y/n x -)x -(y/nx -222∑-∑∑∑∑=∑∑∑∑==,是x 每增加一个单位数时,y 平均地要增加或减少的单位数。
★相关系数:SSy SSx SPxy Sy Sx df SP r ⨯=⨯=/,表示X 和Y 相关密切程度。
☆回归分析:以计算回归方程为基础的统计方法。
☆相关分析:以计算相关系数为基础的统计方法。
☆集团均数的区间估计:对集团均数在一定概率下的取值范围(下限,上限)进行估计。
☆点估计:对集团均数用其相应的样本均数(是集团均数的无偏估计)进行估计。
★∑122t /2)1-|t -|(n i c a ==χ,近似程度随数据量及数值的增大而提高,故当数据量较少或数值较小时可对其作连续性矫正。
(连续性矫正的卡平方值) ★相关关系是不同变量 (至少有一个是随机变量)间的关系,指当一个变量的值发生变化时,另一个变量的值与随之而发生变化的趋势。
★MS :均方。
即多个总体或处理所提供的组内变异(或误差)的平均值。
★N (3,22):平均数为3,标准差为2的标准正态分布。
二、填空题。
1.科学研究的方法有 定性研究 和定量研究 。
2.试验设计的目标是避免 系统 误差,减小 随机 误差,以保证试验的 精确度 和 准确度 。
3.试验设计要贯彻 重复 、 局部控制 、 随机排列 等三大原则。
4.作为集团的代表,样本的 样本容量 和 样本自由度 决定了其代表性的大小。
5.反映资料中心位置的统计量有 样本平均数 ,反映数据变异度的统计量常用的有 样本平方和 、 样本方差 、 样本标准差 、 样本变异系数 、 样本极差 、 样本标准误 。
6.平均数的作用是 平均数是一组样本数据的代表值,可以与其他资料进行对比 ;样本容量的作用是 决定样本的大小与代表性(误差)的大小 ;样本自由度的作用是 决定样本的代表性大小,取代样本容量n 参与平均变异计算以获得对集团变异性的无偏估计 ;平方和的作用是 反应个体间差异的大小 ;方差的作用是 反应个体间的平均差异 ;标准差的作用是 反应个体间的平均差异的大小 ;变异系数的作用是 反应整齐性的大小 ;极差的作用是 反应变异的幅度 ;标准误的作用是 估计抽样误差(随机误差)的平均大小 。
7.统计分析的核心在于由 样本 的情况推断 总体 的信息。
8.某试验将A 因子的4水平控制为副处理(主要因子),B 因子的3水平控制为主处理(次要因子),重复2次。
该试验的主处理数为 3 ,主区数为 6 ,副处理数为 4 ,副区数为 24 。
若FA 显著,则A 因子水平间多重比较时用 机误b 。
(机误a 或机误b )9.某田间试验,A 因子有4个水平,B 因子有3个水平,采用随机区组设计重复两次。
已知误差均方为4.82,因子主效应F 测验达显著,需作A 因子水平间的多重比较(用Duncan 测验,即新复极差法),此时 = 0.896 。
10.L8(4*24)表示一张具有 具有4个水平1列,2个水平4列的8行 的混合型正交表。
如采用该正交表安排试验,该试验的处理数有 8 个。
11.本课程学过的随机排列的试验设计方法主要有 随机区组设计 、 完全随机排列 、 拉丁方设计 、 裂区设计 、 条区设计 、 局部实验 等6种。
12.试验资料一定要满足 方差具有同质性 、 变异的可加性 、 变x S异的独立性等三条件才能进行方差分析。
若试验资料为可数资料,在进行方差分析时,常用的统计代换有反正弦代换、平方根代换、对数代换等三种。
13.方差分析时,进行均数间多重比较的标准常用的有最小显著差数法、复极差法(q法)、 Duncan氏新复极差法等三种测验法。
多重比较结果表示最常用标记字母法表示。
14.计数资料的X2测验应用于适合性测验、独立性测验和联合分析测验。
15.协方差分析是回归分析法和方差分析法的相结合的一种统计分析法,其主要功用有当(x,y)为因果关系时,可利用y依x的回归系数矫正y变数的处理平均数,提高精确度和当(x,y)为相关关系时,可通过估计不同变异来源的总体方差和协方差,作出相应的相关分析。
16.试验方案设计的过程就是试验三原则的贯彻过程。
其具体步骤分别是确定重复次数、按局部控制原则进行重复区的小区的划分、将各处理在每个重复区中按随机排列的原则安排到试验小区中。
(重复、局部控制、随机排列)17.试验中保护行设置的作用是边缘效应区域的试验对象的异常将会影响到试验观测结果的准确性,为解决此问题,可在进行数据观测时,将这部分区域排除在外,不参与数据的测量,以此提高观测结果的准确性,因此区域的存在对数据的准确性具有保护作用。
三、简单题&问答题。
1.请说明随机区组设计过程的各个步骤。
答:(1)确定重复次数。
根据试验所允许的最大规模确定最高重复次数,根据误差的大小确定最低重复次数。
(2)按局部控制原则进行重复区的小区的划分。
重复区的划分方向与环境变异方面相垂直,小区方向与环境变异方面相平行。
(3)将各处理在每个重复区中按随机排列的原则安排到试验小区中。
可通过抽签或随机数字的方式进行。
2.解释用作区间估计的t 分布概率公式的统计含义。
答:统计在95%的可靠度下样本平均数的上限和下限。
3.解释差异显著性测验中所计算出来的t 值、χ2值、F 处理值的含义。
答:如果随机变量y ~N(μ,σ),则其函数 所服从的概率分布称为t 分布。
t 即为标准化离差。
如果u1, u2, … un ~ N(μ,σ)(即来自相同集团)则χ2 =Σu i 2所服从的概率分布为χ2分布。
χ2即相互独立的多个正态离差平方值的总和。
F 处理即为处理间差异平方与误差平方的比值。
4.写出本课程学过的5类型统计分析方法?简述各类统计分析法的作用和适用条件。
答:方差分析、相关分析、协方差分析、统计假设测验、卡平方分析。
5.请论述单因子试验与复因子试验的方差分析在计算过程上的主要区别。
答:(1)单因子试验与复因子试验的方差分析都要计算处理间的自由度,%95)//(05.005.0=+≤≤-n S t y n S t y P μy )/S -(μy t =而复因子试验的方差分析还需要计算组间的自由度。
(2)在进行平方和的分解时,单因子试验和复因子试验的方差分析都需要分解出处理的平方和和误差的平方和,而复因子试验的方差分析还需要分解出组间的平方和。
(3)在进行F 测验时,单因子试验和复因子试验的方差分析都需要计算处理间均方对误差均方的比率,而复因子试验的方差分析还需要计算组间均方对误差均方的比率。
6.为什么多个处理平均数进行差异显著性测验,不宜用t 测验,而需采用方差分析法?在进行方差分析时,试验资料一定要满足什么条件才能直接进行分析?答:若多个处理平均数进行差异显著性测验采用t 测验,会造成计算量加大,置信度降低,而方差分析法相对而言,计算量小,能够较精确地反应各处理间的差异。
在进行方差分析时,试验资料要满足同质性、可加性、独立性才能直接进行分析。
7.解释正态分布概率公式 的含义。
答:有95%的样本x 落在 的范围内。
8.说明单因子试验设计的方法有哪几种及其适用条件。
答:单因子试验设计的方法有随机区组设计、完全随机排列和拉丁方设计。
(1)随机区组设计。
适用条件:当环境条件在1个方向上存在明显的变异时(二维平面空间)。
(2)完全随机排列。
适用条件:当环境条件在0个方向上存在明显的变异时(二维平面空间)----任何方向上的趋势性变异均不明显。