第二章资料的整理第一节资料的分类一)有效数值(一)数值:有量纲表示事物大小和尺度的数(二)有效数字的识读小数点后第一位不为零的数字读起,小数点之前的零不算。
(三)有效数字的定位与计算1.以读取仪器中最小刻度以下再估读一位作为有效数字,所有变数的有效位数一致。
2.有效数字运算的结果有效位数不能高于运算因子中的最小位数。
3.常数的有效位数据需要而定。
4.“四舍六入五取双”原则5.大于四位平均有效数字加大一倍。
二)数据的分类正确地进行资料的分类是资料整理、统计归纳的前提。
数据按其性质的不同,分为数量性状资料、质量性状资料和半定量(等级)资料三大类。
一、数量性状资料数量性状(quantitative character)是指能够以量测或计数的方式表示其特征的性状。
观察测定数量性状而获得的数据就是数量性状资料( data of quantitative characteristics)。
数量性状资料的获得有量测和计数两种方式,因而数量性状资料又分为计量资料和计数资料两种。
(一)计量资料指用量测方式获得的数量性状资料,即用度、量、衡等计量工具直接测定获得的数量性状资料。
其数据是用长度、容积、重量等来表示。
资料观测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的精度而定,变异是连续性的。
称为连续性变异资料。
(二)计数资料指用计数方式获得的数量性状资料。
各个观察值只能以整数表示。
各观察值是不连续的,称为不连续性变异资料或间断性变异资料。
二、质量性状资料质量性状(qualitative character)是指能观察到而不能直接测量的性状,如颜色、性别、生死等。
这类性状本身不能直接用数值表示,须对其观察结果作数量化处理,其方法有以下两种:(一)统计次数法在一定的总体或样本中,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。
例如,在研究猪的毛色遗传时,白猪与黑猪杂交,子二代中白猪、黑猪和花猪的头数分类统计如下表。
表2-1 白猪和黑猪子二代的毛色分离情况这种由质量性状数量化得来的资料又叫次数资料。
(二)评分法对某一质量性状,因其类别不同,分别给予评分。
例如,在研究猪的肉色遗传时,常用的方法是将屠宰后2时的猪眼肌横切面与标准图谱对比,由浅到深分别给予1 5 分的评分,以便统计分析。
三、半定量(等级)资料(semi-quantitative or ranked data)指将观察单位按所考察的性状或指标的等级顺序分组,然后清点各组观察单位的次数而得的资料。
资料既有次数资料的特点,又有程度或量的不同。
如粪便潜血试验的阳性反应是在涂有粪便的棉签上加试剂后观察颜色出现的快慢及深浅程度分为六个等级;又如用某种药物治疗畜禽的某种疾病,疗效分为“无效”、“好转”、“显效”和“控制”四个级别;然后统计各级别的供试畜禽数。
半定量资料在兽医研究中是常见的。
三种不同类型的资料相互间是有区别的,但有时可根据研究的目的和统计方法的要求将一种类型资料转化成另一种类型的资料。
例如,兽医临床化验动物的白细胞总数得到的资料属于计数资料,根据化验的目的,可按白细胞总数正常或不正常分为两组,清点各组的次数,计数资料就转化为质量性状次数资料;如果按白细胞总数过高、正常、过低分为三组,清点各组次数,就转化成了半定量资料。
第二节资料的整理一、资料的检查与核对目的在于确保原始资料的完整性和正确性。
完整性指原始资料无遗缺或重复。
正确性是指原始资料的测量和记载无差错或未进行不合理的归并。
检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)。
对于有重复、异常或遗漏的资料,应予以删除或补齐;对有错误、相互矛盾的资料应进行更正,必要时进行复查或重新试验。
二、资料的整理方法当观测值不多(n≤30)时,不必分组,直接进行统计分析。
当观测值较多(n>30)时,宜将观测值分成若干组,以便统计分析。
将观测值分组后,制成次数分布表,即可看到资料的集中和变异情况。
(一)计数资料的整理现以50枚受精种蛋孵化出雏鸡的天数为例,说明计数资料的整理。
——单项式分组法。
用样本变数的自然值进行分组,每组组值均用一个变数值表示,然后将每个变数归入相应的组内,统计频数,最后制成频数分布表。
表2-2 50枚受精种蛋孵化出雏鸡的天数小鸡出壳天数在19─24天范围内变动,有6个不同的观察值。
用各个不同观察值进行分组,共分为6组,可得表2-3形式的次数分布表。
表2-3 50枚受精种蛋出雏天数的次数分布表——合并分组法有些计数资料,观察值较多,变异范围较大,若以每一观察值为一组,则组数太多,而每组内包含的观察值太少,资料的规律性显示不出来。
对于这样的资料,可扩大为以几个相邻观察值为一组,适当减少组数,这样资料的规律性就较明显。
例如观测某品种100只蛋鸡每年每只鸡产蛋数(原始资料略),其变异范围为200 299枚。
表2-4 100只蛋鸡每年产蛋数的次数分布表(二)计量资料的整理——组距式分组法计量资料在分组前需要确定全距、组数、组距、组中值及组限,然后将全部观测值划线计数归组。
【例2.1】将126头基础母羊的体重资料(见表2-5)整理成次数分布表。
表2-5 126头基础母羊的体重资料单位:kg1、求全距全距是资料中最大值与最小值之差,又称为极差(range),用R表示,即R=Max(x)-Min(x)本例R=65.0-37.0=28.0(kg)2、确定组数组数的多少视样本含量及资料的变动范围大小而定,一般以达到既简化资料又不影响反映资料的规律性为原则。
组数要适当,不宜过多,亦不宜过少。
分组越多所求得的统计量越精确,但增大了运算量;若分组过少,资料的规律性就反映不出来,计算出的统计量的精确性也较差。
一般组数的确定,n <50,5-6组,n >50,7-20组。
表2-6 样本含量与组数本例中,n=126,根据表2-6,初步确定组数为10组。
3、确定组距每组最大值与最小值之差称为组距,记为i。
分组时要求各组的组距相等。
组距(i)=全距/组数本例i=28.0/10≈3.0 (一般用整数、避免计算的麻烦)4、确定组限及组中值各组的最大值与最小值称为组限。
最小值称为下限,最大值称为上限。
每一组的中点值称为组中值,是该组的代表值。
组中值与组限、组距的关系如下:组中值=(组下限+组上限)/2=组下限+1/ 2组距=组上限-1/2组距相邻两组的组中值间的距离等于组距,当第一组的组中值确定后,加上组距是第二组的组中值,其余类推。
组距确定后,选定第一组的组中值。
为了避免第一组中观察值过多,第一组的组中值以接近或等于资料中的最小值为好。
第一组组中值确定后,该组组限即可确定,其余各组的组中值和组限也可相继确定。
注意,最末一组的上限应大于资料中的最大值。
表2-5中,最小值为37.0,第一组的组中值取37.5,因组距已确定为3.0,所以第一组的下限为:37.5-(1/2)×3.0=36.0;第一组的上限也就是第二组的下限为:36.0+3.0=39.0;第二组的上限也就是第三组的下限为:39.0+3.0=42.0,……,以此类推,一直到某一组的上限大于资料中的最大值为止。
于是可分组为:36.0 − 39.0,39.0 − 42.0,……。
为了使恰好等于前一组上限和后一组下限的数据能确切归组,约定将其归入后一组。
通常将上限略去不写。
第一组记为36.0 −,第二组记为39.0 −,……5、归组划线计数,作次数分布表分组结束后,将资料中的每一观测值逐一归组,划线计数,然后制成次数分布表。
表2-7 126头基础母羊的体重的次数分布表划线时,不要重复或遗漏,各组次数相加,结果应与样本含量相等。
在分组后所得实际组数,有时和最初确定的组数不同,如第一组下限和资料中的最小值相差较大或实际组距比计算的组距为小,则实际分组的组数将比原定组数多;反之则少。
(三)质量性状资料、半定量(等级)资料的整理对于质量性状资料、半定量(等级)资料,可按性状或等级进行分组,分别统计各组的次数,然后制成次数分布表。
表2-8 F2代山羊的有角无角分离情况表2-9 仔猪死亡情况第三节常用统计表与统计图一、统计表(一)统计表的结构和要求统计表由标题、横标目、纵标目、线条、数字及合计构成,其基本格式如下表:表号标题编制统计表的总原则:结构简单,层次分明,内容安排合理,重点突出,。
具体要求:1、标题简明扼要、准确地说明表的内容,有时须注明时间、地点。
2、标目标目分横标目和纵标目两项。
横标目列在表的左侧,表示事物的主要标志;纵标目列在表的上端,说明横标目各统计指标内容,并注明计算单位,如%、kg、cm等等,用/隔开。
3、数字一律用阿拉伯数字,数字以小数点对齐,小数位数一致,无数字的用“─”表示,数字是“0”的,则填写“0”。
4、线条三线图:表的上下两条边线略粗,总横标目、纵标目间及合计用细线与下面横标目、纵标目分组及合计分开,表的左上角一般不用斜线。
(二) 统计表的种类1、简单表由一组横标目和一组纵标目组成,纵横标目都未分组。
表2-10 某品种鸡杂种二代冠形分离情况2、复合表由两组或两组以上的横标目与一组纵标目结合而成,或由一组横标目与两组或两组以上的纵标目结合而成,或由两组或两组以上的横、纵标目结合而成。
表2-11 几种动物性食品的营养成分二、统计图长条图(bar chart) 、园图(pie chart)、线图(linear chart) 、直方图(histogram)和折线图(broken-line chart)等。
一般,计量资料采用直方图和折线图,计数资料、质量性状资料、半定量(等级)资料常用长条图、线图或园图。
(一)统计图绘制的基本要求1、标题简明扼要,列于图的下方。
2、纵、横两轴应有刻度,注明单位。
3、横轴由左至右、纵轴由下而上,数值由小到大;图形长宽比例约5:4或6:5。
4、图中需用不同颜色或线条代表不同事物时,应有图例说明。
(二)常用统计图及其绘制方法1、长条图用等宽长条的长短表示按指标划分属性种类或等级的次数或频率分布。
如果只涉及一项指标,则采用单式长条图;如果涉及两个或两个以上的指标,则采用复式长条图。
注意以下几点:(1)纵轴尺度从“0”开始,间隔相等,标明所表示指标的尺度及单位。
(2)横轴是长条图的共同基线,应标明各长条的内容。
长条的宽度要相等,间隔相同。
间隔的宽度可与长条宽度相同或者是其一半。
(3)在绘制复式长条图时,将同一属性种类、等级的两个或两个以上指标的长条绘制在一起,各长条所表示的指标用图例说明,同一属性种类、等级的各长条间不留间隔。
2、园图用于表示计数资料、质量性状资料或半定量(等级)资料的构成比。
所谓构成比,就是各类别、等级的观测值个数(次数)与观测值总个数(样本含量)的百分比。