当前位置:文档之家› 常用的数理统计及数据处理方法

常用的数理统计及数据处理方法

常用的数理统计及数据处理方法水泥厂生产中的质量控制和分析都是以数据为基础的技术活动。

如果没有数据的定量分析,就无法形成明确的质量概念。

因此,必须通过对大量数据的整理和分析,才能发现事物的规律性和生产中存在的问题,进而作出正确的判断并提出解决的方法。

第一节数理统计的有关概念一、个体、母体与子样在统计分析中,构成研究对象的每一个最基本的单位称为个体。

研究对象的所有个体的集合即全部个体称为母体或总体,它可以无限大,也可以是有限的,如一道工序或一批产品、半成品、成品,可根据需要加以选择。

进行统计分析,通常是从母体中随机地选择一部分样品,称为子样(又称样本)。

用它来代表母体进行观察、研究、检验、分析,取得数据后加以整理,得出结论。

取样只要是随机和足够的数量,则所得结论能近似地反映母体的客观实际。

抽取样本的过程被称作抽样;依据对样本的检测或观察结果去推断总体状况,就是所谓的统计推断,也叫判断。

例如,我们可将一个编号水泥看成是母体,每一包水泥看成是个体,通过随机取样(连续取样或从20个以上不同部位取样),所取出的12kg检验样品可称为子样,通过检验分析,即可判断该编号水泥(母体)的质量状况。

二、数据、计量值与计数值1,数据通过测试或调查母体所得的数字或符号记录,称为数据。

在水泥生产中,无任对原材料、半成品、成品的检验,还是水泥的出厂销售,都要遇到很多报表和数据,特别是评定水泥质量好坏时,更要拿出检验数据来说明,所以可用与质量有关的数据来反映产品质量的特征。

根据数据本身的特征、测试对象和数据来源的不同,质量检验数据可分为计量值和计算值两类。

2,计量值凡具有连续性或可以利用各种计量分析一起、量具测出的数据。

如长度、质量、温度、化学成分、强度等,多属于计量值数据。

计量值也可以是整数,也可以是小数,具有连续性。

3,计数值凡不能用测量工具和一起进行测量,而是用计数的方法得到的非连续性数据。

如合格率,废品个数等,数据计数值数据。

计数值是不连续的、间断的,以离散状态出现。

三、频数、频率与概率随机变量是一种随着机会而改变其数值并且具有一定规律性的变量。

如测定水泥的强度,每一袋水泥的试验结果不可能完全相同,即使一袋水泥,抽取几组试样,其试验结果也不可能完全一致,但是在一定的范围内波动,这是由于水泥的均匀性及试验误差等因素的影响,使得每次试验结果都是一个随机变量。

1,频数、频率测定的一组数据中某一数值重复出现的次数或在某一范围内数值重复出现的次数为频数。

频率为频数占数据总数的百分比。

2,概率在质量管理实践中发现,生产中某质量数值是经常变化的,但在正常生产情况下,这些数值的变化又是遵循一定规律的,即统计规律—概率。

概率又叫几率,是表明事件发生的可能性大小的数。

如果某事件必然发生,它的概率就是1;如果某事件完全不可能发生,则它的概率为0;如果某事件可能,也可能不发生,则它的概率介于0与1之间。

概率的统计定义,就是把概率理解为频率的稳定值;在条件基本相同的大量重复试验中,随着试验总次数不断增加,频率总是在某一常数附近波动,相对地稳定下来,这就是频率的相对稳定性。

这个常数表现为该频率的相对稳定值,称为概率。

四、数据统计特征数尽管质量数据是波动的,但根据数理统计理论,我们发现在相同条件下生产的产品的质量波动是有一定规律的,它们多数向一个数值集中,同时又在此数值的两旁分散开来。

统计特征数是用以表达随机变量波动规律的统计量,即数据的集中程度和离散(散差)程度。

常见的统计特征数有以下几个:1,算术平均值我们从总体抽了一个样本(子样),得到一批数据X1、X2、X3……Xn在处理这批数据时,经常用算术平均值X来代表这个总体的平均水平。

统计中称这个算术平均值为“样平均值”。

2,中位数把数据按大小顺序排列,排在正中间的一个数即为中位数。

当数据的个数n为奇数时,中位数就是正中间的数值,当n为偶数时,则中位数为中间两个数的算术平均值。

3,极差R极差就是数据中最大值和最小值的差,又称全距,用符号R表示。

R=Xmax-Xmin式中Xmax—数据中的最大值Xmin—数据中的最小值4,标准偏差(子样S,母体O)标准偏差是人们总结和推导出来的一个衡量总体分散程度的度量值,又称为均方根差。

其推导过程是:设有n个数据,先技术出算术平均值X,将总体中各个数据减去平均值,即得离差。

离差可能是正数,也可能是负数或零。

如果将全部离差相加,其代数和将会为零。

为此先将各离差平方,计算出离差的平方和。

并除以数据的个数n,则求得各离差平方的算是平均值(即方差)。

子样的标准偏差用S表示,母样的标准偏差用O表示。

标准偏差给出数据中各值偏离平均值的趋势的大小。

如果标准偏差比较小,表明这批数据大多集中在它的平均值附近;如果标准偏差比较大,表明这批数据离开平均值的距离较大,较分散。

所以S是表示数据分散程度的一个重要的特征值。

对于控制产品的质量来说,标准偏差大的产品质量波动大,工艺因素不稳定。

反之则表示产品质量比较均匀、稳定。

故通过标准偏差的计算,而已评价产品质量,控制生产工艺和评定工艺改造的效果等。

5,变异系数C V用极差和标准偏差都只反映数据波动的绝对大小。

当测量单位不同或测量单位相同,但不同组的平均数相差很大时,用标准偏差来衡量离散程度的大小是不合理的,必须用相对标准偏差(即变异系数)来表示离散程度。

如在做水泥均匀性试验时,就要求计算变异系数,通过变异系数就可以比较不同企业的水泥质量波动情况,这是一个比较合理的方法。

变异系数是数据的标准偏差与数据的算术平均值之比。

加权平均:计算水泥28天强度平均标号:当月产量剩以当月平均28天强度,加上,下月产量剩以当月平均28天强度,以此类推,最后除以总产量计算加权平均标号=4.1X39.2+2.8 X 38.7+5.8 X 38.9+5.5 X 39.4+5.0 X 39.7+4.9 X 38.8+4.7 X 39.1+4.8 X 39.3+5.2 X 39.3+5.2 X 39.4+5.0 X 39.5+6.0 X 39.6/59=39.3mpa算术平均标号=39.2+38.7+38.9+39.4+39.7+38.8+39.1+ 39.3+ 39.3+ 39.4+ 39.5+39.6/59=39.2 mpa包装质量抽查记录表2013年6月份出磨水泥汇总表实验误差与数据处理一、定量分析中的误差定量分析中,反省结果应具有一定的准确度,因为不准确的分析结果会导致产品报废,资源浪费,甚至得出错误的结论。

但是在分析过程中,即使是技术很熟练的人,用同一方法对同一试样仔细地进行多次分析,也不能得到完全一致的分析结果,而是分析结果在一定的范围内波动。

这就是说,分析过程中误差是客观存在的。

因此要善于判断分析结果的准确性,查出产生误差的原因,进一步研究减小误差的方法,以不断提高分析结果的准确程度。

(一)准确度与误差准确度是分析结果与真实值相符合的程度,通过用误差的大小来表示。

误差越小。

分析结果的准确度越高。

误差有两种表示方法:绝对误差和相对误差。

绝对误差是测定值与真实值之差,相对误差是绝对误差在真实值中所占的百分率,即绝对值=测定值—真实值绝对误差相对误差= ——————X 100%真实值由于一般分析测定中误差的数值是相当小的,因此有时也用测定结果代替真实值,即相对误差近视地等于绝对误差与测定结果之比,再乘以100%从相对误差的计算公式可以看出,当绝对误差相同,被测定的结果较大,相对误差就比较小,测定的准确度也就比较高。

(二)精密度与偏差精密度是指在相同条件下几次平行测定的结果相互接近的程度。

通常用偏差的大小来表示。

偏差越小,分析结果的精密度越高。

偏差也有绝对偏差和相对偏差之分。

测定结果(Xi)与平均值(X)之差为绝对偏差(d),即个别测定的绝对偏差;绝对偏差在平均值中所占的百分率为相对偏差(d r),即个别测定的相对偏差。

因此绝对值=测定值– n 次测定值的算术平均值X⒈+X⒉+ (X)即 X=——————————n__d= X1- x绝对偏差相对偏差=——————— X100%算术平均值即 ddr=———— X100%X¯用统计方法处理数据时,广泛采用标准偏差来衡量数据的程度,表示多次测定结果互相接近的程度,其计算公式为:标准偏差S=S相对标准偏差Rѕd = ————X 100%X¯式中n —测定次数(X1 —X2)一各个测定结果与测定结果平均值之差。

偏差小,说明测定的重复性好,精密度高。

在例行分析中,一个试样至少分别称去二分试料进行平行测定,所得结果的精密度可用方法中所注明的允许差进行判断。

允许差一般分为同一实验室和不同实验室两类。

精密度是准确度的必要条件,分析结果的精密度很差,或者说难于重复,就谈不上结果的准确度。

但精密度好并不一定意味着准确度高。

(三)准确度与精密度的关系准确度表示测量的正确性,而精密度则表示测量的的重复性或者再现性。

检验工作要力求测量准确度高,精密度好。

事实证明只有首先保证精密度好,才有可能使准确度更高。

但是精密度好并不能保证准确度也高。

因为分析结果的精密度主要取决于实验操作的仔细与精密度程度(即由偶然误差所决定),而准确度则主要取决于分析方法本身(即由系统误差所决定)。

因此,粗心大意固然不能得出准确的分析结果,但分析方法本身带来的误差,显然也不会因操作精细而被完全消除。

因此,只有在消除了分析的系统误差之后,尽量提高分析的精密程度,这样所得到的测定结果才是准确、可靠地。

(四)误差的来源根据误差的性质,可将误差分为两类。

即系统误差和偶然误差。

1、系统误差系统误差又称可定误差或可测误差。

这是由于测定过程中某些经常性的原因所造成的误差,它影响分析结果的准确度。

产生误差的主要原因是:方法误差。

由于分析方法本身不够完善而引入的误差。

它是由分析系统的化学或物理化学性质所决定的。

例如,反映不能定量地完成或者有副反应;干扰成分的存在;重量分析中沉淀的溶解损失、共沉淀和后沉淀现象。

灼烧沉淀时部分挥发损失或称量形式具有吸湿性;在滴定分析中,指示剂选择不适当、化学计量点和滴定终点不相符合都属于方法上的误差。

仪器误差。

由于仪器本身不精密或者有缺陷造成的误差。

例如,天枰两臂不相等,砝码、滴定管,容量瓶、移液管等未经校正,在使用过程中就会引入误差。

试剂误差。

由于试剂不纯或蒸馏水、去离子水不符合规格,含有微量的被测组分或对测定有干扰的杂质等所产生的误差,例如测定石英砂中铁的含量时,使用的硅酸盐中有铁的杂质,就会给分析结果造成的误差。

主管误差。

因操作者某些生理特点(如个人的判断能力缺陷或不良的习惯)所引起的误差。

例如,有的人视力的敏感程度较差,对颜色的变化感觉迟钝,因而引起的误差。

总之,系统误差是由于某种固定的原因所造成的,在各次测定中这类误差的数值大体相同,并且始终偏向一方(或者正误差或者负误差)。

相关主题