误差及数据处理基础理论知识综述2009-12-1 13:45:43误差及数据处理基础理论知识综述前言由于各行各业有各自的误差理论及数据处理理论,但基础理论都是一致的,大同小异。
现就在检验(测量)领域的误差理论及数据处理基础知识进行理论文字上的综述,尝试作一次理论上的探讨,与各位同仁共同学习和提高,如有不妥及错误之处请各位批评指正。
一、误差基础知识在各种测量领域,我们经常使用一些术语,例如测量误差、测量准确度和测量不确定度等来表示测量结果质量的好坏。
现我们从上述三个术语的定义出发,给出这些术语的基本概念,并指出它们之间的差别,以利于正确使用这些术语。
(一)测量结果测量结果的定义是“由测量所得到的赋予被测量的值”,因此测量结果是通过测量得到的被测量的最佳估计值。
由于任何测量都存在缺陷,因而通常测量结果并不等于真值。
完整表述测量结果时,必须给出其测量不确定度,必要时还应说明测量所处条件,或影响量的取值范围。
以便使用者可以正确地利用该测量结果。
测量结果可能是单次测量的结果,也可能是由多次测量所得。
对于前者,测得值就是测量结果;若为多次测量所得,则测得值的算术平均值才是测量结果。
因此在给出测量结果时,通常说明它是示值、未修正测量结果或已修正测量结果,同时还应表明它是否为几个值的平均。
测得值,有时也称为观测值,是指从一次观测中由测量仪器或量具的显示装置中所得到的单一值。
一般地说,它并不是测量结果。
测量结果是指对测得值经过恰当的处理(如按一定的规则确定并剔除测得值中的离群值)、修正(指必须加上由各种原因引起的必要的修正值或乘以必要的修正因子)或经过必要的计算而得到的最后提供给用户的量值。
因此测得值或观测值是测量中得到的原始数据,是测量过程的一个中间环节。
对于间接测量而言,测得值或观测值往往具有和被测量不同的量纲。
而测量结果则是整个测量的最后结果。
在不会引起混淆的情况下有时也将测得值称为测量结果。
(二)测量结果误差1、测量误差的定义测量误差的定义是:测量结果减去被测量的真值。
注:真值从理论上说,样品中某一组分的含量必然有一个客观存在的真实数值,称之为“真实值”或“真值”。
用“μ”表示。
但实际上,对于客观存在的真值,人们不可能精确的知道,只能随着测量技术的不断进步而逐渐接近真值。
实际工作中,往往用“标准值”代替“真值”。
标准值采用多种可靠的分析方法、由具有丰富经验的分析人员经过反复多次测定得出的结果平均值,是一个比较准确的结果。
实际工作中一般用标准值代替真值。
例如原子量、物理化学常数:阿佛伽得罗常数为6.02×10 等。
与我们实验相关的是将纯物质中元素的理论含量作为真实值。
(1)由于真值不能确定,实际上用的是约定真值。
(2)当有必要与相对误差相区别时,此术语有时称为测量的绝对误差。
注意不要与误差的绝对值相混淆,后者为误差的模。
根据误差的定义,测量误差是测量结果与被测量真值之差。
一个量的真值,是在被观测时本身所具有的真实大小,只有完善的测量才能得到真值。
任何测量都存在缺陷,完善的测量是不存在的,因此真值是一个理想的概念。
既然真值无法确切地知道,因此误差也无法确切地知道。
故在实际工作中,误差只能用于已知约定真值的情况,但此时还必须考虑约定真值本身的不确定度。
产生误差的原因是测量过程的缺陷,而测量过程的缺陷可能是由各种各样的原因引起的,因此测量结果的误差往往是由多个分量组成的。
误差与测量结果有关。
而测量结果只有通过测量才能得到,因此误差也只能通过测量得到。
通过分析评定的方法是无法得到误差的。
对于同一个被测量,当在重复性条件下进行多次测量时,可能得到不同的测量结果,因此这些不同测量结果的误差是不同的。
由定义还可知误差是两个值之差,因此误差表示的是一个差值,而不是区间。
当测量结果大于真值时误差为正值,当测量结果小于真值时误差为负值。
因此误差既不可能、也不应当以“±”号的形式出现。
测量误差常称为绝对误差,这是为区别于相对误差而言的。
相对误差定义为测量误差除以被测量的真值,实际上只能用测量误差除以被测量的约定真值,而在具体工作中则通常用测量结果来代替约定真值得到相对误差。
绝对误差的量纲与被测量的量纲相同,而相对误差是无量纲量,或者说其量纲为1。
2、误差的分类误差按其性质,可以分为系统误差和随机误差两类。
系统误差的定义为:在重复性条件下,对同一被测量进行无限多次测量所得结果的平均值与被测量的真值之差。
注:(1)如真值一样,系统误差及其原因不能完全获知。
(2)对测量仪器而言,其系统误差也称为测量仪器的偏移。
a.系统误差由定义可知,由于系统误差仅与无限多次测量结果的平均值有关,而与在重复性条件下得到的不同测量结果无关。
因此,在重复性条件下得到的不同测量结果应该具有相同的系统误差。
由于系统误差和真值有关,而真值是无法确切知道的,只能用约定真值代替,因而可能得到的只是系统误差的估计值,并具有一定的不确定度。
由于误差等于负的修正值,因此系统误差的不确定度就是修正值的不确定度。
不宜按过去的说法将系统误差分成已定系统误差和未定系统误差。
也不宜说未定系统误差按随机误差处理。
未定系统误差其实是不存在的,过去所说的未定系统误差从本质上说并不是误差,而是不确定度。
系统误差一般来源于影响量,它对测量结果的影响已经被识别并可以定量地进行估算。
这种影响称之为“系统效应”。
若该效应比较显著,也就是说如果系统误差比较大,则可在测量结果上加上修正值而予以补偿,得到修正后的测量结果。
b.随机误差随机误差的定义为:测量结果与在重复性条件下,对同一被测量进行无限多次测量所得结果的平均值之差。
注:(1)随机误差等于误差减去系统误差。
(2)因为测量只能进行有限次数,故可能确定的只是随机误差的估计值。
在无限多次测量结果的平均值中,已经不含有随机误差分量,故其只存在系统误差。
由于测量不可能进行无限多次,因而在测量结果中随机误差和系统误差分量都存在。
在重复性条件下得到的不同测量结果具有不同的随机误差,但有相同的系统误差。
1993年前,随机误差被定义为在同一量的多次测量过程中,以不可预知方式变化的测量误差分量。
这里所谓的不可预知分量是指在相同测量条件下的多次测量中,误差的符号及其绝对值变化不定的分量。
其大小用多次重复测量结果的实验标准差表示。
1993年后,随机误差是按其本质来定义的。
但由于该定义中涉及无限多次测量所得结果的平均值,因此与系统误差一样,能确定的同样只是随机误差的估计值。
随机误差一般来源于影响量的随机变化,故称之为“随机效应”。
正是这种随机效应导致了测量结果的分散性。
就单个测量结果而言,随机误差的符号和绝对值是不可预知的。
但就相同条件下多次测量结果而言,其总体上仍存在一定的规律性,称为统计规律性。
随机误差的统计规律性主要表现在下述三方面:随机误差的统计规律性:(1)对称性对绝对值相等而符号相反的误差,出现的次数大致相等。
也就是说,测得值以其算术平均值为中心对称地分布。
随机误差的统计规律性:(2)有界性指测得值的随机误差的绝对值不会超过一定的界限。
也就是说,不会出现绝对值很大的随机误差。
随机误差的统计规律性:(3)单峰性所有的测得值以其算术平均值为中心相对集中地分布,绝对值小的误差出现的机会大于绝对值大的误差出现的机会。
由于随机变量的数学期望值等于对该随机变量进行无限多次测量的平均值,因此也可以说,随机误差是指测量误差中数学期望值为零的误差分量,而系统误差则是指测量误差中数学期望值不为零的误差分量。
根据定义,误差、系统误差和随机误差均表示两个量值之差,因此随机误差和系统误差也都应该具有确定的符号,同样也不应当以“±”号的形式出现。
由于随机误差和系统误差都是对应于无限多次测量的理想概念,而实际上无法进行无限多次测量,只能用有限次测量的结果作为无限多次测量结果的估计值,因此可以确定的只是随机误差和系统误差的估计值。
误差经常用于已知约定真值的情况,例如经常用示值误差来表示测量仪器的特性。
3、误差、随机误差和系统误差之间的关系由误差、随机误差和系统误差的定义可知:误差= 测量结果-真值=(测量结果-总体均值)+(总体均值-真值)= 随机误差+系统误差或测量结果= 真值+误差= 真值+随机误差+系统误差由此可知,误差等于随机误差和系统误差的代数和。
既然误差是一个差值,因此任何误差的合成,不论随机误差或系统误差,都应该采用代数相加的方法。
这一结论与我们过去常用的误差合成方法不一致。
过去在对随机误差进行合成时,通常都采用方和根法。
两者的区别在于随机误差定义的改变。
1993年之前,随机误差用多次重复测量结果的实验标准差表示,因此当时随机误差用一个“区间”来表示。
1993年国际上对“随机误差”一词的定义作了原则性修改后,随机误差表示测量结果与多次测量所得结果的平均值(即总体均值)之差,因此随机误差已不再表示一个“区间”,而是表示测量结果与总体均值之差。
并且测量结果是真值、系统误差和随机误差三者的代数和。
由于误差、随机误差和系统误差都是两个量值之差,因此不论它们是否能确切地知道,任何误差的合成都应该采用代数相加的方法,而不能采用过去常用的方和根法合成。
过去人们常常会误用“误差”这一术语。
例如,通过经典的误差分析方法给出的结果往往是被测量值不能确定的范围,而不是真正的误差值。
按定义,误差与测量结果有关,即不同的测量结果有不同的误差。
合理赋予被测量的每一个值各有其自己的误差,而并不存在一个共同的误差。
也有人将误差分为四类:系统误差、随机误差、漂移和粗差。
但主要还是前面两类。
漂移是由不受控的影响量的系统影响所引起的,常常表现为时间效应或磨损效应。
因此漂移可以用单位时间内的变化或使用一定次数后的变化来表示。
从实质上来说,漂移是一种随时间或随使用次数而变化的系统误差。
测量结果中还可能存在粗差,粗差是由测量过程中不可重复的突发事件所引起的。
电子噪声或机械噪声可以引起粗差。
产生粗差的另一个经常出现的原因是操作人员在读数和书写方面的疏忽以及错误地使用测量设备。
必须将粗差和其他几种误差相区分,粗差是不可能再进一步描述的。
粗差既不可能被定量地描述,也不能成为测量不确定度的一个分量。
由于粗差的存在,使测量结果中可能存在异常值。
在计算测量结果和进行测量不确定度评定之前,必须剔除测量结果中的异常值。
在测量过程中,如果发现某个测量条件不符合要求,或者出现了可能影响到测量结果的突发事件,可以立即将该数据从原始记录中剔除,并记录下剔除原因。
在计算测量结果和进行不确定度评定时,异常值的剔除应通过对数据作适当的检验,并按一定的规则进行。
无论随机误差或系统误差,所有的误差从本质上来说均是系统性的。
如果发现某一误差是非系统性的,则主要是因为产生误差的原因没有找到,或是对误差的分辨能力不够所致,因此,可以说随机误差是由不受控的随机影响量所引起的。