当前位置：文档之家› 数据处理基础知识 word

数据处理基础知识 word

检测数据处理基础知识误差及相关概念→真实值与标准值误差是测量值与真实结果之间的差异，要想知道误差的大小，必须知道真实的结果，这个真实的值，我们称之“真值”。

1.真实值从理论上说，样品中某一组分的含量必然有一个客观存在的真实数值，称之为“真实值”或“真值”。

用“μ”表示。

但实际上，对于客观存在的真值，人们不可能精确的知道，只能随着测量技术的不断进步而逐渐接近真值。

实际工作中，往往用“标准值”代替“真值”。

2.标准值采用多种可靠的分析方法、由具有丰富经验的分析人员经过反复多次测定得出的结果平均值，是一个比较准确的结果。

实际工作中一般用标准值代替真值。

例如原子量、物理化学常数：阿佛伽得罗常数为6.02×10等。

与我们实验相关的是将纯物质中元素的理论含量作为真实值。

1.准确度准确度是测定值与真实值接近的程度。

为了获得可靠的结果，在实际工作中人们总是在相同条件下，多测定几次，然后求平均值，作为测定值。

一般把这几次在相同条件下的测定叫平行测定。

如果这几个数据相互比较接近，就说明分析的精密度高。

2.精密度精密度是几次平行测定结果相互接近的程度。

3.精密度和准确度的关系（1）精密度是保证准确度的先决条件。

（2）高精密度不一定保证高准确度。

1.误差（1）定义：个别测定结果X、X …X与真实值μ之差称为个别测定的误差，简称误差。

（2）表示：各次测定结果误差分别表示为X -μ、X -μ……X -μ。

（3）计算方法：绝对误差相对误差对于绝对误差——测定值大于真值，误差为正值；测定值小于真值，误差为负值。

对于相对误差——反映误差在测定结果中所占百分率，更具实际意义。

2.偏差偏差是衡量精密度的大小。

误差的分类→系统误差1.定义由某种固定的原因造成的误差，若能找出原因，设法加以测定，就可以消除，所以也叫可测误差。

2.特点具有单向性、可测性、重复性。

即：正负、大小都有一定的规律性，重复测定时会重复出现。

3.产生原因（1）方法误差：分析方法本身所造成的误差。

方法误差是由于某一分析方法本身不够完善造成的。

如分析过程中，干扰离子的影响没有消除。

（2）操作误差：由于操作人员的主观原因造成的。

如滴定分析时，每个人对滴定终点颜色变化的敏感程度不同，不同的人对终点的判断不同。

（3）仪器和试剂误差：仪器误差来源于仪器本身不够精确。

例如天平两臂不等长，砝码长期使用后质量改变。

试剂误差来源于试剂不纯。

注意：系统误差是重复地以固定形式出现的，增加平行测定次数不能消除。

误差的分类→随机误差随机误差由某些难以控制、无法避免的偶然因素造成。

也称偶然误差。

1.特点大小、正负都不固定，不能通过校正来减小或消除，可以通过增加测定次数予以减小。

2.产生原因操作中温度变化、湿度变化、甚至灰尘等都会引起测定结果波动。

系统误差和随机误差划分不是绝对的，对滴定终点判断的不同有个人的主观原因，也有偶然性。

随机误差比系统误差更具偶然性。

分析工作中的“过失”不同于这两种误差。

它是由于分析人员操作时粗心大意或违反操作规程所产生的错误。

随机误差的正态分布1.分布曲线y：概率密度，表示测量值在此处出现的概率。

y越大，出现的可能性越大。

x：测量值。

μ总体平均值：无限次数据的平均值，相应于曲线最高点的横坐标值，表示无限个数据集中趋势。

在没有系统误差时，它就是真值。

σ总体标准偏差：总体平均值到曲线两转折点之一的距离，表征数据分散程度。

σ小，数据集中，曲线又高又瘦，σ大，数据分散，曲线比较矮比较胖。

x-σ：随机误差。

若以x-σ为横坐标，则曲线最高点对应横坐标为0。

对于一条曲线来说，μ和σ是这条曲线的两个参数，所以用N（μ，σ）表示这条曲线。

这条曲线可以用一个函数式表示。

2.概率密度函数3.随机误差规律性（1）小误差出现的概率比大误差多，特别大的误差出现的概率极少。

（2）正误差和负误差出现的概率是相等的。

4.标准正态分布：横坐标用u表示，其定义式为：即：以σ为单位来表示随机误差。

函数表达式为：因此曲线的形状与σ大小无关，不同的曲线都合并为一条。

记作N（0，1）随机误差的区间概率1.定义随机误差在某一区间出现的概率以某段正态分布曲线下所包含的面积表示。

一条完整的正态分布曲线所包含的面积，表示所有测量值出现的概率的总和，即是100%，等于1。

用算式表示为：一般以为单位，计算不同值曲线所包含的面积，制成概率积分表供直接查阅。

2.计算公式概率＝面积＝有限数据的统计处理随机误差分布的规律给数据处理提供了理论基础，但它是对无限多次测量而言。

实际工作中我们只做有限次测量，并把它看作是从无限总体中随机抽出的一部分，称之为样本。

样本中包含的个数叫样本容量，用n表示。

数据的趋势→数据集中趋势的表示1.算术平均值n次测定数据的平均值。

是总体平均值的最佳估计。

对于有限次测定，测量值总朝算术平均值集中，即数值出现在算术平均值周围；对于无限次测定，即n → ∞时，→μ。

2.中位数M将数据按大小顺序排列，位于正中间的数据称为中位数M。

n为奇数时，居中者即是；n为偶数时，正中间两个数据的平均值即是。

数据的趋势→数据分散程度的表示1.极差R（或称全距）：指一组平行测定数据中最大者（Xmax）和最小者（Xmin）之差。

R＝ Xmax - Xmin2.平均偏差：各次测量值与平均值的偏差的绝对值的平均。

绝对偏差 di＝ Xi - (i =1,2,…,n )平均偏差相对平均偏差3.标准偏差S：计算方法标准偏差S＝相对标准偏差，也叫变异系数，用CV表示，一般计算百分率。

相对标准偏差RSD＝×100 %自由度f：f＝ n-1平均值的置信度区间→定义1.置信度置信度表示对所做判断有把握的程度。

表示符号：P。

有时我们对某一件事会说“我对这个事有八成的把握”。

这里的“八成把握”就是置信度，实际是指某事件出现的概率。

常用置信度：P=0.90，P=0.95；或P=90%，P=95%。

2.置信度区间按照t分布计算，在某一置信度下以个别测量值为中心的包含有真值的范围，叫个别测量值的置信度区间。

1. t的定义，与对比。

2. t分布曲线(1) t分布曲线：t分布曲线的纵坐标是概率密度，横坐标是t，这时随机误差不按正态分布，而是按t分布。

(2)与正态分布关系：t分布曲线随自由度f变化，当n→∞时，t分布曲线即是正态分布。

t分布曲线【t分布值表】由表可知，当f→∞时，S→σ，t即是u。

实际上，当f=20时，t与u已十分接近。

3.平均值的置信度区间：(1)表示方法：(2)含义：在一定置信度下，以平均值为中心，包括总体平均值的置信度区间。

(3)计算方法：①求出测量值的，S，n。

②根据要求的置信度与f值，从t分布值表中查出t值。

③代入公式计算。

显著性检验→平均值与标准值比较常用的方法有两种：t检验法和F检验法。

分析工作中常遇到两种情况：样品测定平均值和样品标准值不一致；两组测定数据的平均值不一致。

需要分别进行平均值与标准值比较和两组平均值的比较。

1.比较方法用标准试样做几次测定，然后用t检验法检验测定结果的平均值与标准试样的标准值之间是否存在差异。

2.计算方法①求t。

t =②根据置信度（通常取置信度95%）和自由度f，查t分布表中t值。

③比较t和t，若t﹥t，说明测定的平均值出现在以真值为中心的95%概率区间之外，平均值与真实值有显著差异，我们认为有系统误差存在。

t =例：某化验室测定标样中CaO含量得如下结果：CaO含量=30.51%,S=0.05,n=6,标样中CaO含量标准值是30.43%,此操作是否有系统误差？（置信度为95%）解：t = = 3.92查表：置信度95%，f=5时，t =2.57。

比较可知t＞t。

说明：此操作存在系统误差。

显著性检验→两组平均值的比较常用的方法有两种：t检验法和F检验法。

分析工作中常遇到两种情况：样品测定平均值和样品标准值不一致；两组测定数据的平均值不一致。

需要分别进行平均值与标准值比较和两组平均值的比较。

1.比较方法用两种方法进行测定，结果分别为，S，n； ,S，n。

然后分别用F检验法及t检验法计算后,比较两组数据是否存在显著差异。

2.计算方法(1)精密度的比较——F检验法：①求F计算： F＝＞1②由F表根据两种测定方法的自由度，查相应F值进行比较。

【表2-2 95%置信水平（a=0.05）时单侧检验F值（部分）】③若F＞F，说明 S和S差异不显著，进而用t检验平均值间有无显著差异。

若F＞F，S和S差异显著。

(2)平均值的比较：①求t :t＝若S与S无显著差异，取S作为S。

②查t值表，自由度f＝n＋n－2。

③若t＞t，说明两组平均值有显著差异。

例：Na CO试样用两种方法测定结果如下：方法1：＝42.34，S＝0.10，n＝5。

方法2：＝42.44，S＝0.12，n＝4。

比较两结果有无显著差异。

离群值的取舍1.定义在一组平行测定数据中，有时会出现个别值与其他值相差较远，这种值叫离群值。

判断一个测定值是否是离群值，不是把数据摆在一块看一看，那个离得远，那个是离群值，而是要经过计算、比较才能确定，我们用的方法就叫Q检验法。

2.检验方法（1）求Q：Q = 即：求出离群值与其最邻近的一个数值的差，再将它与极差相比就得Q值。

（2）比较：根据测定次数n和置信度查Q，若Q＞Q，则离群值应舍去，反之则保留离群值。

表2-3 90%置信水平的Q临界值表数据数（n） 3 4 5 6 7 8 9 10∞Ｑ90% 0.90 0.76 0.64 0.56 0.51 0.47 0.44 0.41 0.00例：测定某溶液物质的量浓度，得如下结果：0.1014 ,0.1012 ,0.1016 ,0.1025 ,问0.1025是否应该舍弃（置信度90%）？方法的选择方法的选择要根据分析试样的组成确定分析方法。

常量组分测定：重量法、滴定法。

准确度高，灵敏度低。

微量组分测定：仪器分析测定。

准确度高，灵敏度较差。

准确度的提高1.减少测量误差测定过程中要进行重量、体积的测定，为保证分析结果的准确度，就必须减少测量误差。

例：在重量分析中，称重是关键一步，应设法减少称量误差。

要求：称量相对误差＜0.1%。

一般分析天平的称量误差为±0.0001克，试样重量必须等于或大于0.2克，才能保证称量相对误差在0.1%以内。

2.增加平行测定次数，减少随机误差增加平行测定次数，可以减少随机误差，但测定次数过多，没有太大的意义，反而增加工作量，一般分析测定时，平行测定4-6次即可。

3.消除测定过程中的系统误差 3.1检查方法：对照法(1)对照试验：选用组成与试样相近的标准试样进行测定，测定结果与标准值作统计处理，判断有无系统误差。

(2)比较试验：用标准方法和所选方法同时测定某一试样，测定结果做统计检验，判断有无系统误差。

e商务文档

数据处理基础知识 word

相关文档推荐：