实验数据分析中的 误差、概率和统计§1 实验测量及误差§2 粒子物理实验的测量数据 §3 粒子物理实验的数据分析§1 实验测量及误差大量科学问题(自然科学、社会科学)的研究与解决依赖于实验或测量数据(包括统计数据)。
§1.1 实验测量的目的及分类 》目的:得到一个或多个待测量的数值及误差(确定数值); 确定多个量之间的函数关系(寻找规律,确定分布)。
》分类:1. 测量方式直接测量 - 用测量仪器直接测得待测量 (尺量纸的长度) 间接测量 -直接测量量为x r,待测量为y r ,y r 是x r 的函数 ()y f x =r r例如待测量为大楼高度h , 实测量为距离和仰角,x θ, 则tan h x θ=。
绝大部分问题是间接测量问题。
2. 测量过程静态测量 - 待测量在测量过程中不变多次测量求得均值动态测量 - 待测量在测量过程中变化 例雷达站测离飞行气球的距离多次测量求得气球的运动轨迹3. 测量对象待测量 - 固定常量 待测量 - 随机变量例放射源单位时间内的计数 (假定寿命极长) 每次测量值不一定相同。
粒子物理实验数据分析中处理的都是间接、动态、随机变量的测量和处理问题。
随机变量――一次测量所得的值是不确定的,无穷多次测量,一定测量值的概率是确定的。
(统计规律性) 离散随机变量――测量值是离散的分立值(掷硬币和扔骰子试验) 二项分布、泊松分布、多项分布。
连续随机变量――测量值一个区间内的所有值均匀分布、指数分布、正态分布、2χ分布、F 分布、t 分布。
描述随机变量的特征量――概率分布或概率密度非负性、 可加性、 归一性()0.f x ≥ 233121()()().x x x x x x f x dx f x dx f x dx +=⎰⎰⎰ () 1.f x dx Ω=⎰()0.i P x ≥ ()()().i j i j P x x P x P x ⋃=+ 1() 1.ni i P x ==∑期望值(概率意义上的平均值)离散型()()i i iE X x p x μ==∑连续型 ()xf x dx Ω=⎰方差(标准离差σ的平方)离散型 2()()(),i i iV X x p x μ=-∑连续型 2()()().V X x f x dx Ωμ=-⎰§1.2 测量误差及其分类1.报导误差的重要性• 物理量的测量值及其误差是衡量其可靠性及精度的依据。
• 没有误差的结果是没有意义的,因而是无法引用的。
• 要改正只给测量中心值、不给误差的坏习惯。
2.误差分类• 过失误差(粗差)-过失造成的误差操作、记录、运算中的错误,测量条件的突然改变…。
• 统计误差(随机误差)- 待测量为随机变量,服从某种概率分布 统计误差一般为待测量(随机变量)的标准差。
x μσ=±,x σσμ+-+-=。
μ一般理解为期望值。
• 系统误差 - 测量仪器、方法、理论模型的误差 测量环境变化导致的误差 测量仪器、测量方法的误差测量所依据的理论模型、(经验公式)的误差 ……导致系统误差的因素一般可分为带有随机性质和不带有随机性质的两类。
带有随机性质的系统误差由其分布的标准差决定。
不带随机性质的系统误差,由于有多种来源,每种来源导致的误差大小和符号不易确定,通常只能一起处理,考虑为一个随机变量。
系统误差的分析是一件特别复杂的、细致的工作,只能针对具体问题具体分析。
系统误差的分析是一件特别费时的工作, 往往占分析工作70%以上的时间• 系统误差的随机性质--许多情况下,测量仪器或设备对一个常数值的物理量的测定过程中包含了许多随机过程,对同一个常数值的物理量的多次测定成为一个分布,即测定值成为一个随机变量。
李雅普诺夫中心极限定理:设相互独立的随机变量12,,,n X X X L 有有限的数学期望和方差,当n 很大时,随机变量1nii X =∑近似地服从正态分布。
在许多物理量测量中,系统误差是由许多相互独立的随机因素合成的,根据该定理可知,系统误差近似地服从正态分布。
例如单能光子束射入碘化钠晶体(NaI(T1)),用光电倍增管测量晶体中的闪烁荧光,光电倍增管的输出电信号经过放大器等电子学线路,最后测量出脉冲幅度谱。
这一测量中涉及一系列相互独立的随机过程,如 :光子在晶体中的能量损失,(电子对效应,康普顿效应,光电效应,电离能损,…) 能量损失转化为不同波长光的概率分布, 光在晶体中的透射率率随光波长的概率分布, 光在晶体中的透射率随不同路程长度的概率分布, 晶体表面的反射折射系数随光波长的概率分布, 光在倍增管窗玻璃中的穿透率随光波长的概率分布,光子在光电倍增管阴极上产生光电子的量子效率的波长分布, 光子在光电倍增管阴极上产生光电子的量子效率随击中 位置的分布, 电子的倍增过程中倍增系数的涨落, ……因此,最后测到的全能峰的脉冲幅度近似于正态分布。
―测量值报导st sys μσσ±±μ:通过测量得到的对待测量真值的估计ststsys σσμσ+-+-±, syssysst σσμσ+-+-±,sysst st sysσσσσμ++--++--。
系统误差与统计误差从来源知相互独立t σ=tμσ±,t t σσμ+-+-。
§1.3 测量数据表示及运算1.数据位数• 误差应与测量精度一致, 测量值末位应与误差末位相同;7.550.03,± 7.60.1,± 7.550.1,± X 7.60.03,± X 。
• 需要对多个测量数据进行运算以得到结果,可将测量值多写一个估计位数字,珠峰高度 8848.430.21± 米。
• 误差最多只能写两位有效数字8.630.25±, 8.6320.246± X • 直接测量值(原始数据)误差必须有根据。
直接测量值是以后一切运算、推断的基础,其测量(中心)值及其误差必须给得准确,有根据。
2.数据修约规则• 测量(中心)值 -- 4舍5入舍去部分0.5>,末位+1;舍去部分0.5<,末位不变;舍去部分0.5=,末位为奇数, +1,末位为偶数, 不变。
• 测量误差 -- 进位保守性原则:进位而非舍入 2.42 2.53.多个实验数据之间的运算由于测量值总有误差,即使被测物理量原本是常量,由于测量误差的存在,测量值转化成为随机变量进行运算才是合理的。
因此多个实验(测量)数据之间的运算要按随机变量之间的运算规则来进行。
即根据误差传播公式进行。
木桶效应 - 木桶存水的多少取决于高度最短的那块板误差运算 - 最终的误差取决于各项中最差的测量值 (保守原则)运算结果的相对误差与参与运算的多个实验数据中最大的相对误差相对应。
例加减:位数最靠前的为准,相对误差最大的为准。
(3.50.1)(0.430.05) 3.930.15 3.90.2±+±→±→±。
乘除:数字位数最少的为准,相对误差最大的为准。
(3.50.1)(0.430.05) 1.5050.180 1.50.2±⨯±→±→±。
§1.4 误差与概率分布被测物理量X ,看作是随机变量,有对应的概率分布 离散分布:被测到 i x 的概率是i p连续分布:被测到 ],(dx x x +的概率是dx x f )(期望值 μ ⎰∑===dxx xf p x x E iii )()(μ方差 2)(x x V σ=dxx f x p x x V iii )()()()(22⎰∑-=-=μμ实验报导值: m mσμ±, 要尽可能做到 .,σσμμ→→m m , m m σμ±,要做到这一点,关键是要知道被测量x 服从什么分布。
(1) 多丝室的空间分辨(均匀分布)带电粒子穿过多丝室,靠近的两根丝感应出电信号。
设丝距为d ,问空间分辨为多大?d •←→• • • •――――――――――――――――――――――――――――→ X↑ 粒子入射 空间分辨,即多丝室在X 方向上的定位能力。
d or d /2 ?当两根丝感应出电信号,可以判断粒子入射位置在此两根丝之间。
在没有其他知识的情况下,认为入射位置为0d →间的均匀分布是合理的假定。
于是()1/,f x d = (:0)x d →/2d μ=, 22/12d σ=。
空间分辨2d σ=(2) 探测器的探测效率及误差》 伯努利分布――定义和概率分布伯努利试验――随机试验可能的结果只有两种:“成功”X=1; “失败”X=0。
随机变量X 的概率分布为(1)P X p ==, (0)1(01),P X pp ==-<<》 二项分布 ―― n 个伯努利随机变量之和 定义和概率分布独立地进行n 次伯努利试验,事件“成功”的发生次数r 可为0到n 之间的任一个正整数, r 是一个随机变量,它可以视为n 个伯努利分布随机变量之和:12.n r X X X =+++L事件“成功”发生r 次(0)r n ≤≤的概率等于(;,)(1)0,1,,r rn rn B r n p C p p r n -=-=L其中p 是一次伯努利试验中事件“成功”的概率。
随机变量r 的均值、方差 (),()(1).E r np V r np p μ≡==-》探测效率及其误差用探测器对粒子作计数,当一个粒子穿过探测器时,测量结果只可能是记到一次计数,或者没记到计数,没有其它可能。
这样,n 个粒子穿过探测器时,探测器记到r 次计数的概率由二项分布描述。
》 一个粒子穿过探测器得到一次计数的概率称为探测效率ε, 显然它就等于二项分布的参数p 。
事实上ε是依靠有限次测量确定的,即/r n ε=。
当n 足够大,p ε≅。
》 有限次测量确定的ε是有误差的,ε的方差为()(1)/(1)/,r V V p p n n n εεε⎛⎫==-≅- ⎪⎝⎭所以探测效率的误差(标准偏差)为2(1)1.r r nn n εεεσ-⎛⎫==- ⎪⎝⎭》 εσ有如下性质:0.5ε=时,εσ达到极大值0.5/n ;εσ对于0.5ε=为对称分布;当ε接近0或1时,εσ达到极小。
为了能实验地测定ε,探测器计数r 最小需等于1,即 min1/,n ε=此时min 1/1/.n n εεσσ==≅》探测效率的相对误差则为11.R n εσεεε-== 当min max 1/,1;n R R εε=≅=≅ 随着ε的增大R 迅速下降。
当1,0R ε==。
Rn§1.5 误差传播公式前面已经提到,多个实验(测量)数据之间的运算要按随机变量之间的运算规则来进行。