当前位置:文档之家› 第五章数据统计分析1

第五章数据统计分析1


5.1 数理统计基础知识
数理统计方法:以概率论为基础,对大量的偶然现象的统计资料进行分析研 究,得出这种现象概率的规律性,给与科学的解释 数理统计方法,是以样本为依据,运用数学模型来推断总体的一门科学

5.1.1 总体和样本

总体(母体)——研究对象的特征表征量的全体 样本(子样)——从总体中抽取出来的一部分样品x1、x2、……、xn的测量值 样本容量——样本中的样品个数(n),即样本的大小; n>30 ——大样本 一组数据——表征自总体中随机抽出的一组样本 用样品的分析结果说明被研究对象的整体——用样本说明总体(母体) 分析学:以样品的分析结果说明被研究对象 统计学:以样本的分析结果说明总体
df=n-1=19,查t表得: tα (19)=1.729 ∵t = 2.23 > tα (19) =1.729,故拒绝μ ≤μ 0的假设 结论为目前该土壤中铀含量的水平显著地大于以往的本底水平 (1-α )=95% ②两总体均值之差等于一已知值和两总体均值相等的统计检验 常用来比较不同条件下的两组测量数据之间是否存在差异。 ▪μ检验法(总体方差已知) [例3] 茶叶样Ⅰ、Ⅱ中90Sr的含量:XⅠ=66.64Bq/kg,nⅠ=4;XⅡ =66.6Bq/kg,nⅡ=6;已知两样本标准都和总体标准差σ = 0.061无显著差别。 问:Ⅰ、Ⅱ号茶叶中90Sr是同一种茶叶分别装在两个瓶里,还是两 种不同的茶叶样(α =0.05) 解: 原假设H0:μ 1=μ 2 (双侧检验) ∵σ 总体已知且不变,∴两平均值差的方差为
X
(2) 正态分布(Gauss分布)
P x
1 e 2

实验的随机差通常服从此分布 2 1 x P(x)
2
x u
标准正态分布
1 P x e 2 2
2
μ ——曲线最高点对应的横坐标值 测值的集中趋势 σ ——测值的离散特性(大 精密度差,分散,小 精密度高) μ ——正态分布中以σ 为单位的离均差(x- μ ) N(μ ,σ ) N(0,1)
(4) 统计量t及其分布(学生分布) 英化学家Gosset用student
①测定次数有限,其随机误差不完全服从N(μ ,σ 2),而是服从类似正态分布的t 分布
统计量
t
x 0 Sx

x 0 S n
自由度为1、5及∞ 的t分布
②t与置信概率和自由度df=n-1有关,其数值称为置信因子t。 ③当df ∞,t=u,两分布曲线一致。 ④小样本时,t用来检验μ = μ 0的假设——单总体t检验,查表临界值tα
5.1.2 数据的特性及其分布 环放监测数据特性:①具有一定分散性(不可能完全相同) ②具有集中性的趋势 常遇到的三种分布: (1)泊松分布(浦阿松分布):离散型变量的一种分布 x p(x)
P x

x!
e
P(x)——计数x出现的概率 μ ——泊松分布的均值(数) μ >16时,泊松分布 正态分布 σ 2 =μ σ = √μ
5 放射性测量数据的统计分析
放射性测量的对象——放射性物质 放射性物质的衰变是一种随机过程,每个原子的衰变是完全独立的,是无法预 测的 严格地说,并不存在“真正的”或“准确的”衰变率,只能应用统计学的方法 来估 计在一段时间内最可能发生衰变的放射性原子数目 环境放射性水平低,常受到本底的干扰,使得环境监测数据的处理更为复杂
⑤小样本时,t也可用来检验μ 1= μ 2的假设——双总体t检验
t
x1 x2
2 2 n 1 S n 1 S 1 1 2 211 n双总体u检验、双总体t检验都是以σ 1 = σ 2为前提条件
(5) 统计量 X2及其分布
• X2分布的总体平均值或期望值为n-1,总体标准差为
2 X 2 n 1 S 2 0 若各Xi的σ i相等,即σ i = σ 0则有 ③•检验在σ 已知的特定实验中得到的S值究竟是合理还是例外。 •检验一组n个观测值是否和正态分布或其他分布一致。 ④ 查表,临界值X2α
2 n 1 。
(3)对数正态分布
P lg x
1 2 lg x
e

1 lg x lg x 2 2
检验方法:在正态概率纸或对数概率纸上作图,看能否得出一条直 线。 (4)正态分布特征量与样本特征量 总体平均值μ ——正态变量x的集中性 样本均值x——μ 的估计值 总体标准差σ ——正态变量x的离散程度 2 样本标准差S——σ 的估计量 X
(3)实例
①总体均值与一已知值相等的统计检验 检验方法: u ,t 检验法 测量值均值=已知值?
▪μ 检验法(已知真值,已知总体方差) [例1] 已知:土壤中239Pu含量(μ 0)4.47Bq/g,n=5次测量均值x=4.364Bq/g,
试分析是否存在系统误差?取α =0.05 原假设H0 :“μ 是否等于μ 0” 双侧检验 n 0.108 5 查U表 U0.025=1.96 U=2.19>1.96,∴否定原假设H0 μ ≠4.47Bq/g,该分析中存在系统误差(1-α )=95%
x
∴x估计μ (x=μ )
n
多次测量的平均值比一次测量值更精确
(2) 样本标准差S的概率分布
①通常S2=σ 2,S=σ ②标准差的标准差:σ σ =σ /√2n 若X~N(μ ,σ 2),则S~N(σ ,σ 2/2n)。当n较大时,可把S当作σ 的估计值
(3)统计量u及其分布
①若总体~N(μ ,σ ),X~N(μ ,σ /√n) 作出统计量:
u
x 0

4.364 4.47
2.19
▪t检验法 (测量的总体方差未知 用样本方差S2来估计总体方差σ2 用t检验) [例2] 已知:土壤中铀含量~N(μ ,σ 2),以往大量样品分析得到
μ 0=1.23μ g/g;现取样分析,n=20个,x=1.35μ g/g,S=0.24μ g/g; 现在水平≥以往水平 ? 试进行显著性检验(取α =0.05) 解: 原假设H0:μ ≤μ 0 (单侧检验) x 1.35 1.23 构造统计量: t 2.24 S n 0.24 n
1 Xi n n i 1 1 n x Xi n i 1
n


i

n
n
S
X
i
x

2
n 1
5.1.3 统计量及其分布 统计量——由样本数据构造出来的随机变量,如样本特征量x, S 由x, S构造的新量也是随机变量 由样本 总体的估计:建立相应的统计量 统计量本身的分 布 确定统计量超出某个限值或临界值的概率 提出各种统 计假设的检验方法 对于正态分布N(μ ,σ )来说,常用的统计量:x、S、u、t、ⅹ2、F 其中x、S是样本特征量, u、t、ⅹ2、F是新构造出的统计量 (1) 样本均值x的概率分布 ①若x~N(μ ,σ 2) x1、x2„„ X~N(μ ,σ 2/n) ②n>30的大样本,不管总体是何分布, X~N(μ ,σ 2/n) ③样本均数分布的均数等于原总体的分布μ ④样本均数分布的标准差σ 被√n 除所得的商:
5.1.4 统计检验
先假设某一种总体具有某种参数或遵从某种分布等统计特性, 然后再检验这个假设是否可信,这种方法称为统计检验,或统计 假设检验。 例:某测量装置检修前后的两组本底;年均值m1,m2;有无变化? m1,m2 ~两个泊松分布的总体,假设m1-m2 =0;采用样本来推 断是否抛弃该假设。
Lc —— 判断限 犯两类错误的示意图 LD —— 探测限 LQ —— 测定限
③统计检验分为单侧检验和双侧检验
单侧检验——专门检查μ 是否显著地大于(或小于)μ 0,其否定为μ >μ 0 ( 或μ <μ 0 ) 双侧检验——只关心μ 是否等于μ 0 ,其原假设为μ =μ 0,否定假设为μ ≠μ
0
④常用α 及时对应的Uα 值和Uα /2值 α =0.05 U0.05=1.64 U0.025=1.96 α =0.01 U0.01=2.33 U0.005=2.58 (2) 显著性检验与显著性水平 ①显著性检验——只提出一个原假设H0,不提备用假设 U≥Uα ,拒绝H0; U<Uα ,无显著性差异,不适宜否定H0 ②显著性水平——上述犯第一类错误的概率α ③用途 关于总体参数的检验 关于分布类型的检验(“吻合度”检验) ④(1-α )称为置信水平,表示可以有多大的把握去否定一个假 设

②X2由正态分布导出的一个重要的抽样分布,
具有以下重要特征:
xi x X i 1 i
2 n
2 服从自由度 df=n-1的X2 分布
• X2无定值, X2所取值自0——∞;
•分布曲线左右不对称,呈左偏; • X2分布曲线随自由度df而变化。 随自由度逐渐增大,曲线渐趋对称;
•t检验法(总体方差未知),σ 12与σ 22未知,只能用S12和S22估计之
[例4] 例2中,X=1.23μ g/g,S=0.25μ g/g,n=22个,试进行显著性检验(取α =0.1,双测检验) [解] 构造统计量:
t
1.35 1.23
22 1 0.25 20 1 0.24
x x
1
2


2
n1

2
n2
0.0394
u
x1 x2

66.64 66.68 0.04 1.02 0.0394 0.0394 1 1 n1 n2
令α =0.05,查μ 表得:μ 0.05/2 = 1.96。μ <1.96故接受原假设。无显著性差 别,没有理由认为两样本不是同一种。
u
x 0

n
② u~N(0,1) ③对于大样本,用来检验u=u0的假设,单总体u检验 ④临界值Uα ,置信水平1-α ,在正态分布 函数表上可查出对应于α 的Uα
相关主题