当前位置：文档之家› 数据统计分析和描述

数据统计分析和描述

设 X1，X2，…，Xn 是来自正态总体 N (m,s 2 ) 的样本，欲检验假设：
H0
:s
2

s
2 0
； H1
:s
2

s
2 0
（或
s2

s
2 0
或
s
2

s
2 0
）
这叫 2 检验.
均值 m 已知
均值 m 未知
统计量
统计量
H0
H1
2

1
s
2 0
n
(
X
2 i

m)2
i 1
2

1
s
2 0
偏度： g1

1 s3
n
(Xi
i 1
X )3
峰度： g2

1 s4
n
(Xi
i 1
X)4
偏度反映分布的对称性，g1 >0 称为右偏态，此时数据位于均值右边的比位于左边的多；g1 <0 称为左偏态，情况相反；而 g1 接近 0 则可认为分布是对称的.
峰度是分布形状的另一种度量，正态分布的峰度为 3，若 g2 比 3 大很多，表示分布有沉重的尾巴，说明样本中含有较多远离均值的数
一、点估计的求法
(一）矩估计法
假设总体分布中共含有 k 个参数，他们往往是一些原点矩或一些原点矩的函数，例如，数学期望是一阶原点矩，方差是二阶原点矩与一阶原点矩平方之差等.因此，要想估计
总体的某些参数 i （i=1，2，…，k），由于 k 个参数一定可以
表为不超过 k 阶原点矩的函数，很自然就会想到用样本的 r 阶原点矩去估计总体的 r 阶原点矩，用样本的一些原点矩的函数去估计总体的相应的一些原点矩的函数，再将 k 个参数反解出来，从而求出各个参数的估计值.这就是矩估计法，它是最简单的一种参数估计法.
Xn）,使得
P(ˆ1 ˆ2 ) 1 则称随机区间(ˆ1,ˆ2 ) 为参数的置信水平为1 的置信区间,ˆ1 称为置1．已知DX，求EX的置信区间
设样本（X1，X2，…，Xn）来自正态母体 X，已知方差 DX s 2 ，
n
p(x1,1, ,k ) p( x2 ,1, ,k ) p( xn ,1, ,k ) p( xi ,1, ,k ) i 1
使 L(1,, k ) 达到最大，从而得到参数 i 的估计值ˆi .此估计值称为极大似然估计值.函数
L(1,, k ) 称为似然函数.
一、参数检验
（一）单个正态总体均值的检验
设取出一容量为 n 的样本，得到均值 X 和标准差 s，现要
对总体均值 m 是否等于某给定值 m0 进行检验.记 H0 : m m0 ； H1 : m m0
称 H0 为原假设，H1 为备择假设，两者择其一：接受 H0；拒绝 H0，即接受 H1.
1．总体方差s 2 已知
数学建模与数学实验
数据的统计描述和分析
实验目的
1．直观了解统计基本内容. 2．掌握用数学软件包求解统计问题.
实验内容
1．统计的基本理论. 2．用数学软件包求解统计问题. 3．实验作业.
数
据的
统计的基本概念
统
计
参数估计
描
述
和
假设检验
分
析
一、统计量
1. 表示位置的统计量—平均值和中位数.
平均值（或均值，数学期望）： X
EX 在置信水平 1- 下的置信区间为[ X u 1 2
s
n
,X
u 1 2
s ].
n
2．未知方差DX，求EX的置信区间
EX 在置信水平 1- 下的置信区间为[ X t 1 2
s n
,X
t 1 2
s ]. n
（二）方差的区间估计
DX
在置信水平
1-
下的置信区间为[(n 1)s 2
据，因而峰度可用作衡量偏离正态分布的尺度之一.
4.
k 阶原点矩：Vk

1 n
n i 1
X
k i
k 阶中心矩：U k

1 n
n
(Xi
i 1
X )k
二、分布函数的近似求法
1.整理资料：把样本值 x1，x2，…，xn 进行分组，先将它们依大小次序排列，
得
x1*

x2*

x
* n
.在包含
(二）极大似然估计法
极大似然法的想法是: 若抽样的结果得到样本观测值 x1,x2,…,xn, 则我们应当选取参数 i 的
值,使这组样本观测值出现的可能性最大.即构造似然函数：
L(1, 2 ,, k ) P( X1 x1, X 2 x2 ,, X n xn ) P( X1 x1 )P( X 2 x2 )P( X n xn )
（或
s
2 1

s
2 2
，或
s
2 1

s
2 2
现的次数 ni ，它就是这区间或这组的频数.计算频率
fi

ni n
.
3.作频率直方图：在直角坐标系的横轴上，标出
x1'
,
x2'
,
,
x
' n
各点，分别以
(
xi'
,
x' i 1
]
为底边，作高为
fi
x
' i
的矩形， xi'

xi'1 xi' , i 1,2,, n 1,即得
频率直方图.
2.非参数检验：如果所检验的假设并非是对某个参数作出明确的判断，因而必须要求构造出的检验统计量的分布函数不依赖于观测值的分布函数类型，这种检验叫非参数检验. 如：要求判断总体分布类型的检验就是非参数检验.
假设检验的一般步骤
1．根据实际问题提出原假设 H0 与备择假设 H1，即说明需要检验的假设的具体内容；
j(x)
1
x2
e2
2p
分布函数
F(x)
1
x
y2
e 2 dy
2p
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-4
-2
0
2
4
6
2. 2 分布 2 (n)
若随机变量 X1，X2，…，Xn 相互独立，都服从标准正态分布 N（0，1），则随机变量
Y=
X
2 1
0
0.5
1
1.5
2
2.5
3
返回
无论总体 X 的分布函数 F（x；1, 2 ,, k ）的类型已知或未知，我
们总是需要去估计某些未知参数或数字特征，这就是参数估计问题.即参
数估计就是从样本（X1，X2，…，Xn）出发，构造一些统计量ˆi ( X1，X2，…，
Xn）（i=1，2，…，k）去估计总体 X 中的某些参数（或数字特征） i（i=1，
X
F n1 Y
n2
服从自由度为（n1，n2）的 F 分布，记作 F~ F（n1，n2）.
由 F 分布的定义可以得到 F 分布的一个重要性质：
若 F~ F（n1，n2），则
1 F
~
F (n2 , n1 )
F（10，50）分布的密度函数曲线
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0

1 n
n i 1
Xi
中位数：将数据由小到大排序后位于中间位置的那个数值.
2. 表示变异程度的统计量—标准差、方差和极差.
标准差： s
[ 1 n 1
n i1
(Xi

1
X )2 ]2
它是各个数据与均值偏离程度的度量.
方差：标准差的平方.
极差：样本中最大值与最小值之差.
3. 表示分布形状的统计量—偏度和峰度
2．选择适当的统计量，并在原假设 H0 成立的条件下确定该统计量的分布；
3．按问题的具体要求，选取适当的显著性水平 ,并根据统计量
的分布查表,确定对应于的临界值.一般取 0.05,0.01 或 0.10；
4．根据样本观测值计算统计量的观测值，并与临界值进行比较，从
而在检验水平下对拒绝或接受原假设 H0 作出判断.
Ⅲ m1 m2 m1 m2
z u1
t t1 (n1 n2 2)
（四）两个正态总体方差的检验
设样本 X1，X2，…，Xn
与 Y1，Y2，…，Yn
分别来自正态总体
N
(m1
,s
2 1
)
与
1
2
N
(m
2
,
s
2 2
)
，检验假设：
H0
:
s
2 1

s
2 2
；
H1
:
s
2 1

s
2 2
求极大似然估计值的问题，就是求似然函数 L(1,, k ) 的最大值问题，则
L 0 i 1,2,, k i
即
lnL 0 i 1,2,, k
i
二、区间估计的求法
设总体 X 的分布中含有未知参数，若对于给定的概率1 （ 0 1），存在两个统计量ˆ1 ( X1，X2，…，Xn）和ˆ2( X1，X2，…，
三、几个在统计中常用的概率分布
1．正态分布N (m,s 2 )

e商务文档

数据统计分析和描述

相关文档推荐：