变量变换
中取值的观测频数,ni;,i=1,2,…k.
(4)按所指定的分布求随机变量X在各个Di中 取值的概率Pi;i=1,2,…,k.如果所指 定的分布中有未知的参数,可先用极大似 然法求出各个未知参数的估计量后再求上 述各个概率的估计值.
(5)根据样本容量n及概率Pi或估计值 求 随机变量x在各个Di中取值的理论频数n Pi 或理论频数的估计值n≯;i=1,2,…k.
总体分布的检验-卡方拟合优度检验
检验观测数据是否与某种已知分布的理论 数值相符合,进而推断观测数据是否是来 自于该分布的样本。
具体步骤:
(1)设H。:总体X服从某个指定的分布. (2)将随机变量X的取值范围划分为k个互不
相交的区间或区域Di;,i=1,2,…,k. (3)由样本的观测值求随机变量X在各个Di;
几种基本的简单函数变换—平方根变换
平方根变换(square root transformation)将原始数据 X 的平方根作为分析变量
或
或
式中 K 为常数,须经尝试得到。当有小值或零时,可用
或
平方根变换的用途:①使服从 Poisson 分布的计数资料,或 轻度偏态资料正态化;②使方差不齐且各样本的方差与均数 间呈正相关的资料达到方差齐的要求。
另一种常见的变量变换类型是变量的标准化(standardization) 或规范化(normalization)。标准化或规范化的目标是使整个值 的集合具有特定的性质。一个传统的例子是统计学中的"对变量 标准化"。如果 x是属性值的均值(平均值),而Sx是它们的标 准差,则变换x' = (x )/Sx创建一个新的变量,它具有均值0和标 准差1。如果要以某种方法组合不同的变量,则为了避免具有较 大值域的变量左右计算结果,这种变换常常是必要的。例如, 考虑使用年龄和收入两个变量对人进行比较。对于任意两个人, 收入之差的绝对值(数百或数千元)多半比年龄之差的绝对值 (小于150)大很多。如果没有考虑到年龄和收入值域的差别, 则对人的比较将被收入之差所左右。
(2)由于卡方分布是连续分布,而在(6)中 计算矿统计量的观测值时,使用的是观测 频数n Pi ,因此这个统计量只是近似服从 卡方分布,近似的程度取决于样本含量和 类别数.为了保证足够的近似程度,要求
示例
对一个容量n=50的随机样本进行某项指标 的测量,得到50个观测值,根据测量结果, 判断该项指标的总体分布是否为正态分布。 测量值如下:
总体方差齐性的检验
F检验:两组。 Hartley检验法:样本容量相等。 Cochran检验法:样本容量相等,比Hartley
更敏感。 极差比值检验法:以极差为基础。 Bartlett检验法,可用于样本容量不等。
Bartlett检验
检验统计量
示例
某医师研究不同人群的发汞含量,分3组进行检验。原数 据3组间样本方差相差较大,经用对数转换后数据如表所 示,问转换后数据是否具有方差齐性。
变量变换
毛静静 何江平 唐敏
第一部分 分析方法假定检验
为什么要进行变量变换?
参数统计分析方法对资料有一定的要求,如t检验 和方差分析要求样本来自正态分布总体,并且方 差齐同;直线相关(回归)分析要求两变量间呈 直线关系。但实际工作中并非所有的统计资料都 能满足参数统计分析方法的条件;对于不能满足 条件的资料,则不能直接应用参数统计分析方法, 否则有可能导致错误的结论。解决的办法:一是 通过适当的变量变换,使之达到方法的要求,这 是本节所要介绍的方法;二是选用非参数统计分 析方法。一般情况下,若能通过变量变换使资料 符合参数方法条件时,应尽量用参数统计方法。
(6)计算Z2统计量的观测值
当被估计的未知参数有l个、Z2≥Z乙。(五一 时放弃H0,否则接受Ho.
注意:
(1)上述统计量是以妒分布为极限分布, 作z2检验时要求n≥50.k的大小没有严格的 规定,可随行的增减而增减,但k太小会使 检验过于粗糙,而k太大又会增加随机误差, 通常取5≤k≤16.
变量变换的途径——标准化
均值和标准差受离群点的影响很大,因此通常需要修改上 述变换。首先,用中位数(median)(即中间值)取代均 值。其次,用绝对标准差(absolute standard deviation)取 代标准差。
几种基本的标准化变换—最大最小规格化
该方法对被初始数据进行一种线性转换。设 minA 和 maxA
几种基本的简单函数变换—对数变换
对数变换(transformation of logarithm)将原始数据 X 取 对数,以其对数值作为分析变量
还可根据需要用
或
式中 K 为常数,须经尝试得到。若原始数据分布的资料正态化;② 使方差不齐且各组的 接近的资料达到方差齐的要求;③使 曲线直线化,常用于曲线拟合。
几种基本的简单函数变换—平方根反正弦变换
平方根反正弦变换(arcsine trasformation of square root) 将原始数据 X 的平方根反正弦作为分析变量
平方根反正弦变换的用途:使总体率较小(<30%)或总体率 较大(>70%)的二项分布资料达到正态或方差齐的要求。
变量变换的途径——标准化
第二部分 变量变换途径
变量变换的途径——简单函数
对于这种类型的变量变换,一个简单数学函数分 别作用于每一个值。如果x是变量,这种变x换k 的例 子包括 , log x, ex, , 1/x, sin x和 | x | 。在统计学 中,变量变换(特别是平方根、对数和倒数变换) 常用来将不具有高斯(正态)分布的数据变换成 具有高斯(正态)分布的数据。尽管这可能很重 要,同时,如果感兴趣的变量是一次会话中的数 据字节数,并且字节数的值域范围为1到10亿。这 是一个很大的值域,使用常用对数变换将其进行 压缩可能是有益的。这样的话,传输108和109字 节的会话比传输10字节和1000字节的会话更为相 似。