当前位置：文档之家› 变量变换

变量变换

中取值的观测频数，ni；，i=1，2，…k．
(4)按所指定的分布求随机变量X在各个Di中取值的概率Pi；i=1，2，…，k．如果所指定的分布中有未知的参数，可先用极大似然法求出各个未知参数的估计量后再求上述各个概率的估计值．
(5)根据样本容量n及概率Pi或估计值求随机变量x在各个Di中取值的理论频数n Pi 或理论频数的估计值n≯；i=1，2，…k．
总体分布的检验-卡方拟合优度检验
检验观测数据是否与某种已知分布的理论数值相符合，进而推断观测数据是否是来自于该分布的样本。
具体步骤：
(1)设H。：总体X服从某个指定的分布． (2)将随机变量X的取值范围划分为k个互不
相交的区间或区域Di；，i=1，2，…，k． (3)由样本的观测值求随机变量X在各个Di；
几种基本的简单函数变换—平方根变换
平方根变换（square root transformation）将原始数据 X 的平方根作为分析变量
或
或
式中 K 为常数，须经尝试得到。当有小值或零时，可用
或
平方根变换的用途：①使服从 Poisson 分布的计数资料，或轻度偏态资料正态化；②使方差不齐且各样本的方差与均数间呈正相关的资料达到方差齐的要求。
另一种常见的变量变换类型是变量的标准化（standardization）或规范化（normalization）。标准化或规范化的目标是使整个值的集合具有特定的性质。一个传统的例子是统计学中的"对变量标准化"。如果 x是属性值的均值（平均值），而Sx是它们的标准差，则变换x' = (x )/Sx创建一个新的变量，它具有均值0和标准差1。如果要以某种方法组合不同的变量，则为了避免具有较大值域的变量左右计算结果，这种变换常常是必要的。例如，考虑使用年龄和收入两个变量对人进行比较。对于任意两个人，收入之差的绝对值（数百或数千元）多半比年龄之差的绝对值（小于150）大很多。如果没有考虑到年龄和收入值域的差别，则对人的比较将被收入之差所左右。
（2）由于卡方分布是连续分布，而在(6)中计算矿统计量的观测值时，使用的是观测频数n Pi ，因此这个统计量只是近似服从卡方分布，近似的程度取决于样本含量和类别数．为了保证足够的近似程度，要求
示例
对一个容量n=50的随机样本进行某项指标的测量，得到50个观测值，根据测量结果，判断该项指标的总体分布是否为正态分布。测量值如下：
总体方差齐性的检验
F检验：两组。 Hartley检验法：样本容量相等。 Cochran检验法：样本容量相等，比Hartley
更敏感。极差比值检验法：以极差为基础。 Bartlett检验法，可用于样本容量不等。
Bartlett检验
检验统计量
示例
某医师研究不同人群的发汞含量，分3组进行检验。原数据3组间样本方差相差较大，经用对数转换后数据如表所示，问转换后数据是否具有方差齐性。
变量变换
毛静静何江平唐敏
第一部分分析方法假定检验
为什么要进行变量变换？
参数统计分析方法对资料有一定的要求，如t检验和方差分析要求样本来自正态分布总体，并且方差齐同；直线相关（回归）分析要求两变量间呈直线关系。但实际工作中并非所有的统计资料都能满足参数统计分析方法的条件；对于不能满足条件的资料，则不能直接应用参数统计分析方法，否则有可能导致错误的结论。解决的办法：一是通过适当的变量变换，使之达到方法的要求，这是本节所要介绍的方法；二是选用非参数统计分析方法。一般情况下，若能通过变量变换使资料符合参数方法条件时，应尽量用参数统计方法。
(6)计算Z2统计量的观测值
当被估计的未知参数有l个、Z2≥Z乙。(五一时放弃H0，否则接受Ho．
注意：
（1）上述统计量是以妒分布为极限分布，作z2检验时要求n≥50．k的大小没有严格的规定，可随行的增减而增减，但k太小会使检验过于粗糙，而k太大又会增加随机误差，通常取5≤k≤16．
变量变换的途径——标准化
均值和标准差受离群点的影响很大，因此通常需要修改上述变换。首先，用中位数（median）（即中间值）取代均值。其次，用绝对标准差（absolute standard deviation）取代标准差。
几种基本的标准化变换—最大最小规格化
该方法对被初始数据进行一种线性转换。设 minA 和 maxA
几种基本的简单函数变换—对数变换
对数变换（transformation of logarithm）将原始数据 X 取对数，以其对数值作为分析变量
还可根据需要用
或
式中 K 为常数，须经尝试得到。若原始数据分布的资料正态化；② 使方差不齐且各组的接近的资料达到方差齐的要求；③使曲线直线化，常用于曲线拟合。
几种基本的简单函数变换—平方根反正弦变换
平方根反正弦变换（arcsine trasformation of square root）将原始数据 X 的平方根反正弦作为分析变量
平方根反正弦变换的用途：使总体率较小（<30%）或总体率较大（>70%）的二项分布资料达到正态或方差齐的要求。
变量变换的途径——标准化
第二部分变量变换途径
变量变换的途径——简单函数
对于这种类型的变量变换，一个简单数学函数分别作用于每一个值。如果x是变量，这种变x换k 的例子包括 , log x, ex, , 1/x, sin x和 | x | 。在统计学中，变量变换（特别是平方根、对数和倒数变换）常用来将不具有高斯（正态）分布的数据变换成具有高斯（正态）分布的数据。尽管这可能很重要，同时，如果感兴趣的变量是一次会话中的数据字节数，并且字节数的值域范围为1到10亿。这是一个很大的值域，使用常用对数变换将其进行压缩可能是有益的。这样的话，传输108和109字节的会话比传输10字节和1000字节的会话更为相似。

e商务文档

变量变换

相关文档推荐：