当前位置:文档之家› 数量生态学(第二版)第2章 数据处理

数量生态学(第二版)第2章 数据处理

第二章数据的处理数据是数量生态学的基础,我们对数据的类型和特点应该有所了解。

在数量分析之前,根据需要对数据进行一些预处理,也是必要的。

本章将对数据的性质、特点、数据转化和标准化等做简要介绍。

第一节数据的类型根据不同的标准,数据可以分成不同的类型。

下面我们将介绍数据的基本类型,它是从数学的角度,根据数据的性质来划分的;然后叙述生态学数据,它是根据生态意义而定义的,不同的数据含有不同的生态信息。

一、数据的基本类型1、名称属性数据有的属性虽然也可以用数值表示,但是数值只代表属性的不同状态,并不代表其量值,这种数据称为名称属性数据,比如5个土壤类型可以用1、2、3、4、5表示。

这类数据在数量分析中各状态的地位是等同的,而且状态之间没有顺序性,根据状态的数目,名称属性数据可分成两类:二元数据和无序多状态数据。

(1)二元数据:是具有两个状态的名称属性数据。

如植物种在样方中存在与否,雌、雄同株的植物是雌还是雄,植物具刺与否等等,这种数据往往决定于某种性质的有无,因此也叫定性数据(qualitative data)。

对二元数据一般用1和0两个数码表示,1表示某性质的存在,而0表示不存在。

(2)无序多状态数据:是指含有两个以上状态的名称属性数据。

比如4个土壤母质的类型,它可以用数字表示为2、1、4、3,同时这种数据不能反映状态之间在量上的差异,只能表明状态不同,或者说类型不同。

比如不能说1与4之差在量上是1与2之差的3倍,这种数据在数量分析中用得很少,在分析结果表示上有时使用。

2.顺序性数据这类数据也是包含多个状态,不同的是各状态有大小顺序,也就是它一定程度上反映量的大小,比如将植物种覆盖度划为5级,1=0~20%,2=21%~40%,3=41%~60%,4=61%~80%,5=81%~100%。

这里1~5个状态有顺序性,而且表示盖度的大小关系。

比如5级的盖度就是明显大于1级的盖度,但是各级之间的差异又是不等的,比如盖度值分别为80%和81%的两个种,盖度仅差1%,但属于两个等级4和5;而另外两个盖度值分别为41%和60%,相差19%,但属于同一等级。

顺序性数据作为数量数据的简化结果在植被研究中有着较广泛的应用,但在数量分析中,这种数据所提供的信息显然不如数量数据。

因此,使用并不十分普遍。

3、数量属性数据数量属性数据简称为数量数据(quantitative data),它是实际测得的属性数值。

这些值可以是连续的数值,称为连续数据(continuous data),也可以是不连续的枚举数值,叫做离散数据(discrete data)。

前者可以是任何数值(包括小数部分),比如植物的高度,可能是5m,也可能是5.21m;而后者只包括0和正整数,比如植物个体的数目,可以是1、5或20等数目,但不能是5.2。

连续数据和离散数据一般在数量分析中等同对待,二者也很容易相互转化。

二、不同类型数据间的转化数据类型转化是指由一个数据类型按照某些规则转变成另一数据类型。

理论上讲,上面讲的各种数据类型之间都可以相互转化,但是,有的数据类型在转化成其它类型上有较大的困难,比如多状态数据转化成数量数据,在植被数量分析中一般很少涉及这样的转化。

对于数量数据的转化用得较多。

因为数量数据类型转化成二元数据,在某些分析中具有优越性,转化成多状态数据类型在某些分析结果的表示上具有重要意义。

比如要在排序图上表示植物的盖度变化趋势,一般用多状态数据较佳,而数量数据由于数字多,在图上表示较为困难,因此,我们简单介绍数量数据的转化。

数量数据转化成二元数据比较容易,一般选一阈值,大于或等于该阈值的值记为1,小于该阈值的值记为0,就变成了二元数据,这种转化显然损失不少信息,所以只有对一些特殊的只能使用二元数据而不能使用数量数据的分析方法才进行这样的转化。

数量数据转化为多状态数据一般要求在其取值范围内适当分成若干等级即可。

比如土壤PH测量值,我们规定1=3.5~4.5,2=4.6~5.5,3=5.6~6.5,4=6.6~7.5,然后将PH数量值换成相应的等级值1~4,就变成了有序多状态数据,至于两级之间的间距多大,应该分为多少等级诸类问题,应该从生态学的角度考虑,而不是数学问题。

三、生态数据生态数据(ecological data)以反映生态信息的属性为测量指标而测得的数据。

它有很多类型,这里仅考虑植物群落生态数据。

它是植被数量分析的基础。

群落生态数据有两大类型。

一类是反映群落组成、结构关系的植物区系组成数据;另一类是群落的环境组成数据,包括各种环境因子的测量指标。

区系组成数据是反映群落成员特征的一些定量和定性的属性数据,即数量数据和二元数据。

1、数量数据数量生态数据是以描述群落及其成员数量特征为指标而测得的数据,比如多度数据,盖度数据、频度数据、生物量数据等等,这些数据的含义和测定请参考群落数量特征一章。

2、二元数据一个种是否存在于一个样方中,存在记为1,不存在记为0,就构成了二元生态数据,这种二元数据有着重要的生态意义,因为种出现与否与环境密切相关。

种存在与否的二元数据在数量分析中用的也非常广泛,有些分析方法只适合分析二元数据,比如关联分析。

另外,一些研究表明,对某些数量方法,使用二元数据可以获得与数量数据一致的结果,这样二元数据就显示出了优越性。

因为,二元数据的获得要比数量数据容易得多(阳含熙等1985, 张金屯 1995)。

3、环境数据环境因子数据有的可以在野外直接测得,比如海拔高度、坡度、坡向、土壤PH 值等。

有的则要在实验室通过分析获得,比如土壤水分、土壤营养成分、有机质含量等,这些数据的测量和分析可以从有关的书中找到,这里不再讲述。

4、数据矩阵生态数据一般是在N 个样方中调查P 个属性的定量或定性指标,因此,可以用一个P ×N 维的矩阵表示,矩阵的列代表N 个样方(实体)行代表P 个种或环境因子(属性),这样的矩阵叫做原始数据矩阵,简称数据矩阵(data matrix )。

如果用X 表示数据矩阵,它可表示为:Nj P i x x x x x x x x x x x x x X PN p p p N N ij ,2,1;21}{32122322211131211==⎪⎪⎭⎪⎪⎬⎫⎪⎪⎩⎪⎪⎨⎧==,,, (2.1)其中x ij 表示第i 个种或环境因子在第j 个样方中的观测值,它可以是上面介绍的任何一种生态数据,矩阵每一行称为一个行向量(row vector )或属性向量(attribute vector );一列叫做一个列向量(column vector )或实体向量(entity vector ),共有P 个行向量,N 个列向量,如果在N 个样方中仅记录一个种的数量值,则数据矩阵就是一个行向量,可以认为是矩阵的特殊形式。

第二节 数据的处理数据处理是指进行数量分析之前对原始数据先进行简缩、转化和标准化的过程。

这些处理过程一般是从生态学意义出发。

数据简缩(data reduction )是在不损失生态信息或损失非常少的前提下,去掉一些数据,以简化计算分析过程;数据转化(data transformation )是通过某一运算规则将原始数据转化为新的数据值的过程,而其新值的大小只与被转换的原始数据本身和运算规则有关,而与原始数据集合中的其它值无关;数据标准化(data standardization )也是通过某一运算将原始数据转化成新值。

但其新值的大小除依赖于原始数据自身外,也与原始数据集合中的其它值有关。

一、数据简缩数据简缩的过程要考虑研究的目的和使用的方法,在多元分析中一般是减少种类,即删除两个极端的种。

一是极端多的种,比如二元数据中,如果一个种存在于所有的样方中,那么它对分类和排序不提供有用的信息,应该删去。

二是极端少的种。

比如有些种仅出现在一个样方中,即所谓的“孤种”(singleton),它对群落关系提供的信息非常少,可以淘汰。

也可以用概率来确定极端多和极端少的种,比如出现在95%以上样方中的种可以认为是极端多的种,出现在5%以下的样方中的种可以认为是极端少的种。

对于样方一般简缩处理较少,如果简缩有两种可能,一是代表性较差的样方,可以删去,二是在系统取样时,有时会出现两个样方所记录的种类及其观测值完全等同,可以淘汰其中之一。

在数据不太多的情况下,第二种情况也可以保留,这样分类的结果二样方在一组内,排序的结果二样方重合。

在格局分析中,一般不进行数据简缩,因为连续样方不能去掉任何一个。

而种类是我们所感兴趣的,一般是事先选定的,多为群落优势种。

二、数据转换数据转换的目的一是为了改变数据的结构,使其能更好地反映生态关系,或者更好地适合某些特殊分析方法。

比如非线性关系的数据通过平方根转换可以变成线性结构,这样对线性方法比如PCA就更为合适。

二是为了缩小属性间的差异性,由于属性的量纲不同,往往不同属性间的数据差异很大,比如不同的环境因子测量值,对数转换可使得数据值趋向一致。

三是从统计学上考虑。

如果抽取的样品偏离正态分布太远,可以进行适当转换。

数据转化是通过某一运算规则实现的,依运算规则的不同,有如下类型:1、对数转换即取原始数据的对数值,可以是自然对数Ln X,也可以是以10为底的对数log X,在有0值的情况下,可以先将原始数据全部加上1,对结果影响不大,即ln(X+1)或log(X+1)。

对数据转换是最常用的方法,它可以使不同属性间的差异缩小,在实验群落学中,对数转化可以使得实验结果的趋势更加明显。

2、平方根转换它也是最常用的转换方法之一,是将原始数据开平方,即X,它可以使具有二次关系的数据结构趋向于线性化。

3、立方根转换是将原始数据开立方,即3X,它可以将原始数据之间的差值缩小,趋向一致。

4、倒数转换取原始数据之倒数,即1/X 。

倒数转换同样可以使属性间的差异缩小。

另外,还有不少其它转换方法,研究者可自行选择。

需要不需要转换,用什么转换方法较好,不能一概而论,它决定于所研究的数据类型和变化幅度。

现在国际通用软件一般都将转换方法编入程序,使用者可以选不同的方法,以比较它们的结果。

三、数据标准化数据标准化是统计学上常用的方法,是为了消除不同属性或样方间的不齐性,或者使得同一样方内的不同属性间或同一属性在不同样方内的方差减小;有时是为了限制数据的取值范围,比如[0,1]闭区间等。

有些数量分析方法要求特殊的标准化过程,并将标准化作为其分析方法的一部分,比如主分量分析(PCA )一般要求中心化,对应分析(CA )则要求对排序坐标进行标准化等。

这些方法在应用前不必考虑标准化。

现在说的标准化是指一般不特殊要求标准化的方法,即要不要进行标准化是由使用者自己决择。

这样的的标准化必须在数量分析前完成。

相关主题