Computer Engineering and Applications 计算机工程与应用基金项目:山西省实验动物专项资金(the Special Foundation for Laboratory Animals of Shanxi Province, China under Grant No.2010K12);山西医科大学青年基金(Shanxi Medical University Foundation for Young Scientists under Grant No.02201023)。
作者简介: 杨俊丽(1978-),女,硕士研究生,讲师,主要研究领域为生物信息学,医学数据整合;刘田福(1954-),男, 教授;李祥生(1961-),男, 教授。
E-mail: hplkyjl@样本类型无关的多类特征基因选择方法杨俊丽1, 刘田福2, 李祥生1YANG Junli 1, LIU Tianfu 2, LI Xiang-sheng 11.山西医科大学 计算机教学部,山西 太原 0300012.山西医科大学 实验动物中心,山西 太原 0300011. Department of Computer Teaching, Shanxi Medical University, Taiyuan 030001, China2. Laboratory Animal Center, Shanxi Medical University, Taiyuan 030001, ChinaFeature selection rules for classifying any multi-class samplesAbstract :Feature gene for classification is one of important problems in gene expression data analysis. Current methods ignored that gene expression were unbalanced in different classes. The paper introduces a new feature selection method for any sample. The method presents a new heuristic algorithm that was composed of a improved difference between classes and a original undulation inside the class. The experimental results showed that the method was effective on selecting feature genes for unbalanced multi-class sample and advancing classification capability of classifiers.Key words :feature selection; multi-class; classifier; gene expression profile摘 要:分类特征基因是基因表达谱数据分析中的重点,目前的特征基因选择方法均没有考虑到基因在不同类别中分布失衡给特征基因选择算法带来的影响。
提出一种样本无关的特征基因选择方法,该方法利用改进地类间差异函数和类内波动函数,并根据两个函数的一致性选择每个类别的鉴别基因。
该方法不仅适用于多类样本,对于各类样本数量不均衡以及基因在各类中分布失调的样本同样有效。
实验结果表明,该方法确保了特征矢量的均衡性,提高了分类器的分类性能。
关键词:特征选择; 多类; 分类器; 基因表达谱 文献标识码: A 中图分类号: TP391.41 引言基因表达水平是衡量基因功能发挥作用的重要指标,通过基因表达水平的高低,可以揭示生物体的状态和基因在生物体内的活性[1],对医学基础研究以及疾病的临床诊断和治疗具有重要的意义。
基因表达谱就是描述基因在某一特定状态下表达水平的数据。
通过对基因表达谱数据的分析可以获得基因功能和基因表达的潜在信息,为生物学和医学研究提供准确有力的科学依据。
然而,基因表达谱数据集中的每个样本的可测基因数一般达到几千甚至上万个,而实际上只有几十个甚至几个基因才真正与样本类别相关,包含了样本分类信息,大部分基因与样本类别无关。
因此,如何发现对样本分类起决定性作用的一组分类特征基因,即分类特征基因提取与选择的方法至关重要。
它不仅是建立有效地分类模型的关键,也是发现疾病分类与分型的基因标记物以及药物治疗潜在靶点的重要手段[2]。
目前科研工作者已从不同角度提出多种特征基因选择方法。
其中大多数特征基因选择方法都是针对两类分类问题网络出版时间:2012-04-25 17:21网络出版地址:/kcms/detail/11.2127.TP.20120425.1721.060.html2 Computer Engineering and Applications计算工程与应用设计的。
而在实际应用中,多类分类问题更为常见。
Dudoit[3]等人提出将类间和类内的差平方和之比排序来选择特征基因,Cho[4]等人用类质心距离的均值和标准差来选择特征基因,这些方法都是针对解决多类分类问题而设计的,但没有考虑到样本中类别样本数目不平衡的现象。
李建中等针对类别样本数不平衡问题,提出一种模型无关特征选择方法,该方法克服了样本数目不平衡现象,然而忽视了基因在多类样本的各类别中分布不均衡给特征基因选择算法带来的影响。
本文提出一种适于任意样本集的特征基因选择方法。
该方法利用新的类间差异函数和新的类内波动函数,将每个类别的鉴别基因分别排序,然后选择相同数量的最优鉴别基因组成特征基因集。
该方法不仅与样本类别数量无关,与各类中样本数量是否均衡无关,而且与基因在各类中分布失调也无关,同时避免了大部分特征矢量集中在其中某一类或某几类中。
2 基因表达谱的数学模型设有来自m个类别的n个样本,G i={g i1, g i2,……, g ik}表示样本i(1≤i≤n)中所有基因组成的集合,其中g ij(1≤j≤k)为样本i中基因j的表达值,k为基因的个数。
所有样本所组成的基因集合可表示成基因表达矩阵G=[G1T, G2T, ……, G n T]T,其中样本i中的所有基因集合G i为一个k 维向量,是k维空间的一个点,基因表达矩阵G则构成一个k维向量空间,其一行表示某一样本中的所有基因的表达情况,而其一列表示某个基因在不同样本中的表达情况。
分类特征基因选择方法的基本任务就是研究如何从原始数据集中选择出对样本分类识别最有效的数量最少的特征基因子集,从而降低特征空间的维数。
因此,特征选择的实质就是在G中找到一个子空间E,E的维数就是特征基因的个数。
令E是p维子空间,则E=[E1T, E2T, ……, E n T]T,其中E i={e i1, e i2,……, e ip}(p<k)。
3 特征基因选择方法在设计特征基因选择策略时,首先需要制定特征提取和选择的准则。
从理论上讲,应该选择分类信息含量最大的特征矢量,即特征矢量应该在不同类别间的表达水平值差异较大,而在类内则具有近似一致的表达水平值[5]。
对于基因的特征矢量值常采用基因特征计分准则来确定。
根据基因特征计分准则对基因集合中的每一个基因进行计分,然后按分值从大到小排列基因,并选择排在前面的一定数量的基因作为候选特征基因的初选结果。
常用的基因特征计分准则主要有:方差不等的t检验统计量、特征计分准则(feature score criterion, FSC)、信噪比方法(signal to noise, S-N)、Fisher 判别(Fisher discriminant ratio, FDR)和Bhattacharyya特征计分准则(Bhattacharyya feature score criterion, BFSC)等[6]。
这些特征计分准则虽然从不同角度都体现了基因在两个类中分布均值或分布方差的差异,但是只适用于正负两类的二分类问题。
另外,这些计分准则还可能导致大部分特征矢量集中在其中的某一个类中,这会严重影响分类器的分类性能。
如果某个基因在类别分布不均衡的多类样本中只是其中一个或几个类别的特征基因,而在其他各类中均没有明显鉴别特征,那么这个基因就是这个类别或这几个类别的特征基因。
基于此思想,本文对样本集中的各个类别分别进行特征基因的选择。
某个类别的特征基因应在此类与非此类间表达水平差异较大,而在此类类内具有近似一致的表达值。
本文利用基因的类与非类间差异和类内波动的一致性来衡量基因在各类中的特征分值,然后,按照此特征分值的大小对各类中的基因分别进行排序,并选择前面相同数量的基因构成特征基因集,以确保特征矢量的均衡性。
3.1类间差异选择若基因g是C类的特征基因,那么基因g在C类与非C类样本之间的表达水平差异较大。
设基因表达谱样本集分为m个类别,那么基因g在C类中的类间差异函数(between classes difference,BCD)可表示为()c c cBCD gµµ=−(1) 其中μc与μc- 分别为基因g在C类和非C类中表达水平的均值。
BCD(g c)值越大说明基因g在C类和非C类间的差异越大。
然而BCD(g c)并不能很好的体现基因g在C类和非C类间表达水平均值的差异。
如果基因g的BCD(g c)很大,但其在非C类的某个类中的表达水平均值与其在C类中的表达水平均值差异较小,那么基因g对于C类的鉴别能力就会受到很大的影响。
因此,在衡量基因对于某一类别的类间鉴别能力时,还应考虑基因在此类与其他各类间的最小距离对基因类间鉴别能力的影响。
由此,得到一个修订地类间差异函数为1'()min,()2c c c c jBCD g c jµµµµ=−+−≠(2) 其中μj是基因g在不同于C类的某一其他类别中表达水平的均值。
由式(2)可知,修订后的类间差异函数由两部分组成:第一部分体现了基因在某一类别中分布均值与其他类别中分布均值的差异,第二部分体现了基因在此类别分布均值与其他各类间分布均值的最小差异。
本文按照此类间差异函数在训练集的各类中对每个基因分别进行计算,值越大说明基因对该类别的鉴别能力越强。
3.2类内波动选择一个理想的特征基因,除了在不同类别之间表达水平值杨俊丽,刘田福,李祥生:样本类型无关的多类特征基因选择方法 3差别较大,还应在类内具有相似的表达水平值。