前沿动态 2010年第4期
网络训练算法的研究更是几乎没有。总的来讲,目前采用人工神经网络技术来进行雪水当量
遥感反演建模研究中存在以下问题:
2.1对人工神经网络模型输入参数的选择与组合方案研究较少
尽管已有一些人工神经网络积雪参数反演建模的研究,但是这些研究中神经网络的输入
层一般仅使用了微波亮温,而对于影响雪水当量的其他因子(积雪状态、地形、植被、大气等)还 未进行考虑。再者,这些因子中有的可能对雪水当量的影响比较强,有的则可能比较弱,并且
可以忽略,因此需要研究建模过程中的参数选择与组合方案,这些研究内容当前开展的非常
少。
2.2没有形成不同自然条件下的分区建模方案
由于雪水当量与微波亮温之间的关系复杂,很难用一个统一的模型来进行描述。因此,对
于大范围的参数反演,需要采用分区建模的方式来实现。目前国内的雪水当量反演模型中,除
了曹梅盛,李培基等基于地形建立的分区模型以外,并没有其他的分区方案。由于中国的积雪
区主要集中在东北、西北和西南青藏高原等区域,地形较为复杂,同时地表覆盖类型也非常复
杂,因此仅仅根据地形进行分区进行建模可能并不完善。此外,不同的自然分区中,可能影响
雪水当量的因子也不尽相同,这时的建模参数也会不同,这在目前大部分的雪水当量反演建模
中都未进行考虑。
2.3多源遥感数据的协同反演模式在雪水当量反演中的应用研究较少
目前开展的研究多以被动微波数据源为主,对于光学遥感数据的使用甚少。光学遥感数
据的空间分辨率更高,可以提供更为详细的积雪覆盖信息,同时也可能提供大气的相关信息
(如大气水汽、云层等),这对于被动微波像元分解和大气校正都非常有用。多源数据协同下的
遥感反演过程中存在诸多难题,如多种遥感数据源的有效利用,数据融合、尺度转换等。尤其
是在雪水当量反演的神经网络建模过程中,如何将光学遥感数据中的反射率、亮温温度等信息
与微波亮度温度信息进行整合,这方面的研究还需更加深入。
基因以及基因与环境因子之间的交互作用研究
郑海涛 (数学学院)
基因是当前生物和医学领域中的研究热点,特别是与复杂人类疾病相关的研究。生物统
计在这些研究中是非常重要的一部分。在许多重要的医学和生物学的学术会议上,关于统计
分析方法的主题占有相当重要的比重。例如,2008年年底在费城由美国人类基因协会ASHG
(American Society of Human Genetics)主持举行的国际学术会议上,仅生物统计方法板块占据
接近三分之一的大会内容,还有众多的医学研究报告或多或少都要提及所使用的统计方法和
结果。在我们国家,生物统计,特别是基因统计处在发展的初期,统计的应用还十分薄弱,我
国应该促进这方面的研究。
作者简介:郑海涛,男,教授。
・ 11 ・
前沿动态 2010年第4期
在女性孕期前后疾病的研究中,研究人员常常发现婴儿的基因也可能对母亲的健康产生
影响。从生物意义上讲,这主要是因为婴儿通过胎盘与母亲有血液交换。因此,研究人员常常
会同时考虑母亲和婴儿的基因以及它们之间的交互作用。例如,宾西法尼亚大学医学院(the
University of Pennsylvania Schc ̄l of Medicine)和附属医院HUP(Hospital of the Universitv of
Pennsylvania)的一些研究人员正在进行几项NIH资助的项目,例如,Preterm Birth Study,
Preeclampsia Study。在这些研究中,研究人员希望能找到与母亲孕期前后身体健康高度相关
的基因并结合临床试验以期找到更好的治疗方案。在这两个研究中,研究人员已取得或即将
取得母亲和婴儿的基因,响应变量来自母亲或婴儿。由于研究经费有限,研究人员的初始计划
是病例case)和对照(contro1)的比例是1:5或稍高,取决于genotyping的费用,实验对象的参
与情况和当时研究经费的状况。常用的分析方法是logistic回归模型。这类分析通常有效但
缺乏效率,因为它们在分析时往往只能考虑母亲或婴儿的基因,而不能把母亲和婴儿之间的相
关性结构嵌入到分析之中。在一些回顾性病例一对照的研究中,已有的结果表明把变量之间
已知的相关性信息嵌入分析中可以获得更高的效率,例如,Piegorsch et a1.(1994),Chatterjee
and Carroll(2005)通过假设基因和环境因子之间的独立性而获得更高的效率(power) Epstein
and Satten(2003);Chen and Chatterjee(2007)则通过假设SNP(Single Nucleotide Polymor—
phism)的HWE(Hardy—Weinberg Equilibrium)而得到更高的效率。基于他们的工作,Chen,
Zheng and Wilton(2009)提出了新的方法。新的方法在检测HWE和SNP以及SNP之间的
交互作用有更高的效率。Wang etc.(2009)在母婴设计中分析了基因和环境因子之间的交互
作用。和Chen,Zheng and Wilson(2009)不同,Wang etc.(2009)把婴儿的部分信息(非基因
信息)作为协变量并用极大似然方法来估计和检测基因与环境因子的交互作用。他们的方法
比常用的logit模型可以更有效的检测出基因和环境因子之间的交互作用。然而这些方法很
多只适用于病例一对照(case—control study)和SNP分析,对于分类数据和俄haplotype,这些
方法或者不适用或者效率不够。关于haplotype的分析,Epstein and Satten(2003),Lin and
Zeng(2006)研究了基于极大似然估计的方法,但他们的方法并不能在这里使用,因为母婴之
间的相关性使得haplotype之间的相关性变得更为复杂。需要注意的是女性孕期前后疾病的
发病率比较高(通常在10%左右),而这类疾病关于基因的研究刚刚开始,相关的数据分析方
法的文献十分有限,需要研究人员作进一步的研究和发展。
在这些项目进行的过程中,研究人员发现他们不能够得到足够多的病例(case)且研究经
费不足以得到所有婴儿的基因信息。但是他们希望能仍然有足够的效率(power)找到与疾病
相关的基因,并部分genotyping婴儿以减少费用。要达到他们的要求,至少需要很好的geno— typing设计方案。Skol etc(2007),Wang etc(2007)从不同角度研究了Two—stage设计。他
们的设计可以为研究人员节约高达50%的genotyping费用而不会有太多效率的损失。但是
他们的设计是不能直接用到这类项目的,因为我们需要genotyping母亲和婴儿。因此,我们结
合这个项目的实际情况并借鉴已有的设计发展了系列genotyping方案。我们的方案可以比通
常的设计和现有的优化设计节约超过50%的genotyping费用且不会有效率损失。但是,我们
的设计和已有的优化设计还不能应对日益复杂的新型基因数据,且还有很多需要改进的地方。
新技术的发展使得genotyping的费用已经大幅降低,但在GWAS(Genome—wide Association
Study)中,研究人员需要得到数百万个甚至几千万上亿的SNP的信息,而且实验对象有数百
至几千,结果是总的费用大幅上升。尤其考虑到我国研究人员的科研经费的实际情况和这类
・ 】2・
前沿动态 2010年第4期
研究所需要的庞大费用,费效比更高的设计方案显得尤其重要。我们已有的工作为寻找更好
的设计打下了坚实的基础。另外在preterm birth这个项目中,研究人员募集到的实验对象中
没有足够多的病例,标准的preterrn birth大约只有50多个病例,即使放宽preterm birth的标
准,病例仍然不到70。 因为病例太少,已有的常用方法和新方法的结果可能变得不是那么可靠而且效率很低。
这本质上是一个小样本问题的检验问题。考虑到母亲和婴儿的基因之间的相关性,我们面临
的小样本问题要更为复杂,因为现有的一些检验方法是不能使用的,例如置换检验,相关的文
献和统计软件也未能找到。当变量之问相关且样本量小时,如何进行快速有效的检验也是十
分值得进行研究的。我们还注意到,在进行与这个项目相关的统计方法研究时,在基因效应或
MAF很小时,效率和域收敛性很差。特别是MAF较小时,例如小于0.05,type I error有增
加的趋势,且时常不能收敛。虽然我们采取了一些措施减轻了这个问题,但问题还没有根本解
决。虽然也可以通过增加样本量来解决这个问题,但这在许多实际的研究中是不可行的,特别
是在发病率很低时。基因效应较小时,这样的问题同样存在。在2008年11月由ASHG主持
举行的国际会议上,有研究人员通过叠加几个SNP效应的方式来提高效率,这种方法有一定
的效果,但这个方法其实有很多问题且未能实际解决问题。这个问题与前面小样本问题相关
但又有不同。如何解决我们所面临的问题,则需爰做深入的研究。
在Heart Failure Study的项目中,研究人员感兴趣的响应变量(指标)之一是一个离散的
分类变量。我们在做分析时,发现相关的方法文献很少,只能用到一些常用的方法。分类数据
和二元的响应变量的处理方法还是由较大的不同。许多关于病理一对照的结果是不能用到分
类数据的,例如gentyping的设计方案。重要的是我们发现一些常用的分类数据的分析方法效
率不够高,也没有针对基因数据的相关软件包或函数库。还有就是对于SNP数据可以用一些
传统的方法进行分析,但对于hap|otype数据分析的相关的文献极少,虽然有些方法可以拓展
到haplotype数据,但相关的统计特性和性能亟待深入地研究。
该研究的一个极为重要目标是研究一般情形下的基因之间以及基因与环境变量之间的交
互作用。这类研究在诸如个性化治疗(personalized treatment(pharmacogenetics))和targeted
intervention有着非常重要的应用。因为个体的差异而采取不同的医药或治疗手段在不久的
将来会成为必然的趋势。已有研究人员在这个方向提出了一些方法,例如,Piegorsch et a1.
(1994),Chatterjee and Carroll(2005),但在实际应用还有相当的不足。比如一般研究人员会
假设了基因和环境因子的相互独立性,而这在实际中是很难验证的;Piegor ̄h et a1.(1994)的
方法在发病率较高时,交互作用的估计是有偏的,切不能估计主效应。关于基因与环境因子
交互作用的研究,尤其是GWAS,只是在初始阶段。医学研究人员期望能找到更为有效的统
计方法以应对越来越复杂基因数据,特别是在临床试验方面得到实际的应用和支持。
最近几年由于新的基因技术(parallel sequencing,the second generation of DNA sequenc—
ing)发展,原来需要数年才能到的基因信息今天只需要单个人员几天的时间一次试验就可以
得到。这使得研究人员在较短的时间内得到极为庞大的数据,伴随而来的问题是数据的处理
和分析也将更为困难。新型基因数据(ChIP—seq and RNA—seq)已经或即将大量出现,而相
关的数据分析和处理方法尚在研究发展中。Sense from sequence reads:methods for alignment
and a ̄embly))(Flicek P.and Bimey E)(2009)、{Computational methods for discovering strut—
tural variation with next—generation sequencing》(Medvedev P.,Monica Stanciu M.and
・ 1 3 ・