当前位置:文档之家› 多发性骨髓瘤病人预后相关lncRNA研究讲述

多发性骨髓瘤病人预后相关lncRNA研究讲述

多发性骨髓瘤病人预后相关IncRNA研究AbstractBackgournd: IncRNA在肿瘤的发生发展的过程往往扮演着十分重要的作用, 表明很多的IncRNA可能作为诊断或者判定肿瘤的潜在的标志物。

然而,利用IncRNA表达评价多发性骨髓瘤病人的预后悄况的研究并不多见。

Materials and methods:我们从GEO数据库中获取了大规模的基因表达谱芯片的数据(包括GSE24080和GSE57317),我们从GSE24080数据集中注释得到相关IncRNA,然后找出于病人生存情况相关的IncRNA,利用这些IncRNA 的表达量预测病人的预后,并且独立的数据集(GSE57317)中进行验证。

并且我们进行了GSEA 分析,找出IncRNA可能通过哪种生物学通路影响病人的预后。

Results:对基因芯片进行IncRNA注释后,我们共得到2096个IncRNA, 对这些IncRNA进行Univariable Cox regression分析后,我们发现共有176个IncRNA的表达与病人生存显著相关(pv0.05)。

通过这仃6个IncRNA的表达量对病人进行聚类分析后,我们发现聚类得到的两组病人生存率存在显著的差异, 独立的数据集(GSE57317)中进行验证也得到了同样的结果。

Stratified analysis 表示该预测模型是独立于其他临床表型的,如serum beta 2-microglobulin (Sp2M), serum albumin (ALB)和lactate dehydrogenase (LDH)浓度的。

GSEA分析表明细胞周期、细胞周期过程中检验点的改变、细胞与细胞间的粘附都发生了显著性的改变,IncRNA可能是通过促进细胞增殖,抑制细胞粘附等表型促进了多发性骨髓瘤的进展。

Conclusions:我们结果证明很多IncRNA可以作为评判多发性骨髓瘤病人预后的生物标志物。

这样标志物可能对多发性骨髓瘤的发生发展具有重要的作用, 其分子机制还需要更多的实验数据的证实。

Keywords: IncRNA,基因芯片,多发性骨髓瘤,生存率,GSEA1 Introduction多发性骨髓瘤是山骨髓中单克隆血浆细胞异常积累引起的一种难以治愈的癌症[1]。

多发性骨髓瘤是一种常见的肿瘤,其具有抑制性高、病理特征多等特点, 发性骨髄瘤常常导致很差的预后。

多发性骨髄瘤患者的存活时间为儿周到10年不等,五年生存率仅为40%作用[2]。

鉴定高风险的多发性骨髓瘤病人可以针对性的进行个性化治疗,这有利于改善病人的预后,提高病人的存活时间。

长链非编码RNA (long non-coding RNA,lnc RNA)是一类长度超过200nt 的RNA分子,不编码蛋白或者只编码很短的多肽,起初被认为是垃圾序列,不具有生物学功能。

但随着研究的不断深入,科学家发现,占基因组98%的这些非编码RNA 分子,通过与DNA、RNA、蛋白质的相互作用,参与细胞的增殖、代谢、运动、自噬及凋亡等诸多生理过程,在基因表达调控网络中扮演着十分重要的角色,IncRNA 参与基因组印记以及染色质修饰,转录激活,转录后调控,蛋口功能调节等多种重要的信号转导调控过程[3]。

IncRNA的表达失调会引起基因表达异常,从而导致疾病的发生[4]。

IncRNA可以为判断多种类型肿瘤的预后提供很多有用的信息[5-6]o利用表达谱数据判断病人的预后已经被应用于多种类型的肿瘤,例如:乳腺癌[7]、结直肠癌[8]、前列腺癌[9]以及非霍奇金淋巴瘤等[10]。

然而,将表达谱数据用于临床中还碰到了很多问题,包括过度拟合,缺乏验证,患者间组织的异质性,瘤内异质性,忽视现在临床变量等。

在现有的研究中,大规模整合多发性骨髓瘤表达谱数据和临床信息的研究并不多见,我们发现了与多发性骨髓瘤病人生存相关的IncRNA,并且利用这些I 生存相关的IncRNA用于预测病人的生存情况,可能具有一定的指导临床评价的作用。

2 Materials and methods2.1多发性骨髓瘤病人GEO数据集以及相应临床信息我们从基因表达综合数据库(GEO)中获取了大量多发性骨髓瘤病人的表达谱芯片数据,并且根据相应的注释文件,获取其相关的临床资料。

包括:GSE24080[11 ](Affymetrix HGU133_Plus_2.0 array) (/geo/query/acc.cgi?acc=GSE24080)数据集中558 例多发性骨髓瘤病人,GSE57317[12](Affymetrix HG-U133_Plus_2.0 array) (/geo/query/acc.cgi?acc=GSE57317)数据集中55 例多发性骨髓瘤病人。

详细的多发性骨髓瘤病人的病理资料见Supplement table 1。

2.2芯片数据处理和IncRNA注释我们使用了RMA[13]算法标准化处理了芯片数据,并对标准化的芯片数据进行Z-score[14]处理。

我们使GATExplorer[13]I具对Affymetrix HG- U133_Plus_2.0芯片的探针进行IncRNA注释。

GATExplorer提供了一系列系列用于注释芯片的R 包,我们利用Bioconductor提供的affy包,可以获得来源与GATExplorer的注释信息。

我们从GATExplorer中下载了芯片中比对到非编码区域的ncRNA 的CDF 文件。

通过ncrnamapperhgu 133plus2cdf_3.0 文件, 我们获得了IncRNA的表达谱数据。

对于比对到多个IncRNA的探针,我们采取了合并取平均值的方法进行处理。

寻找与多发性骨髄瘤病人生存率相关的IncRNA我们使用单因素Cox回归分析评价IncRNA表达量与病人生存时间的相关性。

我们保留了pv0.05的IncRNA来预测多发性骨髓瘤病人的生存情况。

利用IncRNA表达量进行K-means聚类将多发性骨髓瘤病人区分为2组,进行Kaplan-Meier 分析。

2.3统计分析我们使用Kaplan-Meier生存曲线来评价K-means聚类将多发性骨髓瘤病人区分为2组时,这两组病人的生存情况的差异。

我们采取双尾log-rank检验来评价生存曲线是否具有统讣学差异。

所有的分析都是使用R语言(323版本) 以及Bioconductor完成的。

2.4 GSEA 分析我们使用Broad institute所开发的GSEA的JAVA程序进行(/gsea)基因组富集分析(GSEA),我们使用MSigDB中提供的基因集作为参照。

我们认为当假阳性率(FDR) <0.05, 1000 次置换检验的p值小于0.05时,该通路在该种类型的样本中发生量显著改变。

我们使用Cytoscape和Enrichment Map对GSEA的分析结果进行可视化。

3. Results鉴定生存相关的IncRNA为了找到与多发性骨髓瘤病人生存率显著相关的IncRNAo针对GSE24080 数据集中的558例多发性骨髓瘤病人,我们使用单因素Cox风险比例模型来评价IncRNA表达量与病人生存时间的相关性。

共有176个IncRNA的表达量与病人的生存情况显著相关(p<0.05),如Figi所示。

在这176个IncRNA中,表达量与病人生存情况呈正相关的有89个,与病人生存情况呈负相关的有87个。

Tablel为与影响病人生存情况最显著的20个IncRNA (按照z-score排序)。

所有与多发性骨髓瘤病人生存率显著相关的IncRNA见Supplement table 24-Fig 1.绿色点表示表达量与病人生存情况呈负相关的IncRNA (87个),红色点表示表 达量与病人生存情况呈正相关的IncRNA (84个),黑色点表示表达量与病人生存情况不 相关的 IncRNA (1920 个)。

(筛选阈值为:p<0.05, |z-score|>1.8)■ 2(①n_e>d)o&o--2.50.0 z- score2.5利用获得的IncRNA预测病人生存情况我们利用所获得的与病人预后相关的IncRNA的表达量,对来源于GSE24080的559例多发性骨髓瘤病人进行聚类分析,我们发现利用这些176 个IncRNA的表达量,我们可以将558例病人分为预后良好和预后较差的两组(Fig.2A) o Kaplan-Meier分析表明,利用K-means聚类将多发性骨髓瘤病人区分为2组时,这两组病人的总体生存率有显著性的差异(log-rank test p =0.0002, Fig.2B)。

预后良好的病人的平均存活时间(平均存活时间:87.43月) 显著高于预后较差的病人(平均存活时间:64.56月)。

手术切除的多发性骨髄 瘤病人也呈现出同样的结果(log-rank test p < 0.0001, Fig. 2C)。

Fig 2.GSE20480数据集中,利用IncRNA 表达量预测多发性计髓瘤病人的总体生存情况。

A.利用176个IncRNA 的表达量对558个多发性骨僦瘤病人进行k-means (k=2)聚类分析 得到的结果,可以将558人分为预后较好与预后较差的两组(n 分别为274和284)« B.k- means (k=2)时,558例多发性TH 逋瘤病人被分成两组时,其总体的Kaplan-Meier 曲线情 况。

P 值是采取双尾log-rank 检验方法计算得到的。

B. k-means(k=2)时,558例多发性计糙瘤病人被分成两组时,其Color KeyValuegood outcomepoor outcome3S一一第AQGSE24080 set (n=558)Time(Mcnths)病灶手术切除后的Kaplan-Meier曲线情况。

P值是采取双尾logrank 检验方法汁算得到的。

利用IncRNA表达量预测独立数据中病人的生存情况为了进一步确认使用生存相关的IncRNA表达量预测病人生存情况的能力,我们利用IncRNA的表达量用于预测另外独立的多发性骨髓瘤病人数据集以观察其预测能力。

我们对GSE57317数据集中55例多发性骨髓瘤病人进行K- means聚类分析,发现55个病人分别被分成23人与32人的两组,Kaplan- Meier 生存分析发现这两组病人的生存率有明显的差异(log-ranktestp = 0.0222, Fig.3A) ,cluster 1 (平均存活时间:17.53月)生存时间明显低于cluster (平均存活时间:27.14月)。

Fig.3B展示了GSE57317数据集中55个病人中176个IncRNA的表达惜况。

相关主题