质谱数据定量分析方法
3,4 5,6
K1Ti2 K2Ti4 i
, i 7,8
K T2 i4 i
,i 9,10
10
2
f i
f K1
10
2 i
i 1
i K1
0
f
特点 K2
i 110
2 i
i 1
i K 2
0
f C
10
王腾蛟 硕士生---马海滨
谢谢大家!
RT对齐
LC-MS策略:寻找共同的肽段信号,建立非线性 模型
LC-MS/MS策略:利用共同鉴定肽段的RT建立对 齐模型
对齐模型:3次样条,局部回归,小波,分段线 性,偏移向量等
作用:对LC-MS/MS策略,可以弥补鉴定信息的 不足,提高MS图谱信号利用率
信号归一化和差异显著性检验
图 谱 水 平
去噪方法 谱峰定量信息
同位素峰
X 不去噪
Xcalibur默认 小波去噪
最大值 平滑积分 函数拟合 信号加和
X
单一 最高
全部
X
肽 段 水 平
X XIC处理 小波去噪 平滑去噪 连续性截断
XIC定量
平滑积分 函数拟合
误差分析
信号加和
共3*4*3*4*3=432种计算流程
比较原则:重复实验的CV值最小
定量精度和参数优化
到定量完成的全流程 自动化,有GUI界面
速度:1 s可以定量1000
个肽段
支持pepXML,protXML, mzXML,mzData, mzML
蛋白质组装和未鉴定肽 段搜索
RT对齐、信号归一化
LC-MS策略支持软件XICFinder
不需要鉴定信息,直接从MS图谱中解析同位素 峰簇
XIC
定 量 指 标
分匹
布配
物理化学属性 碎裂模式
共享肽段问题:肽段有多个父节点
图重 搜 谱复 库 质鉴 打 量定 分
次 数
感谢
北京蛋白质组研究中心-贺福初,钱小红,朱云 平研究员
北京蛋白质组研究中心-刘科辉博士,马洁博士 团队主要成员: 博士---张纪阳,刘伟 博士生---孙汉昌,徐长明,张伟,刘辉,唐海 琳,
单一同位素峰最高 第二同位素峰最高 第三同位素峰最高 第四同位素峰最高
数据:FT_yeast, BPRC,高可信鉴定肽段
问题:从质量预测同位素分布
经验公式:从IPI.Human
3.49酶切肽段中统计(胰酶,2
个漏切,肽段长度不超过100)
f0 (x) a0 xeb0x
fi
(x)
(ai x
XML,Mascot dat和html
多线程,图谱、XIC导出,多种输出格式,算法优化
索引文件和速度提升
索引文件和数 据结构
Scan number到 MS图谱索引: Hash表
图谱中Isotopic peaks定位:二 分法查找
无标记定量软件LFQuant
重复实验支持
从搜库(SEQUEST)
2 i
i 1
i C
0
可定义一般模式,支持自定义标记方法,支持多重标记
能够充分利用同位素分布信息
能够直接解决谱峰叠加问题
定量信息提取:标记定量
肽段水平
实现了多种算法:XIC面积比, 图谱比值平均,主成分分析, 最小二乘回归
采用了异常值排除策略
实现了基于XIC连续性的截断
问题:同位素峰分布测量误差
目前结论: (1)不进行去噪处理的信号 加和方法最优 (2)高信号水平的处理结果 CV值都比较小
定量信息提取:标记定量
图谱水平:
非线性拟合算法
C *Ti i
, i 1,2
Ii
CC
*Ti *Ti
K1Ti2 K1Ti2
i K T2 i4
i
, ,
i i
定量软件
Cencus、 CRAWDAD、 MaxQuant
软件在可视化、 速度、数据文 件格式支持、 算法精度和实 验策略支持等 方面有很大发 展空间
定量软件-Mascot
支持的定量类型
多种标记定量, MS/MS图谱 定量, emPAI, 重复实验 Label free, 选择信号最强的3 个肽段
保留时间RT 53.661617 58.135022 59.199630 57.643797
上样量(ug/ul) 3.0 0.3 0.03
0.003
鉴定信息
SC CH XCorr ∆Cn LM(ug/ul)
126 2 5.1
0.62 3.0
14 3 2.63 0.33 3.0
70 2 5.58 0.47 0.3
Quant:MS ID score:MS/MS PCP: sequence Quant:MS PCP: sequence
决定碎裂模式, 影响 ID score
贝叶斯网络 蛋白质
肽段
肽段
酶切模型 肽段
MS图谱(多张,组成XIC)
序列
MS/MS图谱(多张,重复鉴定)
母同 离位 子 素形 误 分状 差布
aeyˆi b
2
2 aeyˆi b
L
n
ln
i1
f
(
i
,
yˆ i
)
1 2
n i1
( i )2
2 i
n 2 ln(2 )
n
ln i
i1
极大似然估计—直接优化似然函数
初始值的选择决定成败
标记定量软件SILVER
C++语言 GUI 交互操作 批量数据处理 文件格式支持:
结果形式
标记定量:比值,定量指标 无标定量:定量指标
肽段定量指标计算
可选步骤
去噪处理:小波,平 滑滤波
XIC峰形拟合:复杂的 类高斯函数
XIC边界确定:信噪比, 连续性,局部最小 值
母离子匹配误差分布: 提高精度?
标记定量:比值计算,MaxQuant采用了最小二乘拟合法 问题:不同试剂标记的肽段XIC平移,差异越大,表现越明显 无标记定量:定量指标计算
数据:FT_yeast, BPRC
标记定量中比值分布--信号强度
H/D(3)标记实验中发现,比值的标准差随着 XIC中peak number的增大而减小
数据:FT,人血浆,BPRC
无标记定量中差异分布
分段估计方差
带有参数的分布模型
f (i , yˆi )
e
2
(i )2
蛋白质学组中质谱数据定量分 析方法研究
谢红卫 国防科学技术大学机电工程与自动 化学院自动控制系
2010.5.15
主要内容
研究背景(我们对定量问题的认识)
定量数据分析面对的问题 定量数据分析的基本方法 已有定量软件和应用情况
研究内容和结果
定量信息提取方法及问题 多批次定量数据的对应及重复实验 差异显著性检验 计算问题和软件开发
考虑了XIC截断,同位素峰叠加,母离子误差校 正等问题
提供了信噪比、同位素分布拟合优度等过滤 测试:发现采用严格过滤规则,则鉴定肽段也
可能不能定量,说明和LC-MS/MS策略可以相互 补充
第三部分:进一步的思考
预分离和信号归一化
SDS分离 蛋白质多条带分布 条带切割的不均匀性 不同实验之间信号不可比
bi )i i!
eai xbi
i 1,2,3,4,5
ai 1.007 0.0006321 0.0005683 0.0005526 0.000568 0.0005795
bi 0.0005792 -0.09212 0.02292 0.09675 0.1138 0.1215
Bellew, M., M. Coram, et al., Bioinformatics, 2006. 22(15):.
信号归一化 目的:针对无标记定量,消除不同实验间的系 统误差 基本方法:寻找不变量
差异显著性检验 从肽段到蛋白质的信息综合:平均?筛选? 异方差问题:信号越弱,误差分布越宽
一个例子
XIC
定量信息:TGVIVGEDVHNLFTYAK
图谱计数SC 126 70 3 4
XIC面积SA(对数) 8.54 7.56 5.15 5.89
可能方法
仪器加性电 子噪声的不 变性
图谱信号统 计不变量
小波去噪
蛋白质组装与定量
RPLC分离过 程中肽段之 间相互影响
蛋白质
色谱流出曲线与 肽段混合物有关
MS response不仅仅 由肽段自身属性决 定,还与其它混合 在一起的肽段相关
肽段检测效率预测问题
肽段
影响图谱质量,从 而影响 ID Score
4 3 2.8
0.40 0.3
3 2 4.9
0.49 0.03
4
AVG_ISO_DIS 1
2 4.3 3 2.2
0.72 0.003 0.34 0Yeast样品,SEQUEST 搜库,Target-decoy过滤 (FDR=0.01),取Scan number最小 的记录
Density
ERRi
ExpIso[i]
6
IsoDis[i] / IsoDis[i],i 1 ~ 6
ExpIso[i]
i1
1.8
Iso1
1.6
Iso2
Iso3
1.4
Iso4
Iso5