当前位置:
文档之家› 第二章 4 蛋白质鉴定技术--质谱数据分析 end 2
第二章 4 蛋白质鉴定技术--质谱数据分析 end 2
PMF VS blast
相似点:PMF需要对庞大的蛋白质数据 库进行筛选来找到和实验所测的分子量 所匹配的氨基酸序列 不同点:蛋白质研究领域中对于PMF没 有一个可以被广泛接受的算法和概率模 型
常用的质量纹算法
现在试验中可用的算法有:
Mascot: Profound: /cgibin/Profound Expasy tools: http://www.expasy.ch/tools/ PeptideSearch: http://mac-mann6.emblheidelberg.de
1)质谱过滤(Spmrum filtering)
去除一些已知的公共污染物,比如角蛋白或者酶 自解产生的多肽,可减少待测蛋白质鉴定中的错 误解释
2)质谱合并(Spectrum joining)
同一个多肽的不同的质谱识别出来并去掉,从而 减少质谱的数据量
1 原始质谱数据的预处理
3)质谱去噪(Dcnoising)
蛋白质 鉴定流程
蛋白酶解
一级质谱 (二级质谱) 质谱数据解析 数据检索
质谱数据是仪器实验过程的结束,又是数据 处理过程的开始。 对基于质谱的蛋白质组学研究来讲,是后续 生物信息分析挖掘的源头
质谱数据的预处理
1 原始质谱数据的预处理 2 谱峰中心化后的质谱数据的预处理
1 原始质谱数据的预处理
进一步简化质谱数据的复杂度
比较同位素峰簇中第一个同位素峰和第 二个同位素峰的强度
如果第一个同位素峰的强度大于或等于第 二个同位素的强度,只保留同位素峰簇中 的第一个同位素峰 如果第一个同位素峰的强度小于第二个同 位素的强度,则只保留第二个同位素峰。
去同位的效果
通过质谱去鉴定多肽序列
human hemoglobin血红蛋白 alpha chain
蛋白质酶解
http://www.expasy.ch/tools/peptidecutter/
粘贴蛋白序列:PGYRNNVVN TMRLWSAKAPNDFNLKDFNVG 点击Perform 选择“Only the following selection of enzymes and chemicals”,并选择胰酶Trypsin酶切
(3)窗口基线法(a)
根据图谱的谱峰分布,在谱峰分布强度 不同的区间给定不同的基线,这些平均 强度不同的区间被称为窗口(如50Da为一 个窗口),计算出每个窗口内谱峰强度 的平均值以及标准差,将强度的平均值 加上标准差作为窗口的基线。
这种方法相比于固定基线法有改进,设置基 线时考虑了在不同的质量段,会有不同的谱 峰强度分布。
Peptide Mass Fingerprint (肽指纹图谱检索 ) Sequence Query (部分序列比对) MS/MS Ion Search (串联质谱检索)
打分算法---分数计算
说明:这个分数算法是PMF的分数算法,MS/MS ion search则采用其它分数算法
打分算法---分数计算
(1)固定基线算法
这种固定基线方法简单易行,但最大的 不足就在于没有根据用户当前提供的数 据寻找基线,而固定一个基线,无法考 虑当前图谱的强度分布。
(2)固定峰数法
这个方法可以看作是有效峰挑选的方法.这 种方法将谱峰按照强度高低进行排序,保留 固定数日的峰作为信号峰(如200个),其他的 都作为噪音舍弃
通过质谱去鉴定多肽序列
采用计算的方法通过实验质谱去鉴定多肽序列的 问题可分成三大块: 1) 数据预处理
即从质谱中提取对鉴定有用且无偏的信息。
2)理论谱构造
构造趋近客观和完备的理论谱。
3) 肽序列鉴定
即比较理论和实验质谱而鉴别多肽的序列以致于 确定蛋白质身份。
质谱分析蛋白的方法
NCBI-Genpept,swiss-prot
பைடு நூலகம்
We also can do this with nucleotide sequence information by converting it to protein sequence information and then digesting.
采用计算的方法通过实验质谱去鉴定多肽序列的问题可 分成三大块: 1) 数据预处理---即从质谱中提取对鉴定有用且无偏 的信息。 1 原始质谱数据的预处理 2 谱峰中心化后的质谱数据的预处理 2)理论谱构造
构造趋近客观和完备的理论谱。
3) 肽序列鉴定
即比较理论和实验质谱而鉴别多肽的序列以致于确定蛋 白质身份。
VGAHAGEYGAEALER
has an exact monoisotopic mass of 1528.7348 Da.
Thus, the singly charged ion of this peptide has an m/z value of 1529.7348.
The theoreticalproteolytic peptides now becomes a valuable reference tool. One could rank these tryptic peptides from lowest mass to highest.
Mascot简介
使用类型 在线检索:免费,数据库总是最新的,检索 速度快,简单,只需将peak list文件导入即可 ,但文件大小受限制 本地检索:需要购买软件及安装数据库,但 使用方便、可以进行大规模的数据检索分析 和数据库配置,功能更加强大
Mascot是一款强大的数据库检索软件,可以 实现从质谱数据到蛋白质的鉴定,其检索方 式包括以下三种:
In principle, a complete genome sequence, properly annotated, can yield a complete list of proteins and, consequently, of tryptic peptides.
An inspection of the theoretical proteolytic peptide list would reveal that some of the peptides over about 6 amino acids in length (about 700 Da) would have unique masses.
识别质谱中的容易区分的噪声
4)谱峰中心化(Peak centroiding)
轮廓质谱图--->棒状质谱图
质谱数据的预处理
1 原始质谱数据的预处理 2 谱峰中心化后的质谱数据的预处理
2 谱峰中心化后的质谱数据的预处理 串联质谱中对肽序列鉴定有用的信息只 是很少量的几十个重要离子的单同位素 (monoisotope)谱峰 但通常一个Q-TOF类型的串联质谱对应 的.dta文件里包含300-5000甚至更多的 谱峰。 质谱中绝大多数的谱峰对应仪器的物理 噪声以及离子的同位素谱峰。 因此,有必要对质谱数据进行预处理
分数高低取决于数据库的大小与设定的E 值,对于特定的数据库和E值(如E=0.05) ,则可以算出S。
目前来说,由MALDI-TOF质谱仪产生的质谱 图精度较高,而由ESI质谱仪产生的质谱图精 度相对较低。 另一个问题是,ESI产生的质谱图中的离子通 常带有很多电荷,而MALDI质谱图中的离子 一般只带一个电荷,比较容易计算。 所以从一级质谱鉴定蛋白质的算法(质量纹 )主要用在MALDI-TOF产生的质谱图上。
2 谱峰中心化后的质谱数据的预处理
质谱噪声基线和信号峰的识别
质谱中的噪声分布有一定的规律 强度在基线以下的m/z值对应的谱峰是噪声的概 率非常大。
有效峰选取
从质谱中挑选出离子的单同位素谱峰,作为进一 步的序列鉴定之用
有效峰选取
理论上,同位素峰在图谱中表现为两个峰之 间的质量差为1Da。 去同位素峰:一个离子的同位素会在质谱图 上显示出不同的峰,峰间的距离为1,去同位 素峰就是把这些峰合并为一个峰。
2 谱峰中心化后的质谱数据的预处理
质谱噪声基线和信号峰的识别
质谱中的噪声分布有一定的规律 强度在基线以下的m/z值对应的谱峰是噪声的概 率非常大。
有效峰选取
从质谱中挑选出离子的单同位素谱峰,作为进一 步的序列鉴定之用
1) 信号峰的识别
比较流行的各种基于串联质谱的蛋白质 鉴定软件所采用的预处理方法,都是着 眼于对谱峰强度进行处理 大多属于阈值类方法,即根据某个阈值, 保留阈值以上的蜂作为信号峰,而阈值 以下的被当作噪音峰抛弃 这是由于仪器等原因,每张图谱都会有 一条噪音峰的水平强度基线(即阈值)。
tryptic digestion of each protein yields a specific number of peptides of specific length, sequence, and most importantly, of specific mass.
We can use a computer to generate this list of peptides by performing a virtual digestion of all the proteins in a database.
这个方法比固定基线方法有所改进,不需要考虑 图谱的谱峰强度分布,取强度最高的固定数目的 谱峰进行后续的分析。 但是有的图谱的谱峰可能很多,会丢掉太多的信 息(如图A所示);而有的图谱的谱峰可能很少, 甚至不到100个,这就会使得预处理产生不了作 用,所有的谱峰都被保留(如图B) 比如SEQUEST
用于质谱分析蛋白质的方法主要有三种: 肽质量指纹图谱法(PMF) 串联质谱法(CID) 梯形肽片段测序法(ladderpeptide sequencing)