(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910253412.9
(22)申请日 2019.03.29
(71)申请人 华中科技大学
地址 430074 湖北省武汉市洪山区珞喻路
1037号
(72)发明人 薛宇 宁万山 许浩东 邓万锟
郭亚萍
(74)专利代理机构 华中科技大学专利中心
42201
代理人 孙杨柳 曹葆青
(51)Int.Cl.
G16B 15/20(2019.01)
(54)发明名称
蛋白质编码方法及蛋白质翻译后修饰位点
预测方法及系统
(57)摘要
本发明公开了蛋白质编码方法及蛋白质翻
译后修饰位点预测方法及系统,属于生物信息学
领域。
所述蛋白质编码方法包括收集修饰位点信
息、位置权重训练和待编码肽段的编码。
蛋白质
翻译后修饰位点预测方法包括收集修饰位点信
息、特征编码、模型训练和蛋白质翻译后修饰位
点预测。
本发明利用深度神经网络和惩罚逻辑回
归分别对不同类别的阳性位点和阴性位点的数
字向量特征构建预测模型,得到多个预测模型;
将每个预测模型的预测结果作为新的特征并利
用惩罚逻辑回归构建最终模型。
本发明可以捕获
更多蛋白信息从而有助于提高预测的准确度,
可
以快速的大规模鉴定蛋白质修饰位点。
权利要求书3页 说明书10页 附图3页CN 110033822 A 2019.07.19
C N 110033822
A
1.一种蛋白质编码方法,其特征在于,所述蛋白质编码方法用于表示待编码肽段与阳性数据集肽段的相似度,含有以下步骤:
(1)收集修饰位点信息:首先收集蛋白质翻译后目标类型的修饰位点信息;将所述目标类型的修饰位点在蛋白质上的对应位点作为阳性位点,将该蛋白质上与所述阳性位点相同的其它氨基酸位点作为阴性位点;将蛋白质的一级序列切割成以所述阳性位点或阴性位点为中心,该中心上游为n个氨基酸,该中心下游为n个氨基酸,总长度为2n+1个氨基酸序列;所述n大于等于1;所有含有所述阳性位点的所述氨基酸序列构成阳性数据集,所有含有所述阴性位点的所述氨基酸序列构成阴性数据集;
(2)位置权重训练:步骤(1)所述阳性数据集和阴性数据集中的每个肽段与阳性数据集基于位置权重和氨基酸替换得分的相似度打分的公式为:
其中:L为所述阳性数据集中每个肽段的长度2n+1;N为所述阳性数据集中肽段的数量;T ij 是阳性数据集中肽段T i 在位置j上的氨基酸,i的取值范围为1≤i≤N;P j 为肽段在位置j 上的氨基酸;M[P j ,T ij ]为氨基酸P j 和T ij 在BLOSUM62氨基酸替换矩阵中的分值;W j 为该肽段中位置j上的权重;
所述阳性数据集和阴性数据集中的每条肽段分别与阳性数据集中的每条肽段依次打分,其中肽段不与其自身打分,初始位置权重W j 为1,获得肽段中除中心位置以外的其它2n 个位置的得分;然后将该2n个位置的得分使用惩罚逻辑回归执行交叉验证,使AUC值最大的权重向量由肽段中各个位置上的权重W j 组成;
(3)待编码肽段的编码:
待编码肽段与阳性数据集间的氨基酸对的平均相似度S为:其中:L是待编码肽段的长度,j为氨基酸所在位置,C j 为待编码肽段与阳性数据集间的任意一个氨基酸对在位置j上出现的次数,M为所述氨基酸对在BLOSUM62氨基酸替换矩阵中的分值,W j 为步骤(2)训练得到的待编码肽段位置j上的权重;待编码肽段与阳性数据集间的所有的氨基酸对的相似度得分构成该待编码肽段的数字向量特征。
2.多特征算法模型的蛋白质翻译后修饰位点预测方法,其特征在于,含有以下步骤:
(1)收集修饰位点信息:收集蛋白质翻译后目标类型的修饰位点信息;将所述目标类型的修饰位点在蛋白质上的对应位点作为阳性位点,将该蛋白质上与所述阳性位点相同的其它氨基酸位点作为阴性位点;将所述阳性位点和阴性位点按照蛋白质所属物种进行分类;将蛋白质的一级序列切割成以所述阳性位点或阴性位点为中心,该中心上游为n个氨基酸,该中心下游为n个氨基酸,总长度为2n+1个氨基酸的序列;所述n大于等于1;
(2)特征编码:将权利要求1所述的蛋白质编码方法以及其它的编码方案逐个对步骤
(1)所述总长度为2n+1个氨基酸的序列进行特征编码,得到数字向量特征,将所述数字向量特征分别利用惩罚逻辑回归、支持向量机和随机森林验证每种编码方案的AUC性能,将AUC 性能大于0.5的编码方案作为备用编码方案;挑选所述备用编码方案对步骤(1)所述总长度为2n+1个氨基酸的序列进行特征编码得到的数字向量特征;
(3)模型训练:利用深度神经网络和惩罚逻辑回归分别对步骤(2)所述不同类别的阳性位点和阴性位点的数字向量特征构建预测模型,得到多个预测模型;将每个预测模型的预
权 利 要 求 书1/3页2CN 110033822 A。