[发明专利]氨基酸可信度和修饰位点定位的评估方法有效
申请号: | 201710904787.8 | 申请日: | 2017-09-29 |
公开(公告)号: | CN107622184B | 公开(公告)日: | 2020-01-21 |
发明(设计)人: | 杨皓;迟浩;曾文锋;周文婧;王钊伟;王瑞敏;牛秀南;陈振霖;刘超;贺思敏 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G16B40/00 | 分类号: | G16B40/00 |
代理公司: | 11280 北京泛华伟业知识产权代理有限公司 | 代理人: | 王勇;李科 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 氨基酸 可信度 修饰 定位 评估 方法 | ||
1.一种氨基酸可信度评估模型训练方法,包括以下步骤:
步骤1:根据包含待训练氨基酸的训练肽段产生所述待训练氨基酸的背景肽段集合;
步骤2:从所述训练肽段、所述待训练氨基酸以及所述待训练氨基酸的背景肽段集合中提取多个特征;
步骤3:以所提取的多个特征作为输入向量,以所述待训练氨基酸是否正确作为输出,训练分类模型,得到氨基酸可信度评估模型。
2.根据权利要求1所述的氨基酸可信度评估模型训练方法,其中,在步骤1中,包括:
对于所述待训练氨基酸,枚举预定长度的子序列,其中,该子序列包含所述待训练氨基酸以及所述训练肽段中的其它氨基酸;
从所述训练肽段中枚举质量等于所述子序列质量的氨基酸集合;
将所述氨基酸集合与所述训练肽段中的剩余序列进行拼接,以获得所述待训练氨基酸的背景肽段集合。
3.根据权利要求1所述的氨基酸可信度评估模型训练方法,其中,步骤2包括:
计算所述训练肽段的肽谱匹配打分psm1、谱峰强度匹配比例psm2和谱峰匹配数目比例psm3,分别作为第一特征、第二特征和第三特征;
计算所述待训练氨基酸的背景肽段集合中的最好背景肽段的肽谱匹配打分psm′1、谱峰强度匹配比例psm′2和谱峰匹配数目比例psm′3,并计算所述训练肽段打分与最好的背景肽段打分的分差,表示为psm1-psm′1、psm2-psm′2和psm3-psm′3,分别作为第四特征、第五特征和第六特征,其中,所述最好背景肽段是所述待训练氨基酸的背景肽段集合中肽谱匹配打分最高的背景肽段;
计算所述待训练氨基酸的位置信息、类别信息以及所述训练肽段的长度信息,分别作为第七特征、第八特征和第九特征。
4.根据权利要求1至3任一项所述的氨基酸可信度评估模型训练方法,其中,在步骤3中,所述分类模型包括支持向量机、决策树,随机森林、贝叶斯网络中的任一项。
5.一种氨基酸可信度的评估方法,包括:
步骤51:根据包含待评估氨基酸的原始肽段产生所述待评估氨基酸的背景肽段集合;
步骤52:从所述原始肽段和所述待评估氨基酸提取多个特征;
步骤53:将所提取的特征输入权利要求1至4中任意一项的氨基酸可信度评估模型训练方法所得到的氨基酸可信度评估模型,以获得所述待评估氨基酸的可信度打分分布。
6.根据权利要求5所述的氨基酸可信度的评估方法,还包括:
将所述待评估氨基酸的可信度打分分布拟合为Gamma分布;
基于所述Gamma分布计算所述待评估氨基酸的假发现率:
其中,FAR表示待评估氨基酸的假发现率,pw和pr分别表示错误、正确氨基酸的先验概率,Γ(X|αw,βw)表示高于打分阈值X的错误氨基酸的分布面积,Γ(X|αr,βr)表示高于打分阈值X的正确氨基酸的分布面积,X表示待评估氨基酸的打分,αw,βw表示错误氨基酸打分分布的Gamma参数,αr,βr表示正确氨基酸打分分布的Gamma参数。
7.一种修饰位点定位的评估方法,包括:
对于给定的肽段序列枚举能够发生磷酸化修饰的候选修饰位点;
根据权利要求5所述的氨基酸可信度的评估方法获得每个候选位点发生磷酸化修饰的可信度打分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710904787.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种有利于更换锤头的钣金锤
- 下一篇:一种青铜文物整形用铅锤