[发明专利]氨基酸可信度和修饰位点定位的评估方法有效

申请号：	201710904787.8	申请日：	2017-09-29
公开（公告）号：	CN107622184B	公开（公告）日：	2020-01-21
发明（设计）人：	杨皓;迟浩;曾文锋;周文婧;王钊伟;王瑞敏;牛秀南;陈振霖;刘超;贺思敏	申请（专利权）人：	中国科学院计算技术研究所
主分类号：	G16B40/00	分类号：	G16B40/00
代理公司：	11280 北京泛华伟业知识产权代理有限公司	代理人：	王勇;李科
地址：	100190 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	氨基酸可信度修饰定位评估方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种氨基酸可信度评估模型训练方法。该方法包括：根据包含待训练氨基酸的训练肽段产生所述待训练氨基酸的背景肽段集合；从所述训练肽段和所述待训练氨基酸提取多个特征；以所提取的多个特征作为输入向量，以所述待训练氨基酸是否正确作为输出，训练分类模型，得到氨基酸可信度评估模型。本发明获得氨基酸可信度评估模型可用于氨基酸可信度评估和修饰位点定位的评估，提高了氨基酸可信度评估的准确率并且改善了修饰位点定位的评估性能。

技术领域

本发明涉及生物技术领域，尤其涉及一种氨基酸和修饰位点定位的评估方法。

背景技术

质谱技术已经成为生物学家分析生物样品的常规手段，其中，肽段和蛋白质鉴定方法学已经成为关键的一环。目前，基于串联质谱数据的肽段鉴定方法主要分两类：数据库搜索方法和从头测序方法。数据库搜索方法严重依赖于数据库的质量，如果正确肽段不在数据库中，那么鉴定结果会出现错误。从头测序方法不依赖于数据库信息，直接从谱图中获取肽段序列，从而发现一些不在数据库中的新肽段，例如，包括突变以及意外修饰等。目前，有越来越多的从头测序算法，包括：SHERENGA，PEAKS，PepNovo，pNovo，pNovo+，UniNovo，Novor和支持意外修饰鉴定的Open-pNovo。

然而，由于从头测序没有使用数据库信息作为先验，难免会将非常相似的肽段序列报告出来，从而导致错误率非常高。根据文献报道，从头测序获得的高分结果中存在近40％的错误率，因此，从头测序领域中如何控制假发现率(False Discovery Rate，FDR)仍然是个急需解决的问题。

根据经验，从头测序结果中的肽段序列存在部分连续序列正确而剩余序列错误的现象，基于这一特征，可以评估肽段序列中每个氨基酸的可信度，将高可信的氨基酸组成的子序列提取出来作为序列标签，然后使用基于序列标签的方式去检索数据库，从而能够获得肽段序列的报告。然而，目前为止，在现有技术中并没有相关文献报道如何具体评估氨基酸的可信度，对于氨基酸可信度评估的准确性也没有进行深入的评测。

因此，需要对现有技术进行改进，以准确地评估氨基酸的可信度并进而降低从头测序中检测肽段序列的错误率。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种氨基酸可信度的评估方法以及修饰位点定位的评估方法。

根据本发明的第一方面，提供了一种氨基酸可信度评估模型训练方法。该方法包括以下步骤：

步骤1：根据包含待训练氨基酸的训练肽段产生所述待训练氨基酸的背景肽段集合；

步骤2：从所述训练肽段和所述待训练氨基酸提取多个特征；

步骤3：以所提取的多个特征作为输入向量，以所述待训练氨基酸是否正确作为输出，训练分类模型，得到氨基酸可信度评估模型。

在本发明的氨基酸可信度评估模型训练方法中，步骤1包括：

对于所述待训练氨基酸，枚举预定长度的子序列，其中，该子序列包含所述待训练氨基酸以及所述训练肽段中的其它氨基酸；

从所述训练肽段中枚举质量等于所述子序列质量的氨基酸全排列；

将所述氨基酸全排列与所述训练肽段中的剩余序列进行拼接，以获得所述待训练氨基酸的背景肽段集合。

在本发明的氨基酸可信度评估模型训练方法中，步骤2包括：