[发明专利]一种用于判断待处理多肽与阳性数据集肽段相似度的方法有效
申请号: | 201911126311.1 | 申请日: | 2019-11-18 |
公开(公告)号: | CN110970090B | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 薛宇;蒋沛然;宁万山;傅振远;郭亚萍;谭潇丹 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 许恒恒;李智 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 判断 处理 多肽 阳性 数据 集肽段 相似 方法 | ||
本发明公开了一种用于判断待处理多肽与阳性数据集肽段相似度的方法,包括以下步骤:(1)收集修饰位点信息;(2)位置权重训练与矩阵突变训练;(3)数据质量权重的训练;(4)实际测试。本发明通过对判断方法整体处理流程的设计、以及关于数据质量权重的设置并控制其训练计算过程等进行改进,尤其通过引入数据质量权重,能够计算出精确的相似性的矩阵,一方面为预测待处理多肽在中心位置附近发生特定修饰的可能性大小提供了一种新方法,另一方面,通过将该方法进一步与其他基于已知方法的相似度判断方法进行并列作为备用判断方法来源,相应得到多图像表征模型的蛋白质翻译后修饰位点预测方法。
技术领域
本发明属于生物信息学领域,更具体地,涉及一种用于判断待处理多肽与阳性数据集肽段相似度的方法,能够预测蛋白质翻译后修饰位点,同时还涵盖了对应系统及基于该方法的多图像表征模型修饰位点预测方法及系统。
背景技术
蛋白质翻译后修饰是真核和原核生物最重要的机制之一,它涉及化学基团与蛋白质氨基酸侧链的连接。各种蛋白质翻译后修饰(PTM)在多种细胞过程中发挥着至关重要的作用,这些过程调节蛋白质的功能、物理化学性质、构象、稳定性和响应发育信号或环境刺激的分子相互作用。例如,蛋白质磷酸化是最普遍存在的蛋白质翻译后修饰PTM,可诱导信号转导和细胞凋亡;赖氨酸琥珀酰化在代谢途径中起着至关重要的作用;蛋白质乙酰化和甲基化参与染色质重编程和转录调控;赖氨酸泛素化介导蛋白质降解;蛋白质棕榈酰化可动态膜蛋白相互作用、转运、分选、活化等。并且,越来越多的研究发现蛋白质翻译后修饰PTM的失调与多种疾病(包括癌症)的发展和进展有关。由于各种限制,通过诸如高通量液相色谱/质谱(LC-MS)技术的传统实验技术鉴定蛋白质翻译后修饰位点仍然是低效、昂贵且耗时的。因此,开发能够识别蛋白质翻译后修饰位点的处理方法已变得越来越有必要。尽管有多种蛋白质翻译后修饰位点预测方法,例如,Xue等利用基于肽段相似度打分的方法构建了多个蛋白质修饰位点的预测器,Qiu等利用支持向量机构建多个蛋白质修饰位点的预测器,但当这些方法仍然存在一些缺陷,如:利用一种算法构建一个简化模型无法充分挖掘多类型多特征数据的信息。现有的预测方法仅考虑蛋白质的一个或几个特征,而修饰的发生往往跟蛋白质序列、结构、氨基酸理化性质等多个因素有关。此外,现有预测方法往往仅使用了传统的机器学习算法,目前基于图像的深度学习算法以及在生物信息学中展现出可喜的前景,是发展新的高精度预测方法的重要方向。
发明内容
针对现有技术的以上缺陷或改进需求,本发明的目的在于提供一种用于判断待处理多肽与阳性数据集肽段相似度的方法,其中通过对判断方法整体处理流程的设计、以及关于数据质量权重的设置并控制其训练计算过程等进行改进,尤其通过引入数据质量权重,能够计算出精确的相似性的矩阵,一方面为预测待处理多肽在中心位置附近发生特定修饰的可能性大小提供了一种新方法,另一方面,通过将该方法进一步与其他基于已知方法的相似度判断方法进行并列作为备用判断方法来源,相应得到多图像表征模型的蛋白质翻译后修饰位点预测方法,与现有技术相比能够有效解决蛋白质翻译后修饰位点预测方法无法实现有效整合多特征的预测,且无法高精度预测不同物种中的蛋白质翻译后修饰的问题。
为实现上述目的,按照本发明的一个方面,提供了一种用于判断待处理多肽与阳性数据集肽段相似度的方法,其特征在于,包括以下步骤:
(1)收集修饰位点信息:基于预先设定的某一种特定类型的蛋白质翻译后修饰,收集蛋白质翻译后这些特定类型的修饰位点信息,下载得到蛋白质的一级序列;然后,将一级序列中满足特定类型的修饰位点在蛋白质上的对应位点标记为阳性位点,将一级序列中排除这些阳性位点、且与这些阳性位点所对应的氨基酸种类相同的氨基酸位点标记为阴性位点;接着,分别以各个阳性位点和各个阴性位点为中心,对蛋白质的一级序列进行切割,形成:
(a)以某个阳性位点为中心,且包括紧邻该中心的上游n个氨基酸、及下游n个氨基酸的总长度为2n+1个氨基酸的序列,从而得到与该阳性位点相对应的阳性数据;以及
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911126311.1/2.html,转载请声明来源钻瓜专利网。