[发明专利]一种蛋白质结构预测方法及装置有效
申请号: | 202011585063.X | 申请日: | 2020-12-28 |
公开(公告)号: | CN112289370B | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 华权高;赵海义;舒芹 | 申请(专利权)人: | 武汉金开瑞生物工程有限公司 |
主分类号: | G16B15/00 | 分类号: | G16B15/00;G16B40/00;G06N3/04 |
代理公司: | 武汉蓝宝石专利代理事务所(特殊普通合伙) 42242 | 代理人: | 刘璐 |
地址: | 430000 湖北省武汉市东湖开发区高新大道*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 蛋白质 结构 预测 方法 装置 | ||
本发明涉及一种基于多任务时域卷积神经网络的蛋白质结构预测方法及装置,其方法包括:获取目的基因序列,以及蛋白质数据库;根据遗传密码表和蛋白质数据库建立每个蛋白质对应的DNA‑RNA‑氨基酸三元序列数据集;根据蛋白质数据库中的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征;将所述三元序列数据集进行聚类并映射为多维特征向量;将所述多维特征向量、蛋白质的统计深度特征作为多任务时域卷积神经网络的输入,训练所述多任务时域卷积神经网络;利用蛋白质的统计深度特征预测蛋白质结构。本发明将蛋白质的统计深度特征与多任务时域卷积神经网络结合,减少模型的复杂度,提高了泛化性、拟合度。
技术领域
本发明涉及生物信息和深度学习领域,尤其涉及一种基于多任务时域卷积神经网络的蛋白质结构预测方法及装置。
背景技术
目前生物学中公认的是:蛋白质的生物功能由蛋白质的三维结构所决定;蛋白质的三维结构是由其一级结构决定的;功能相似的蛋白质在结构上也是相似的。
研究发现,尽管蛋白质的一级结构千变万化,即一条多肽链中的氨基酸排列组合种类非常多,但是其二级结构的种类却是有限的,主要包括有
而二级结构就是通过蛋白质的氨基酸序列来研究其空间结构的重要过渡。随着蛋白质测序工作的进展,越来越多的蛋白质的氨基酸序列(即蛋白质一级结构)被测定并存储于各种不同的生物数据库中。蛋白质一级结构的数量以指数级别增长,这为蛋白质空间结构的研究带来了更大的便利与挑战。这样,由一级结构预测二级结构成了蛋白质组学的重要研究方向。
目前的蛋白质结构的预测技术中,并没有与相关的基因序列进行绑定,导致模型生成或预测蛋白质结构准确率不高;另一方面现有预测方法中大都通过综合蛋白质的多个特征经过一系列的复杂运算,特征在提取中丢失信息,从而导致预测蛋白质结构的准确率低和鲁棒性差。
发明内容
本发明现有蛋白质结构预测的准确率低和鲁棒性差的问题,在本发明的第一方面提供了一种基于多任务时域卷积神经网络的蛋白质结构预测方法,包括如下步骤:获取目的基因序列,以及蛋白质数据库;根据遗传密码表和蛋白质数据库建立每个蛋白质对应的DNA-RNA-氨基酸三元序列数据集;根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征;将所述三元序列数据集通过基因的同源信息、进化速率进行聚类并映射为多维特征向量;将所述多维特征向量、蛋白质的统计深度特征作为多任务时域卷积神经网络的输入,用于训练所述多任务时域卷积神经网络,直至所述多任务时域卷积神经网络的输出误差低于阈值且趋于稳定时停止训练,得到训练好的多任务时域卷积神经网络;将所述目的基因序列输入到训练好的多任务时域卷积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。
在本发明的一些实施例中,所述根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征包括如下步骤:从蛋白质数据库中获取组成每个蛋白质的所有氨基酸名称及其残基深度,根据每个氨基酸的出现的频率、带电性、极性、化学分类、疏水值确定多元回归方程;所述多元回归方程为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉金开瑞生物工程有限公司,未经武汉金开瑞生物工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011585063.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:摄像光学镜头
- 下一篇:新冠病毒疫苗表达抗原蛋白的电化学发光免疫检测试剂盒