[发明专利]一种蛋白质性能预测方法、装置和计算设备在审
申请号: | 202010358971.9 | 申请日: | 2020-04-29 |
公开(公告)号: | CN111401534A | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 王天元;翟珂;赖力鹏;温书豪;马健 | 申请(专利权)人: | 北京晶派科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G16B5/00;G16B15/00 |
代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 谢建云;赵爱军 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 蛋白质 性能 预测 方法 装置 计算 设备 | ||
本发明公开了一种蛋白质性能预测方法,适于在计算设备中执行,计算设备包括蛋白质性质预测模型,该模型包括相互耦接的蛋白质序列特征模型和预测模型,蛋白质序列特征模型基于输入的三肽词汇序列输出对应的语义特征向量,预测模型基于语义特征向量输出蛋白质序列的性能属性,该方法包括步骤:获取待处理的目标蛋白质序列;以三肽为最小单位对目标蛋白质序列进行切分,并删除其中的二肽和离散的单个氨基酸,得到三肽词汇序列;利用蛋白质性能预测模型对目标蛋白质序列的三肽词汇序列进行处理,以得到该目标蛋白质序列的特征向量后,进而得到该特征向量所对应的蛋白质性能属性。本发明还一并公开了对应的蛋白质性能预测装置和计算设备。
技术领域
本发明涉及药物虚拟筛选领域,尤其涉及一种蛋白质性能预测方法、装置和计算设备。
背景技术
众所周知,药物研发是一个漫长的过程,存在着研发周期长,研发成果率低,研发费用高的困境。而随着计算机技术的更新以及大数据技术的发展,人工智能正在各行各业中发挥巨大的应用价值,在制药行业也受到了广泛的关注。在新药发现过程中,虚拟筛选可以提高活性分子的富集,通过对化合物的性能进行预测,可以节约大量的人力、物力,缩短药物研发周期,加速研究成果的转化,因此近年来已引起科研机构和制药公司的高度重视。
生物序列即由单个核酸或氨基酸组成的连续生物模型。线性组合的多个氨基酸一般被称为多肽或者蛋白质一级结构,它们在很大程度上决定了蛋白质的三维构象,包括二级结构和三级结构,同时蛋白质序列可用于预测局部特征,例如局部二级结构的预测和生物物理特性的估算等。总而言之,研究蛋白质的生物序列可以帮助科学家更好地了解疾病的生物蛋白基础,根据自定义的功能需求改进蛋白,帮助提高生产效率,甚至开发出全新功效的蛋白质。但目前的蛋白质序列特征表征仍然具有一定缺陷,相对应的蛋白质性能预测也不够准确,因此需要提供一种比较行之有效的蛋白质性能预测方法。
发明内容
为此,本发明提供了一种蛋白质性能预测方法、装置和计算设备,以力图解决或至少缓解上面存在的至少一个问题。
根据本发明的一个方面,提供了一种蛋白质性能预测方法,适于在计算设备中执行,所述计算设备包括蛋白质性质预测模型,该模型包括相互耦接的蛋白质序列特征模型和下游预测模型,蛋白质序列特征模型基于输入的三肽词汇序列输出对应的语义特征向量,下游预测模型基于语义特征向量输出蛋白质序列的性能属性,该方法包括步骤:获取待处理的目标蛋白质序列,目标蛋白质序列表示为单字母缩写的氨基酸标识;以三肽为最小单位对目标蛋白质序列进行切分,并从切分结果中删除二肽和离散的单个氨基酸,得到目标蛋白质序列的三肽词汇序列;利用蛋白质性能预测模型对目标蛋白质序列的三肽词汇序列进行处理,以得到该目标蛋白质序列的特征向量,进而得到该特征向量所对应的蛋白质性能属性。
可选地,在根据本发明的蛋白质性能预测方法中,蛋白质性能预测模型包括:蛋白质序列特征模型:适于基于蛋白质序列的三肽序列生成对应的语义特征向量;参数冻结层:适于冻结训练好的蛋白质特征生成模型的部分参数,以完成所述蛋白质性能预测模型的训练;以及预测模型层,其为回归模型层或分类模型层。
可选地,在根据本发明的蛋白质性能预测方法中,分类模型的输出包括细胞水平是否具有特定活性,回归模型的输出包括细菌生长速率。
可选地,在根据本发明的蛋白质性能预测方法中,蛋白质序列特征模型为BERT模型,该模型结构包括:输入层:适于接收输入的三肽词汇序列;嵌入层:适于将每个三肽词汇编码为词向量;拼接层:适于将每个三肽词汇的词向量、字符位置向量和分割向量进行拼接,所述字符位置向量和分割向量分别代表所述三肽词汇的字符位置编号和上下句编号;多个编码器层:适于通过多头注意力机制对每个三肽词汇的上下文信息进行学习;语义向量输出层:适于输出三肽词汇序列的语义特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京晶派科技有限公司,未经北京晶派科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010358971.9/2.html,转载请声明来源钻瓜专利网。