[发明专利]一种蛋白质序列特征的生成方法、装置和计算设备在审
申请号: | 202010357685.0 | 申请日: | 2020-04-29 |
公开(公告)号: | CN111462822A | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 翟珂;王天元;赖力鹏;温书豪;马健 | 申请(专利权)人: | 北京晶派科技有限公司 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B35/00;G16B40/00;G06N3/04;G06N3/08 |
代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 谢建云;赵爱军 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 蛋白质 序列 特征 生成 方法 装置 计算 设备 | ||
本发明公开了一种蛋白质序列特征的生成方法,适于在计算设备中执行,该方法包括步骤:获取待处理的目标蛋白质序列,该目标蛋白质序列表示为单字母缩写的氨基酸标识;以三肽为最小单位对所述目标蛋白质序列进行切分,并从切分结果中删除二肽和离散的单个氨基酸,得到所述目标蛋白质序列的三肽词汇序列;利用预设的蛋白质序列特征模型对目标蛋白质序列的三肽词汇序列进行处理,以得到该三肽词汇序列的语义特征向量。本发明还一并公开了对应的蛋白质序列特征的生成装置和用于执行该方法的计算设备。
技术领域
本发明涉及药物虚拟筛选领域,尤其涉及一种蛋白质序列特征的生成方法、装置和计算设备。
背景技术
众所周知,药物研发是一个漫长的过程,存在着研发周期长,研发成果率低,研发费用高的困境。而随着计算机技术的更新以及大数据技术的发展,人工智能正在各行各业中发挥巨大的应用价值,在制药行业也受到了广泛的关注。在新药发现过程中,虚拟筛选可以提高活性分子的富集,通过对化合物的性能进行预测,可以节约大量的人力、物力,缩短药物研发周期,加速研究成果的转化,因此近年来已引起科研机构和制药公司的高度重视。
生物序列即由单个核酸或氨基酸组成的连续生物模型。线性组合的多个氨基酸一般被称为多肽或者蛋白质一级结构,它们在很大程度上决定了蛋白质的三维构象,包括二级结构和三级结构,同时蛋白质序列可用于预测局部特征,例如局部二级结构的预测和生物物理特性的估算等等。总而言之,研究蛋白质的生物序列可以帮助科学家更好地了解疾病的生物蛋白基础,根据自定义的功能需求改进蛋白,帮助提高生产效率,甚至开发出全新功效的蛋白质。但目前的蛋白质序列特征研究仍然比较匮乏,因此需要提供一种比较行之有效的蛋白质序列特征的研究方法。
发明内容
为此,本发明提供了一种蛋白质序列特征的生成方法、装置和计算设备,以力图解决或至少缓解上面存在的至少一个问题。
根据本发明的一个方面,提供了一种蛋白质序列特征的生成方法,适于在计算设备中执行,该方法包括步骤:获取待处理的目标蛋白质序列,目标蛋白质序列表示为单字母缩写的氨基酸标识;以三肽为最小单位对所述目标蛋白质序列进行切分,并从切分结果中删除二肽和离散的单个氨基酸,得到目标蛋白质序列的三肽词汇序列;利用预设的蛋白质序列特征模型对目标蛋白质序列的三肽词汇序列进行处理,以得到该三肽词汇序列的语义特征向量。
可选地,在根据本发明的蛋白质序列特征的生成方法中,蛋白质序列特征模型为BERT模型,其模型结构包括:输入层:适于接收输入的三肽词汇序列;嵌入层:适于将每个三肽词汇编码为词向量;拼接层:适于将每个三肽词汇的词向量、位置向量和分割向量进行拼接,位置向量和分割向量分别代表三肽词汇的字符位置编号和上下句编号;多个编码器层:适于通过多头注意力机制对每个三肽词汇的上下文信息进行学习;以及语义向量输出层:适于输出三肽词汇序列的语义特征向量。
可选地,在根据本发明的蛋白质序列特征的生成方法中,词向量为504维的词向量,编码器层为6层,三肽词汇序列的最大词汇数量为128。
可选地,在根据本发明的蛋白质序列特征的生成方法中,还包括蛋白质序列特征模型的训练步骤:获取多条已知的样本蛋白质序列,样本蛋白质序列表示为单字母缩写的氨基酸标识;以三肽为最小单位对样本蛋白质序列进行切分,并从切分结果中删除二肽和离散的单个氨基酸,得到样本蛋白质序列的三肽词汇序列;以及以样本蛋白质序列的三肽词汇序列为输入,以该三肽词汇序列的语义特征向量为输出,对预训练的蛋白质序列特征模型进行训练,得到训练好的蛋白质序列特征模型。
可选地,在根据本发明的蛋白质序列特征的生成方法中,对预训练的蛋白质序列特征模型进行训练的步骤包括三肽词汇之间的关系训练和/或三肽句子之间的关系训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京晶派科技有限公司,未经北京晶派科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010357685.0/2.html,转载请声明来源钻瓜专利网。