[发明专利]蛋白质特征提取、功能模型生成、功能预测的方法及装置有效
申请号: | 201811162692.4 | 申请日: | 2018-09-30 |
公开(公告)号: | CN109215737B | 公开(公告)日: | 2021-03-02 |
发明(设计)人: | 汤一凡;崔朝辉;赵立军;张霞 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G16B25/00 | 分类号: | G16B25/00;G16B30/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 蛋白质 特征 提取 功能 模型 生成 预测 方法 装置 | ||
本申请实施例公开了一种蛋白质特征提取、功能模型生成、功能预测的方法及装置;该蛋白质特征提取方法包括:获取目标蛋白质的氨基酸序列和目标蛋白质的氨基酸序列上的残基作用位点,得到目标氨基酸序列和目标残基作用位点;从目标氨基酸序列上截取一个氨基酸缩写码或多个连续的氨基酸缩写码,得到包括目标残基作用位点的目标字符串;提取目标字符串在目标氨基酸序列中的文本特征,以残基作用位点在氨基酸序列上的特征作为蛋白质功能的表达,能够为后续利用机器学习算法进行蛋白质功能预测时提供高质量的特征输入,有利于摒弃耗时耗力的人工预测方法,提高蛋白质功能预测的效率和准确率。
技术领域
本申请涉及生物信息技术领域,尤其涉及一种蛋白质特征提取、功能模型生成、功能预测的方法及装置。
背景技术
随着生命科学研究的不断发展,人们逐渐意识到基因组信息已经不能完全解释和预测各种生命过程及现象。蛋白质作为细胞活性和功能的执行者,越来越受到人们的关注。事先掌握蛋白质的功能将会有助于理解细胞内生化反应机理,进而指导药物设计。
蛋白质的功能,具体表达为蛋白质与蛋白质、蛋白质与糖类、蛋白质与脂质、蛋白质与脱氧核糖核酸(deoxyribonucleic acid,DNA)或核糖核酸(Ribonucleic Acid,RNA)、蛋白质与金属离子间的相互作用能力。在过去十多年中,多种生物实验技术如酵母双杂交技术(yeast two-hybrid system,Y2H)、串联亲和纯化技术(tandem affinitypurification,TAP)已经应用在识别蛋白质功能组领域并积累了大量数据。然而,利用生物实验技术对蛋白质的功能进行预测会耗费大量人力和时间,不利于成本的节约和效率的提高。
发明内容
有鉴于此,本申请实施例一方面提供了一种蛋白质特征提取的方法及装置,另一方面提供了一种蛋白质功能模型生成的方法及装置,又一方面提供了一种蛋白质功能预测的方法及装置,能够解决现有技术中利用生物实验技术对蛋白质功能进行预测会耗费大量人力和时间的问题,可以高效、准确的掌握蛋白质的功能。
本申请实施例提供的一种蛋白质特征提取的方法,所述方法包括:
获取目标蛋白质的氨基酸序列和所述目标蛋白质的氨基酸序列上的残基作用位点,得到目标氨基酸序列和目标残基作用位点;所述氨基酸序列包括多个顺序排列的氨基酸缩写码;
从所述目标氨基酸序列上截取一个氨基酸缩写码或多个连续的氨基酸缩写码,得到目标字符串;所述目标字符串包括所述目标残基作用位点;
提取所述目标字符串在所述目标氨基酸序列中的文本特征,所述文本特征用于表征所述目标蛋白质的功能。
可选的,所述提取所述目标字符串在所述目标氨基酸序列中的文本特征,具体包括:
提取所述目标字符串在所述目标氨基酸序列中的上下文信息;
利用所述上下文信息,获得所述目标字符串的特征向量作为所述文本特征。
可选的,所述利用所述上下文信息,获得所述目标字符串的特征向量作为所述文本特征,具体包括:
获取所述目标字符串的独热码、所述上下文信息的独热码以及预先构建的初始化权重矩阵;
利用所述上下文信息的独热码对所述初始化权重矩阵进行训练,得到更新矩阵;
根据所述更新矩阵和所述目标字符串的独热码,得到所述目标字符串的特征向量。
可选的,所述目标字符串还包括在所述目标氨基酸序列中与所述目标残基作用位点相邻的第一子字符串和/或第二子字符串;
所述第一子字符串位于所述目标残基作用位点的左侧,所述第二子字符串位于所述目标残基作用位点的右侧;
所述第一子字符串和所述第二子字符串均包括至少一个氨基酸缩写码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811162692.4/2.html,转载请声明来源钻瓜专利网。