[发明专利]氨基酸序列特征提取方法、装置、存储介质及电子设备有效
申请号: | 201711377471.4 | 申请日: | 2017-12-19 |
公开(公告)号: | CN108229102B | 公开(公告)日: | 2020-06-12 |
发明(设计)人: | 汤一凡;崔朝辉;赵立军;张霞 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G16B30/00 | 分类号: | G16B30/00 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 南毅宁;魏嘉熹 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 氨基酸 序列 特征 提取 方法 装置 存储 介质 电子设备 | ||
本公开涉及一种氨基酸序列特征提取方法、装置、存储介质及电子设备。该方法包括:获取待进行特征提取的氨基酸序列;确定所述氨基酸序列的位置特异性得分矩阵PSSM;确定每种预设氨基酸在[‑S,S]分数区间内的得分分布;合并M种预设氨基酸的所述得分分布,以获得所述氨基酸序列的特征向量。由于确定出的氨基酸序列的位置特异性得分矩阵PSSM中蕴含有同源蛋白质信息,因此该位置特异性得分矩阵PSSM表示成的特征向量中能够融入更多的序列保守信息,更有利于氨基酸序列与其他生物高分子物质之间的相互作用的预测,且预测效率高。并且,能够将位置特异性得分矩阵PSSM转换成固定长度的特征向量,为氨基酸序列特征提供了一种多维空间表达方式。
技术领域
本公开涉及生物信息领域,具体地,涉及一种氨基酸序列特征提取方法、装置、存储介质及电子设备。
背景技术
在生物信息学中,蛋白质氨基酸序列的信息起到了关键作用,并且,蛋白质由20种天然氨基酸经过线性组合而成,这些线性序列中包含着大量生命体特征信息,通常被认为能够解释和表达所有机体内的生命活动。因此,氨基酸序列通常作为信息源与机器学习技术结合应用于预测蛋白质功能。具体来说,首先收集由已知具有某类功能和未具有某类功能的氨基酸序列组成的数据集;然后从未具有某类功能的氨基酸序列中进行特征提取,并表示成特征向量;最后根据该特征向量,利用机器学习算法对蛋白质功能进行预测。由于,机器学习预测中,需要输入固定维度的特征向量,因此目前的氨基酸序列特征提取方法,仅仅能根据计算出的氨基酸单个出现频率或者利用氨基酸理化性质参数来对氨基酸序列进行特征提取,能够提取的特征非常有限,并不能充分表达该氨基酸序列中承载的大量信息。
发明内容
为了解决相关技术中存在的问题,本公开提供一种氨基酸序列特征提取方法、装置、存储介质及电子设备。
为了实现上述目的,本公开提供一种氨基酸序列特征提取方法,所述方法包括:
获取待进行特征提取的氨基酸序列;
确定所述氨基酸序列的位置特异性得分矩阵PSSM,其中,所述位置特异性得分矩阵PSSM的大小为N×M,N表示所述氨基酸序列的序列长度,M表示预设氨基酸的总数,所述位置特异性得分矩阵PSSM中的每个分数PSSM(n,m)表示在第n行的氨基酸的位置下,第m列的预设氨基酸出现的倾向程度,且-S≤PSSM(n,m)≤S,其中,N、M和S均为正整数,且1≤n≤N,1≤m≤M;
确定每种预设氨基酸在[-S,S]分数区间内的得分分布;
合并M种预设氨基酸的所述得分分布,以获得所述氨基酸序列的特征向量。
可选地,所述确定每种预设氨基酸在[-S,S]分数区间内的得分分布,包括:
针对每种预设氨基酸,根据该预设氨基酸的全部分数,统计在[-S,S]分数区间内的每个整数分数的出现频率,并按照所述整数分数由小及大的顺序,将所述整数分数的出现频率组合成1×(2S+1)的特征向量,所得特征向量作为该预设氨基酸在[-S,S]分数区间内的得分分布。
可选地,所述确定每种预设氨基酸在[-S,S]分数区间内的得分分布,包括:
设每种预设氨基酸在[-S,S]分数区间内的得分分布为f(m),其中,f(m)为1×(2S+1)的特征向量,通过以下公式计算f(m)中的每个元素值fj(m),其中,j=0,…,2S:
可选地,所述M种预设氨基酸为20种天然氨基酸。
本公开还提供一种氨基酸序列特征提取装置,所述装置包括:
获取模块,用于获取待进行特征提取的氨基酸序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711377471.4/2.html,转载请声明来源钻瓜专利网。