[发明专利]基于深度卷积神经网络的蛋白质亚细胞定位方法和装置有效
申请号: | 201810002518.7 | 申请日: | 2018-01-02 |
公开(公告)号: | CN108197427B | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 刘弘;丛菡菡;陈月辉;韩延彬 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G16B15/00 | 分类号: | G16B15/00;G16B40/00 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 张勇 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 卷积 神经网络 蛋白质 细胞 定位 方法 装置 | ||
1.一种基于深度卷积神经网络的蛋白质亚细胞定位方法,其特征在于,该方法包括:
接收已知蛋白质亚细胞位置的序列信息,建立并存储基准蛋白质序列数据库;
将基准蛋白质序列数据库中蛋白质序列进行特征提取,并将提取的特征数据进行特征融合;
将融合后的特征数据作为深度卷积神经网络的输入,对深度卷积神经网络进行训练,得到深度卷积神经网络分类器;
接收待预测的蛋白质序列,进行特征提取并进行相应的特征融合,输入到训练后的深度卷积神经网络分类器,对其蛋白质亚细胞位置进行预测定位;
在该方法中,根据蛋白质序列的物理化学性质提取基准蛋白质序列数据库中蛋白质序列的三种特征;
提取的蛋白质序列的三种特征分别是R-Dipeptide、I-PseAAC和PseAAC2;其中,R-Dipeptide为氨基酸二肽Di-Dipeptide特征的改进;I-PseAAC和PseAAC2为氨基酸伪氨基酸PseAAC特征的改进;
在蛋白质序列属于两个或者更多的亚细胞位置时,将其看成是几个不同的蛋白质序列,分别属于不同的亚细胞位置,并将其称为基于位置的蛋白质序列;
所述R-Dipeptide特征的提取方式:
蛋白质序列由20种氨基酸残基组合而成,假设某个蛋白质序列P包含L个氨基酸残基,可以将其表示为:
P=R1,R2,R3,…,RL 公式(1)
其中,R1表示蛋白质序列P的第一个氨基酸残基,R2表示蛋白质序列P的第二个氨基酸残基,RL表示蛋白质序列P的第L个氨基酸残基;
对整个的蛋白质序列采用长度为30的窗口从第一个氨基酸残基进行截取,则第一组子序列为{R1,R2,…,R30},第二组子序列为{R2,R3,…,R31},以此类推,子序列中最后一个氨基酸残基RN,其中N小于所有蛋白质序列的长度;
将所有的子序列组合形成新的蛋白质序列;
对于新的蛋白质序列计算其二肽,即氨基酸对的出现频率,20种氨基酸构成的氨基酸对共有20*20=400种组合方式,其特征向量可以表示为:
V=[f1,f2,…,f400]T 公式(2)
其中,∫i=∑ni=1Ri/(N1-1),i=1,2,...,400,表示氨基酸对出现的频率,Ri表示氨基酸对出现的次数,N1为新的蛋白质序列中氨基酸的个数,即蛋白质序列的长度;
所述I-PseAAC特征的提取方式:
蛋白质序列的位置信息可以表示如下:
其中,δθ是θ级相关因子,它代表最多θ个氨基酸残基的序列位置关系,N2为蛋白质序列中氨基酸的个数;Ω(RE,RE+1)可以表示为:
其中RE表示第E个氨基酸序列,H1(Re)、H2(Re)、Pk1(Re)、Pk2(Re)、PI(Re)和M(Re)分别代表蛋白质序列中第e个氨基酸残基Re的疏水值、亲水值、Pk1(-COOH),Pk2(-NH3),PI和侧链分子量值;
所述PseAAC2特征的提取方式:
PseAAC2特征提取方式采用新的位置信息表示方法,在表示过程中增强氨基酸残基物理化学性质的体现,可以表示如下:
Ω(RE)=[H1(Re)2+H2(Re)2+Pk1(Re)+Pk2(Re)2+PI(Re)2+M(Re)2] 公式(5)
Ω(RE,Rj)=Ω(RE)*Ω(Rj) 公式(6)
其中RE表示第E个氨基酸序列,Rj表示第j个氨基酸序列,H1(Re)、H2(Re)、Pk1(Re)、Pk2(Re)、PI(Re)和M(Re)分别代表蛋白质序列中第e个氨基酸残基Re的疏水值、亲水值、Pk1(-COOH),Pk2(-NH3),PI和侧链分子量值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810002518.7/1.html,转载请声明来源钻瓜专利网。