[发明专利]一种基于多角度编码和特征选择的DNA结合蛋白识别方法在审
申请号: | 202110815562.1 | 申请日: | 2021-07-19 |
公开(公告)号: | CN113555064A | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 宋晓宁;周李玲;冯振华 | 申请(专利权)人: | 江南大学 |
主分类号: | G16B40/20 | 分类号: | G16B40/20;G16B50/30;G16B30/10;G16B25/00;G06K9/62 |
代理公司: | 南京禹为知识产权代理事务所(特殊普通合伙) 32272 | 代理人: | 王晓东 |
地址: | 214122 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 角度 编码 特征 选择 dna 结合 蛋白 识别 方法 | ||
1.一种基于多角度编码和特征选择的DNA结合蛋白识别方法,其特征在于:包括,
在训练阶段,iDBP-DEP利用四种表示方法对蛋白质序列进行编码,得到3240维的特征向量作为初始特征;
根据特征选择算法选择最优的特征子集;
所述iDBP-DEP将所述子集输入SVM分类器进行训练,得到预测模型;
测试集中的每个蛋白质通过相同的步骤进行编码,得到对应的最佳特征子集,并输入所述预测模型中进行预测,最终获得相应的预测结果。
2.根据权利要求1所述的基于多角度编码和特征选择的DNA结合蛋白识别方法,其特征在于:所述四种表示方法包括,DDE、PSSM-DBT、PSSM-DWT和NMBAC。
3.根据权利要求2所述的基于多角度编码和特征选择的DNA结合蛋白识别方法,其特征在于:所述DDE包括,
采用基于二肽组成的特征DDE进行DNA结合蛋白的识别;
所述特征DDE包括,识别线性b细胞抗原表位,通过二肽组成Dc、二肽理论均值Tm和二肽理论方差Tv计算,如下,
其中,Dc(r,s)代表的是蛋白质序列中氨基酸种类“r”和“s”两者的组合出现的频率,Cr、Cs分别表示能够决定氨基酸r、s的密码子组合的个数,CN代表除了3种终止密码子组合外,所有密码子组合的总个数。
4.根据权利要求2或3所述的基于多角度编码和特征选择的DNA结合蛋白识别方法,其特征在于:所述PSSM-DBT包括,PSSM矩阵和DBT矩阵;
所述PSSM矩阵包括,将蛋白质序列与非冗余蛋白质数据库中蛋白质进行多序列比对而生成的蛋白质进化信息谱,所述PSSM矩阵通过PSI-BLAST在所述非冗余蛋白质数据库中进行多序列比对生成,除了迭代值设置为3,e值设置为0.001外,其余参数均为默认值。
5.根据权利要求4所述的基于多角度编码和特征选择的DNA结合蛋白识别方法,其特征在于:所述DBT矩阵包括,
利用编码蛋白质中氨基酸的二元组组成;
在蛋白质中,氨基酸二元组并非仅指相邻的氨基酸,设置二元组的距离为t,定义氨基酸A(丙氨酸)和R(精氨酸)的二元组,当t=1时,则表示两个氨基酸相邻,即AR;
当t=2时,则表示A*R,*为任意一种氨基酸;
A**R则表示两个氨基酸之间相距两个氨基酸;
以此类推,d的取值范围为[0,N-1],N为蛋白质序列的长度。
6.根据权利要求5所述的基于多角度编码和特征选择的DNA结合蛋白识别方法,其特征在于:所述PSSM-DBT还包括,
在蛋白质进化信息谱的基础上充分抓取氨基酸的位置和排序信息,所述蛋白质序列经过PSSM-DBT编码后的向量表示如下,
F=[ε1,ε2,…,εk,…,εΩ]
其中,Ω表示PSSM-DBT的特征维度,它的大小由参数T控制,T为二元组距离t的最大值,由于PSSM-DBT也将t=0的情况考虑在内,所以Ω大小可以用Ω=400×T+400来计算,函数I计算的是不同距离二元组的出现频率,Pi,x、Pi+d,y为PSSM矩阵中的相应元素,N为序列的长度。
7.根据权利要求6所述的基于多角度编码和特征选择的DNA结合蛋白识别方法,其特征在于:所述PSSM-DWT包括,
将所述PSSM矩阵视为20种长度为N的离散信号的组合,通过DWT算法去除每种信号的噪声分量,对于离散信号,其近似系数和详细系数如下,
其中,s[k]表示输入的离散信号,L表示低通滤波器,H表示高通滤波器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110815562.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种低温静刚度变化率低的WJ-8A型高铁弹性垫板
- 下一篇:一种理盖上盖系统