[发明专利]一种基于多角度编码和特征选择的DNA结合蛋白识别方法在审
申请号: | 202110815562.1 | 申请日: | 2021-07-19 |
公开(公告)号: | CN113555064A | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 宋晓宁;周李玲;冯振华 | 申请(专利权)人: | 江南大学 |
主分类号: | G16B40/20 | 分类号: | G16B40/20;G16B50/30;G16B30/10;G16B25/00;G06K9/62 |
代理公司: | 南京禹为知识产权代理事务所(特殊普通合伙) 32272 | 代理人: | 王晓东 |
地址: | 214122 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 角度 编码 特征 选择 dna 结合 蛋白 识别 方法 | ||
本发明公开了一种基于多角度编码和特征选择的DNA结合蛋白识别方法,包括,在训练阶段,iDBP‑DEP利用四种表示方法对蛋白质序列进行编码,得到3240维的特征向量作为初始特征;根据特征选择算法选择最优的特征子集;所述iDBP‑DEP将所述子集输入SVM分类器进行训练,得到预测模型;测试集中的每个蛋白质通过相同的步骤进行编码,得到对应的最佳特征子集,并输入所述预测模型中进行预测,最终获得相应的预测结果。本发明方法提供的iDBP‑DEP在各项评估指标上均展现了优越的性能,具有较良好的有效性和稳定性。
技术领域
本发明涉及DNA蛋白结合识别的技术领域,尤其涉及一种基于多角度编 码和特征选择的DNA结合蛋白识别方法。
背景技术
在过去的十几年中,生物信息学的研究者们陆续提出了数十种基于序列的 DNA结合蛋白识别方法,但是,除了个别有效的方法以外,大多数方法在独 立测试集中的识别准确率并不理想,在精准医疗计划背景下,这样的识别效果 显然是不尽人意的。
当前该领域中的大多数改进算法都是简单的特征叠加[61]或者基于投票[53]的集成学习策略而形成的,特征叠加虽然可以增加蛋白序列的表征角度,但同 时也增加了训练时的冗余特征,使原始样本空间多了噪声,基于投票的集成学 习策略相对更加有效,但是对于子分类器的性能要求很高,如果子分类器表现 不佳,最终的投票结果也会较差。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较 佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或 省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略 不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明提供了一种基于多角度编码和特征选择的DNA结合蛋白识 别方法,能够解决独立测试集中的识别准确率并不理想的问题。
为解决上述技术问题,本发明提供如下技术方案:包括,在训练阶段, iDBP-DEP利用四种表示方法对蛋白质序列进行编码,得到3240维的特征向量 作为初始特征;根据特征选择算法选择最优的特征子集;所述iDBP-DEP将所 述子集输入SVM分类器进行训练,得到预测模型;测试集中的每个蛋白质通 过相同的步骤进行编码,得到对应的最佳特征子集,并输入所述预测模型中进 行预测,最终获得相应的预测结果。
作为本发明所述的基于多角度编码和特征选择的DNA结合蛋白识别方法 的一种优选方案,其中:所述四种表示方法包括,DDE、PSSM-DBT、PSSM-DWT 和NMBAC。
作为本发明所述的基于多角度编码和特征选择的DNA结合蛋白识别方法 的一种优选方案,其中:所述DDE包括,采用基于二肽组成的特征DDE进 行DNA结合蛋白的识别;所述特征DDE包括,识别线性b细胞抗原表位, 通过二肽组成Dc、二肽理论均值Tm和二肽理论方差Tv计算,如下,
其中,Dc(r,s)代表的是蛋白质序列中氨基酸种类“r”和“s”两者的组合出现 的频率,Cr、Cs分别表示能够决定氨基酸r、s的密码子组合的个数,CN代表 除了3种终止密码子组合外,所有密码子组合的总个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110815562.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种低温静刚度变化率低的WJ-8A型高铁弹性垫板
- 下一篇:一种理盖上盖系统