[发明专利]一种预测DNA蛋白质结合位点的集成学习方法有效

申请号：	201810489037.3	申请日：	2018-05-21
公开（公告）号：	CN108763865B	公开（公告）日：	2023-10-20
发明（设计）人：	张永清;郜东瑞;王婷;吴锡;何嘉	申请（专利权）人：	成都信息工程大学
主分类号：	G16B20/30	分类号：	G16B20/30;G16B30/00;G16B40/00;G06N3/0464;G06N3/098
代理公司：	北京睿智保诚专利代理事务所(普通合伙) 11732	代理人：	周新楣
地址：	610000 四川省成都***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种预测DNA蛋白质结合位点的集成学习方法，其包括以下步骤：获取DNA结合蛋白质位点的蛋白质序列数据；对DNA结合蛋白质位点的蛋白质序列数据预处理；使用one‑hot编码方式构建输入数据；将提取的特征合并，构建每个蛋白质序列上氨基酸的特征，将其作为输入数据；使用SMOTE算法对正样本数据进行过采样；根据正样本大小将负样本数据分成多份，每份负样本与正样本组合成一个新的数据子集，得到N个数据子集；每个数据子集使用卷积神经网络进行训练；对N个卷积神经网络的结果进行多数投票法集成，从而得到预测结果。本发明解决了不平衡数据情况下的DNA蛋白质结合位点预测问题，提高了预测的准确性。
搜索关键词：	一种预测 dna 蛋白质结合集成学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种预测DNA蛋白质结合位点的集成学习方法，其特征在于，其包括以下步骤：S1)获取DNA结合蛋白质位点的蛋白质序列数据；S2)对DNA结合蛋白质位点的蛋白质序列数据预处理，包括使用PSI‑BLAST算法提取PSSM的特征；S3)使用one‑hot编码方式构建输入数据；One‑hot编码方式是每个蛋白质序列用20维的特征表示，每个氨基酸占一位，表示1，其余各位为0；S4)将S1和S2提取的特征合并，构建每个蛋白质序列上氨基酸的特征，将其作为输入数据；S5)使用SMOTE算法对正样本数据进行过采样，过采样的数量为正样本的数量大小，所述正样本数据为DNA与蛋白质有结合的位点数据；S6)根据正样本大小将负样本数据分成多份，然后每份负样本与正样本组合成一个新的数据子集，得到N个数据子集；S7)每个数据子集使用卷积神经网络进行训练，所述卷积神经网络包括第一卷积层、第一池化层、第二卷积层、第二池化层和全连接层；S8)对N个卷积神经网络的结果进行多数投票法集成，从而得到最终的预测结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都信息工程大学，未经成都信息工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810489037.3/，转载请声明来源钻瓜专利网。

上一篇：一种评价生物通路样本状态的方法
下一篇：一种利用叶绿体全基因组精准鉴别铁皮石斛及其近缘极易混淆种的方法

同类专利

专利分类

G 物理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种预测DNA蛋白质结合位点的集成学习方法有效

专利文献下载