[发明专利]基于Adaboost、BP神经网络和随机森林融合的mirco-RNA前体识别方法在审
申请号: | 201910141438.4 | 申请日: | 2019-02-26 |
公开(公告)号: | CN109872773A | 公开(公告)日: | 2019-06-11 |
发明(设计)人: | 胡杨;逄龙;程亮;张凝一;赵天意 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G06N3/04 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 范光晔 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类器 强分类器 随机森林 权重 标签建立 权重分配 弱分类器 算法分类 提取特征 准确度 融合 拟合 前体 整合 预测 | ||
1.一种基于Adaboost、BP神经网络和随机森林融合的mirco-RNA前体识别方法,其特征在于,包括以下步骤:
步骤1:从pre-miRNA序列中提取N个特征;
步骤2:通过提取特征及其相应的标签建立N/2个BP分类器和N/2个RF分类器;
步骤3:在训练和建立分类器时,计算每个分类器获得的相应权重;
步骤4:组合弱权重分布的分类器获得强分类器。
2.根据权利要求1所述识别方法,其特征在于,所述步骤1中从pre-miRNA序列中提取N个特征包括一级序列特征和二级序列特征;
所述一级序列特征为N-Gram频率,选择N值为3,在指定序列的三核苷酸组中存在64个组合,获得总共64维频率特征作为N-Gram频率特征;
所述二级序列特征包括三重结构序列、碱基对含量特征和MFE功能;其中,所述三重结构序列为对于任何三个核苷酸单元,有8个可能的组合,考虑三个字符组的第一个核苷酸,有32个不同的组合;所述碱基对含量特征为miRNA序列中的核苷酸配对G-C配对的频率;MFE功能为最小自由能。
3.根据权利要求1所述的识别方法,其特征在于,所述步骤2中相应标签为0表示阴性样本,1表示阳性样本。
4.根据权利要求1所述的识别方法,其特征在于,所述步骤2中建立N/2个BP分类器和N/2个RF分类器的方法为:
对于给定的多个分类训练数组,输入数据T={(x1,y1),…,(xN,yN)},具有任意整数标签,其中,T代表输入数据,x代表特征,y代表分类标签;
首先,初始化训练集权重,设置每个样品的初始重量为1/N;则权重表示如下:
然后,通过RF和BP获得分类器Gm(x),Gm(x)则代表集成分类器中的弱分类器,共由N个弱分类器集成,其中BP和RF各N/2个。
5.根据权利要求1所述的识别方法,其特征在于,所述步骤3的具体步骤为:
计算Gm(x)的误差:
得到弱分类器的权重,如下:
更新样本权重:
计算标准化因子:
重复上面的过程,m为弱分类器的标号,m取值为1到M,M取N,可以得到多个分类器和相应的权重。
6.根据权利要求1所述的识别方法,其特征在于,所述步骤4的具体步骤为:计算得到最终的强分类器,如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910141438.4/1.html,转载请声明来源钻瓜专利网。