[发明专利]一种基于带权多粒度扫描的转录因子结合位点预测方法有效
申请号: | 202210535743.3 | 申请日: | 2022-05-18 |
公开(公告)号: | CN114639441B | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 刘振栋;李冬雁;戴琼海;胡国胜;陈曦;吕欣荣;秦梦颖;柏苛;李晓峰;季向阳;张伟 | 申请(专利权)人: | 山东建筑大学 |
主分类号: | G16B15/30 | 分类号: | G16B15/30;G16B20/30;G16B40/20;G06K9/62 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 李桂存 |
地址: | 250101 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 带权多 粒度 扫描 转录 因子 结合 预测 方法 | ||
1.一种基于带权多粒度扫描的转录因子结合位点预测方法,其特征在于,包括如下步骤:
(1)对转录因子结合位点的初始数据集,进行数据増广,表示一段DNA序列片段,表示这段DNA序列是否为结合位点,取值为bindingsite或non-binding site,计算每条数据的逆序列、互补序列和互补逆序列,将数据集数量扩展到原始数量的4倍大小,得到数据集,并将数据集D*中的正负样本随机的进行混合;
(2)通过公式对数据集D*中每条DNA序列数据进行独热编码得到特征向量F1,并结合多碱基特征编码进行特征表示得到特征向量F2,将特征向量F1与F2进行拼接得到组合特征表示F,通过公式对结果类进行编码;
(3)将步骤(2)特征表示后的数据集D*按训练集样本数量和测试集样本数量的比值为Q:R进行划分,得到训练集Dtrain和测试集Dtest,其中Q为数据集D*中训练集的样本数量,R为数据集D*中测试集的样本数量;所述的Q的取值范围为2~5,R的取值为1;
(4)使用T个决策树对训练集Dtrain计算权值向量,所述d为特征长度,具体计算公式如下:
式中d为特征的总数,为权值向量W中第i列特征的重要性得分,具体计算公式如下:
式中为第t个决策树node节点的重要性得分,具体计算公式如下:
式中和分别代表该node分支下类别为0的节点的基尼指数和该node分支下类别为1的节点的基尼指数;
为每个节点的基尼指数,具体公式如下:
式中 N为训练集Dtrain样本数量,为该node中类别为0的个数,为该node中类别为1的个数;
(5)对训练集Dtrain中每个样本的特征F进行加权多粒度扫描,其具体步骤如下:使用长度为的滑动窗口以步长为L分别在长度为d的特征向量F和权值向量W上滑动,将窗口内的特征向量单独提取出来,得到长度为的 和,u为滑动窗口滑动的次数,u的取值范围是;
根据公式计算加权多粒度扫描的特征,式中为向量 的转置;将特征分别送入一个完全随机森林A和一个普通随机森林B,分别得到和;最后将和进行特征拼接得到特征F*;
(6)将F*输入到级联森林,进行模型的训练,得到一个转录因子结合位点分类预测模型,将测试集Dtest输入到该分类预测模型中,输出结果为1或0;1代表该DNA序列为转录因子结合位点,0代表该DNA序列为非转录因子结合位点。
2.根据权利要求1所述的基于带权多粒度扫描的转录因子结合位点预测方法,其特征在于,所述多碱基特征编码方法,特征列的长度L可根据公式获得,其中m为多碱基中碱基长度,m取值为3,碱基A、T、C、G可以组成长度为3bp的序列集合C为:{'AAA', 'AAT','AAG', 'AAC', 'ATA', 'ATT', 'ATG', 'ATC', 'AGA', 'AGT', 'AGG', 'AGC', 'ACA','ACT', 'ACG', 'ACC', 'TAA', 'TAT', 'TAG', 'TAC', 'TTA', 'TTT', 'TTG', 'TTC','TGA', 'TGT', 'TGG', 'TGC', 'TCA', 'TCT', 'TCG', 'TCC', 'GAA', 'GAT', 'GAG','GAC', 'GTA', 'GTT', 'GTG', 'GTC', 'GGA', 'GGT', 'GGG', 'GGC', 'GCA', 'GCT','GCG', 'GCC', 'CAA', 'CAT', 'CAG', 'CAC', 'CTA', 'CTT', 'CTG', 'CTC', 'CGA','CGT', 'CGG', 'CGC', 'CCA', 'CCT', 'CCG', 'CCC'},集合C中每个元素设置为一个特征列,共计64个特征列,其元素即为该特征列的特征名;
所述特征向量F2的计算方式为:从DNA序列样本的起始端,以步长为1,长度为3bp的窗口在DNA序列样本上进行滑动提取特征,该窗口中序列所对应的特征列取值为1,直至DNA序列样本末端,即特征向量F2的长度为64。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东建筑大学,未经山东建筑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210535743.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:异型螺母拆卸机械手
- 下一篇:一种数码电子模块视觉检测系统