[发明专利]一种基于带权多粒度扫描的转录因子结合位点预测方法有效

专利信息
申请号: 202210535743.3 申请日: 2022-05-18
公开(公告)号: CN114639441B 公开(公告)日: 2022-08-05
发明(设计)人: 刘振栋;李冬雁;戴琼海;胡国胜;陈曦;吕欣荣;秦梦颖;柏苛;李晓峰;季向阳;张伟 申请(专利权)人: 山东建筑大学
主分类号: G16B15/30 分类号: G16B15/30;G16B20/30;G16B40/20;G06K9/62
代理公司: 济南泉城专利商标事务所 37218 代理人: 李桂存
地址: 250101 山东省济*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 带权多 粒度 扫描 转录 因子 结合 预测 方法
【权利要求书】:

1.一种基于带权多粒度扫描的转录因子结合位点预测方法,其特征在于,包括如下步骤:

(1)对转录因子结合位点的初始数据集,进行数据増广,表示一段DNA序列片段,表示这段DNA序列是否为结合位点,取值为bindingsite或non-binding site,计算每条数据的逆序列、互补序列和互补逆序列,将数据集数量扩展到原始数量的4倍大小,得到数据集,并将数据集D*中的正负样本随机的进行混合;

(2)通过公式对数据集D*中每条DNA序列数据进行独热编码得到特征向量F1,并结合多碱基特征编码进行特征表示得到特征向量F2,将特征向量F1与F2进行拼接得到组合特征表示F,通过公式对结果类进行编码;

(3)将步骤(2)特征表示后的数据集D*按训练集样本数量和测试集样本数量的比值为Q:R进行划分,得到训练集Dtrain和测试集Dtest,其中Q为数据集D*中训练集的样本数量,R为数据集D*中测试集的样本数量;所述的Q的取值范围为2~5,R的取值为1;

(4)使用T个决策树对训练集Dtrain计算权值向量,所述d为特征长度,具体计算公式如下:

式中d为特征的总数,为权值向量W中第i列特征的重要性得分,具体计算公式如下:

式中为第t个决策树node节点的重要性得分,具体计算公式如下:

式中和分别代表该node分支下类别为0的节点的基尼指数和该node分支下类别为1的节点的基尼指数;

为每个节点的基尼指数,具体公式如下:

式中 N为训练集Dtrain样本数量,为该node中类别为0的个数,为该node中类别为1的个数;

(5)对训练集Dtrain中每个样本的特征F进行加权多粒度扫描,其具体步骤如下:使用长度为的滑动窗口以步长为L分别在长度为d的特征向量F和权值向量W上滑动,将窗口内的特征向量单独提取出来,得到长度为的 和,u为滑动窗口滑动的次数,u的取值范围是;

根据公式计算加权多粒度扫描的特征,式中为向量 的转置;将特征分别送入一个完全随机森林A和一个普通随机森林B,分别得到和;最后将和进行特征拼接得到特征F*;

(6)将F*输入到级联森林,进行模型的训练,得到一个转录因子结合位点分类预测模型,将测试集Dtest输入到该分类预测模型中,输出结果为1或0;1代表该DNA序列为转录因子结合位点,0代表该DNA序列为非转录因子结合位点。

2.根据权利要求1所述的基于带权多粒度扫描的转录因子结合位点预测方法,其特征在于,所述多碱基特征编码方法,特征列的长度L可根据公式获得,其中m为多碱基中碱基长度,m取值为3,碱基A、T、C、G可以组成长度为3bp的序列集合C为:{'AAA', 'AAT','AAG', 'AAC', 'ATA', 'ATT', 'ATG', 'ATC', 'AGA', 'AGT', 'AGG', 'AGC', 'ACA','ACT', 'ACG', 'ACC', 'TAA', 'TAT', 'TAG', 'TAC', 'TTA', 'TTT', 'TTG', 'TTC','TGA', 'TGT', 'TGG', 'TGC', 'TCA', 'TCT', 'TCG', 'TCC', 'GAA', 'GAT', 'GAG','GAC', 'GTA', 'GTT', 'GTG', 'GTC', 'GGA', 'GGT', 'GGG', 'GGC', 'GCA', 'GCT','GCG', 'GCC', 'CAA', 'CAT', 'CAG', 'CAC', 'CTA', 'CTT', 'CTG', 'CTC', 'CGA','CGT', 'CGG', 'CGC', 'CCA', 'CCT', 'CCG', 'CCC'},集合C中每个元素设置为一个特征列,共计64个特征列,其元素即为该特征列的特征名;

所述特征向量F2的计算方式为:从DNA序列样本的起始端,以步长为1,长度为3bp的窗口在DNA序列样本上进行滑动提取特征,该窗口中序列所对应的特征列取值为1,直至DNA序列样本末端,即特征向量F2的长度为64。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东建筑大学,未经山东建筑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210535743.3/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top