[发明专利]一种基于带权多粒度扫描的转录因子结合位点预测方法有效

申请号：	202210535743.3	申请日：	2022-05-18
公开（公告）号：	CN114639441B	公开（公告）日：	2022-08-05
发明（设计）人：	刘振栋;李冬雁;戴琼海;胡国胜;陈曦;吕欣荣;秦梦颖;柏苛;李晓峰;季向阳;张伟	申请（专利权）人：	山东建筑大学
主分类号：	G16B15/30	分类号：	G16B15/30;G16B20/30;G16B40/20;G06K9/62
代理公司：	济南泉城专利商标事务所 37218	代理人：	李桂存
地址：	250101 山东省济***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于带权多粒度扫描转录因子结合预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于带权多粒度扫描的转录因子结合位点预测方法，其特征在于，包括如下步骤：

（1）对转录因子结合位点的初始数据集，进行数据増广，表示一段DNA序列片段，表示这段DNA序列是否为结合位点，取值为bindingsite或non-binding site，计算每条数据的逆序列、互补序列和互补逆序列，将数据集数量扩展到原始数量的4倍大小，得到数据集，并将数据集D*中的正负样本随机的进行混合；

（2）通过公式对数据集D*中每条DNA序列数据进行独热编码得到特征向量F₁，并结合多碱基特征编码进行特征表示得到特征向量F₂，将特征向量F₁与F₂进行拼接得到组合特征表示F，通过公式对结果类进行编码；

（3）将步骤（2）特征表示后的数据集D*按训练集样本数量和测试集样本数量的比值为Q:R进行划分，得到训练集D_train和测试集D_test，其中Q为数据集D*中训练集的样本数量，R为数据集D*中测试集的样本数量；所述的Q的取值范围为2~5，R的取值为1；

（4）使用T个决策树对训练集D_train计算权值向量，所述d为特征长度，具体计算公式如下：

式中d为特征的总数，为权值向量W中第i列特征的重要性得分，具体计算公式如下：

式中为第t个决策树node节点的重要性得分，具体计算公式如下：

式中和分别代表该node分支下类别为0的节点的基尼指数和该node分支下类别为1的节点的基尼指数；

为每个节点的基尼指数，具体公式如下：

式中 N为训练集D_train样本数量，为该node中类别为0的个数，为该node中类别为1的个数；

（5）对训练集D_train中每个样本的特征F进行加权多粒度扫描，其具体步骤如下：使用长度为的滑动窗口以步长为L分别在长度为d的特征向量F和权值向量W上滑动，将窗口内的特征向量单独提取出来，得到长度为的和，u为滑动窗口滑动的次数，u的取值范围是；

根据公式计算加权多粒度扫描的特征，式中为向量的转置；将特征分别送入一个完全随机森林A和一个普通随机森林B，分别得到和；最后将和进行特征拼接得到特征F*；

（6）将F*输入到级联森林，进行模型的训练，得到一个转录因子结合位点分类预测模型，将测试集D_test输入到该分类预测模型中，输出结果为1或0；1代表该DNA序列为转录因子结合位点，0代表该DNA序列为非转录因子结合位点。

2.根据权利要求1所述的基于带权多粒度扫描的转录因子结合位点预测方法，其特征在于，所述多碱基特征编码方法，特征列的长度L可根据公式获得，其中m为多碱基中碱基长度，m取值为3，碱基A、T、C、G可以组成长度为3bp的序列集合C为：{'AAA', 'AAT','AAG', 'AAC', 'ATA', 'ATT', 'ATG', 'ATC', 'AGA', 'AGT', 'AGG', 'AGC', 'ACA','ACT', 'ACG', 'ACC', 'TAA', 'TAT', 'TAG', 'TAC', 'TTA', 'TTT', 'TTG', 'TTC','TGA', 'TGT', 'TGG', 'TGC', 'TCA', 'TCT', 'TCG', 'TCC', 'GAA', 'GAT', 'GAG','GAC', 'GTA', 'GTT', 'GTG', 'GTC', 'GGA', 'GGT', 'GGG', 'GGC', 'GCA', 'GCT','GCG', 'GCC', 'CAA', 'CAT', 'CAG', 'CAC', 'CTA', 'CTT', 'CTG', 'CTC', 'CGA','CGT', 'CGG', 'CGC', 'CCA', 'CCT', 'CCG', 'CCC'}，集合C中每个元素设置为一个特征列，共计64个特征列，其元素即为该特征列的特征名；

所述特征向量F₂的计算方式为：从DNA序列样本的起始端，以步长为1，长度为3bp的窗口在DNA序列样本上进行滑动提取特征，该窗口中序列所对应的特征列取值为1，直至DNA序列样本末端，即特征向量F₂的长度为64。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东建筑大学，未经山东建筑大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210535743.3/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于带权多粒度扫描的转录因子结合位点预测方法有效

专利文献下载