[发明专利]一种基于堆叠式集成策略的用于高效识别特定细胞系增强子-启动子相互作用的预测方法在审
申请号: | 202210500209.9 | 申请日: | 2022-05-09 |
公开(公告)号: | CN114974401A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 樊永显;彭斌超;龚浩;孙贵聪;熊慧;刘梦;卢茜倩;潘应捷 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G16B5/00 | 分类号: | G16B5/00;G16B40/00;G16B30/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 541004 广*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 堆叠 集成 策略 用于 高效 识别 特定 细胞系 增强 启动子 相互作用 预测 方法 | ||
1.本发明是一种基于堆叠式集成策略的用于高效识别特定细胞系增强子-启动子相互作用的预测方法。
2.该方法提取基因序列中的多种信息特征,并采用堆叠集成的策略构建出最优的分类模型;
该方法减少了计算时间,提高了预测特定细胞系增强子-启动子相互作用的效果。
3.本发明提出的一种识别特定细胞系增强子-启动子相互作用的预测方法包括三个模块:数据预处理模块、特征提取模块和集成框架模块。
4.数据预处理模块用于从6个人类细胞系数据中提取增强子和启动子的基因序列并对序列做预处理以构建数据集以及使用数据增广平衡样本。
5.特征提取模块涵盖了6种特征提取方式,用于提取增强子和启动子基因序列的多种信息特征。
6.集成框架模块展示了整体的模型结构,主体包含基分类器和元分类器的两层堆叠。
7.分类器共采用7种不同的计算方法,分别是 Deep forest、SVM、LightGBM、XGBoost、Random forest、MLP、Logistic regression,其中MLP、Logistic regression只用于元分类器的使用。
8.使用5种性能优越的机器学习算法和6种基于序列的特征编码来构建总计30个基线模型作为堆叠模型的第一层,然后把从基线模型中获得的预测概率信息作为新的特征输入到原分类器MLP中,得到第二层的MLP元模型,最后将从元模型中得到的预测结果作为最终的预测结果。
9.优化集成模型,调整集成模型第一层的基线分类器组合和第二层元分类器,得到最优的集成模型,使得对特定细胞系的增强子-启动子相互作用的预测效果更佳,计算效率更高。
10.将最优的集成模型在测试集上测试,采用AUROC、AUPR、F1-score三个评估系数对优化后的集成模型进行衡量。
11.在权利要求4中,其所述的6个人类细胞系是指:
4-1)6个人类细胞系分别是:GM12878(淋巴母细胞)、HUVEC(脐静脉内皮细胞)、HeLaS3(来自宫颈癌患者的外胚层细胞)、IMR90(胎肺成纤维细胞)、K562(来自白血病患者的中胚层细胞)和NHEK(表皮角质形成细胞)。
12.在权利要求5中,其所述的6种特征提取方式:
5-1)6种特征提取方式分别是:CKSNAP、Kmer、DPCP、TPCP、EIIP和PseKNC;
5-2)CKSNAP计算在一条基因序列中被任意个核苷酸间隔的核苷酸对的出现频率,它的计算方式如下:
其中,符号表示核苷酸对之间间隔的个核苷酸,,和分别代表基因序列上间隔核苷酸对组成的总数和K间隔核苷酸对组成的数量;
5-3)Kmer用于描述基因序列上个相邻核苷酸的出现频率;
将遍历基因序列的步长设置为1,并拼接单核苷酸组成(NAC)、二核苷酸组成(DNC)、三核苷酸组成(TNC)和四核苷酸组成(TeNC)生成的特征向量;
5-4)特征编码DPCP的计算可以表示为:
表示二元核苷酸,是二元核苷酸对应上述第种二元核苷对酸理化性质的值,表示二元核苷酸的数量占二元核苷酸总数的比例;
5-5)TPCP的计算方式类似DPCP,其特征向量表示具体如下:
表示三元核苷酸,代表三元核苷酸的数量,是所有三元核苷酸数量的总和,是三元核苷酸对应第种三元核苷酸理化性质的值,表示在给定的基因序列中三元核苷酸的出现频率,即占总三元核苷酸数的比例;
5-6)EIIP计算的是核苷酸中离域电子的能量,四个碱基对应的EIIP值分别是{A:0.1260,C:0.1340,G:0.0806,T:0.1335};
5-7)PseKNC是伪K核苷酸组成,它利用理化性质涵盖大量的局部和全局序列顺序信息在特征向量中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210500209.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种膨胀充填体的膨胀性能测试方法
- 下一篇:一种重金属污染农田土壤修复装置