[发明专利]一种基于双向XGBoost的基因调控网络构建方法有效
申请号: | 201810277009.5 | 申请日: | 2018-03-30 |
公开(公告)号: | CN108491686B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 李敏;郑瑞清 | 申请(专利权)人: | 中南大学 |
主分类号: | G16B5/00 | 分类号: | G16B5/00;G16B45/00 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 杨萍 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双向 xgboost 基因 调控 网络 构建 方法 | ||
本发明公开了一种基于双向XGBoost的基因调控网络构建方法,针对时间序列基因表达数据的特点,分析t时刻基因的表达值与其他基因t时刻点前与后的关系,建立local‑in和local‑out双向模型;在单个模型中,将基因调控网络构建划分为多个回归方程,充分考虑高阶时滞的情形,采用XGBoost对单个回归方程中特征的权重进行评价,最终获得调控关系的排序;采用归一化残差对每个独立回归方程中的特征进行二次加权,并融双向模型对同一对调控关系的权重,作为最终每对基因调控关系的打分值。本发明适用于时间序列基因表达数据下的不同规模大小的基因调控网络的构建,并能有效提高网络推断的准确性。
技术领域
本发明涉及生物信息学领域,涉及复杂生物网络的构建方法。
背景技术
生物的生命活动是基于大量的生物分子的相互作用,包括细胞之间的信号传导、蛋白质之间的相互作用和基因互相之间影响,很多复杂的联系可以通过生物网络的方式进行抽象表示。在众多的生物网络中,基因调控网络表示生物体内控制基因表达含量的一种机制。根据基因调控网络,孤立的研究其中一个孤立基因往往不能反映其复杂的变化,一个基因的表达量受到其他基因表达含量的影响,包括促进和抑制关系。基因调控发在生物转录、翻译等多个阶段,受到特定的环境、时间的影响,是一个及其复杂的过程。在生物体内,一个基因的表达程度一般采用基因转录产物mRNA在细胞中的丰度表示。随着高通量检测技术的发展,大量的基因表达数据得以产生,为研究基因调控机制提供了丰富的数据基础。基于基因表达数据,首先可以分析不同基因之间相互的关联性,并分析在特定环境条件下基因的差异表达。而时间序列下的基因表达数据(简称时序基因表达数据)的出现,为研究基因表达水平随着时间动态变化过程提供了可能,也为构建基因调控网络提供了可能,因为从本质上来讲,基因调控网络是反映基因表达水平连续变化的一个动态系统。研究基因调控网络,除了了解基因相互之间的影响,也为研究疾病的产生机理、药物靶标的设计提供了帮助。
目前基于基因表达数据构建基因调控网络的方法主要有以下几类:
(1)关联性分析:此类方法对基因之间的相互关系进行评价,并通过一个阈值过滤相关性较低的调控关系。常见的关联性分析方法包括皮尔逊相关系数、互信息等。相比皮尔逊相关系数,互信息更能反映调控的非线性关系。此类方法主要发展的方向是通过多元变量分析过滤间接的调控关系,例如条件互信息、偏相关系数。此类方法计算速度比较快,模型相对也比较简单。
(2)图模型:将概率理论或者其他模型与图论相结合,描述基因之间的相互调控关系。其中贝叶斯网络是典型的概率图模型。其基本思想是利用一个联合分布来刻画调控网络中的边。针对时序数据,研究者还进一步提出了动态贝叶斯网络模型(DBN),克服了贝叶斯网络无环的约束,与真实的基因调控关系更加接近。另一类图模型是布尔网络。与贝叶斯网络相似,布尔网络也是有向图模型,在布尔网络中,对基因的表达值采用离散值0-1的方式进行表示,通过布尔函数描述基因相互之间的关系。图模型构建的基因调控网络有比较好的解释性,但受限于图结构的学习和各类参数的学习,这类模型往往计算速度比较慢,无法应付大规模的调控网络构建。
(3)特征选择模型:此类模型一般将基因调控网络划分为多个特征选择问题,对于每个基因挑选重要的调控因子。特征选择模型常见的有基于线性回归方程的Lasso、Ridge、ENet,也有基于回归树和核函数的非线性模型,例如随机森林、支持向量机。此类模型效果一般取决于假设的模型和采用的特征选择方法,不同的方法之间结果可能差别比较大。
尽管目前已经有大量的基因调控网络构建方法,但这些方法受限于网络规模和计算模型,在构建能力和精度上仍存在诸多不足。同时,这些方法在时序基因表达数据上应用还比较简单。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种基于双向XGBoost的基因调控网络构建方法(BiXGBoost),能充分利用时间序列下基因表达数据的特征,构建更加精确的基因调控网络。
为解决上述技术问题,本发明所采用的技术方案是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810277009.5/2.html,转载请声明来源钻瓜专利网。