[发明专利]一种基于双向XGBoost的基因调控网络构建方法有效
申请号: | 201810277009.5 | 申请日: | 2018-03-30 |
公开(公告)号: | CN108491686B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 李敏;郑瑞清 | 申请(专利权)人: | 中南大学 |
主分类号: | G16B5/00 | 分类号: | G16B5/00;G16B45/00 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 杨萍 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于双向XGBoost的基因调控网络构建方法,针对时间序列基因表达数据的特点,分析t时刻基因的表达值与其他基因t时刻点前与后的关系,建立local‑in和local‑out双向模型;在单个模型中,将基因调控网络构建划分为多个回归方程,充分考虑高阶时滞的情形,采用XGBoost对单个回归方程中特征的权重进行评价,最终获得调控关系的排序;采用归一化残差对每个独立回归方程中的特征进行二次加权,并融双向模型对同一对调控关系的权重,作为最终每对基因调控关系的打分值。本发明适用于时间序列基因表达数据下的不同规模大小的基因调控网络的构建,并能有效提高网络推断的准确性。 | ||
搜索关键词: | 一种 基于 双向 xgboost 基因 调控 网络 构建 方法 | ||
【主权项】:
1.一种基于双向XGBoost的基因调控网络构建方法,其特征在于,包括以下步骤:步骤1、根据时序基因表达数据,依次选取每一个基因作为特定基因,针对每一个特定基因分别构建一个双向模型,一个双向模型包括一个local‑in模型和一个local‑out模型,在local‑in模型中,特定基因为调控目标基因,其他基因为其候选调控基因;在local‑out模型中,特定基因为调控基因,其他基因为其候选调控目标基因;local‑in模型表示为以下回归方程:其中,表示除特定基因Gi以外的其他基因在t‑p至t‑1时刻的表达值集合,N表示时序基因表达数据中基因的个数,fi( )表示特定基因Gi在t时刻的表达值与Gp之间存在的函数关系,p表示时滞系数,T为时序基因表达数据中时间片的个数,∈i表示随机误差;该回归方程以其他基因在t‑p至t‑1时刻的表达值为自变量,以特定基因Gi在t时刻的表达值为因变量,表示其他基因在t‑p至t‑1时刻的表达值对于特定基因在t时刻的表达值的影响程度,用于为特定基因选择调控基因,在基因调控网络中产生调控基因‑>Gi这样的有向边,‑>表示调控关系;local‑out模型表示为以下回归方程:其中,表示除特定基因Gi以外的其他基因在t+1至t+p时刻的表达值集合;该回归方程以其他基因在t+1至t+p时刻的表达值为自变量,以特定基因Gi在t时刻的表达值为因变量,表示特定基因在t时刻的表达值对于其他基因在t+1至t+p时刻的表达值的影响程度,用于为特定基因选择调控目标基因,在基因调控网络中产生Gj‑>调控目标基因这样的有向边;t+p<T;步骤2、使用XGBoost对回归方程建立梯度提升回归树;在回归树的建立过程中,以回归方程的因变量,即特定基因Gi在t时刻的表达值的样本空间为根节点,以回归方程的自变量,即其他基因的表达值作为特征,在每个节点上,选择带惩罚的方差降低最多的特征作为分裂特征,根据分裂特征的布尔函数对节点进行划分;对每个特征统计其在建立回归树的过程中被选择作为分裂特征的次数,作为该特征的重要性打分,并将其作为特定基因Gi与该特征对应的候选基因之间的调控关系的初步权重值;步骤3、对每个独立的回归方程计算残差值,并对残差值进行归一化处理;将归一化处理后的残差值作为评价每个独立的回归方程的权重,将每个独立的回归方程的权重乘以每个回归方程中调控关系的初步权重值作为每个回归方程中的调控关系的最后打分;最终结合双向模型中同一对调控关系的两次打分进行最终打分,得到该对调控关系的全局权重;步骤4、对调控关系的全局权重由大到小进行排序,选取排名靠前的M个调控关系,在相应基因之间建立一条边,从而形成基因调控网络。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810277009.5/,转载请声明来源钻瓜专利网。