[发明专利]一种面向大规模基因调控网络的智能推断方法在审
申请号: | 202110762918.X | 申请日: | 2021-07-06 |
公开(公告)号: | CN113506593A | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 马宝山;吴一铭;宓东;宁乔;张萌 | 申请(专利权)人: | 大连海事大学 |
主分类号: | G16B20/20 | 分类号: | G16B20/20 |
代理公司: | 大连至诚专利代理事务所(特殊普通合伙) 21242 | 代理人: | 杨威;邓珂 |
地址: | 116000 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 大规模 基因 调控 网络 智能 推断 方法 | ||
1.一种面向大规模基因调控网络的智能推断方法,其特征在于,包括:
步骤1,在基因表达数据点分布的两维空间中,使用m*n的网格划分数据空间,使落在第(x,y)格子中的数据点的频率作为联合概率分布函数p(x,y)的估计值o(x,y);
步骤2,利用联合概率分布函数p(x,y)的估计值o(x,y)确定基因x和基因y表达值之间的互信息I(X;Y);
步骤3,在不同网格中利用互信息I(X;Y)计算最大互信息系数MIC(X;Y),筛选出调控基因集X中关于靶基因Y的关键调控基因集R;
步骤4,利用关键调控基因重要性融合算法计算关键调控基因集R中的调控基因对靶基因的重要性,获得重要性矩阵I;
步骤5,在重要性矩阵I中保留控制强度超过设定阈值的调控关系,控制强度超过设定阈值的调控关系构成基因调控网络。
2.如权利要求1所述的一种面向大规模基因调控网络的智能推断方法,其特征在于,步骤4具体为:
步骤4.1,整合基因真实表达数据中的时间序列数据和平稳状态数据及关键调控基因集R,获得用于建模的基因表达数据集;
步骤4.2,将基因表达数据集分解为P个子集,每一个子集均有一个靶基因;
步骤4.3,在每个子集中,分别运用XGBoost、LightGBM和CatBoost算法建立树模型学习非线性函数,计算得到关键调控基因对靶基因的重要性值;
步骤4.4,将关键调控基因对靶基因的重要性值排序,得到一个有序的关键调控基因的重要性列表F1;
步骤4.5,重复4.3和4.4,依据基因编号将P个重要性列表合成为重要性矩阵I。
3.如权利要求2所述的一种面向大规模基因调控网络的智能推断方法,其特征在于,步骤3筛选出调控基因集X中关于靶基因Y的关键调控基因集R具体为:
步骤3.1:给定基因真实表达数据,其中基因真实表达数据共有S个样本和G个基因,依次选取一个基因作为靶基因j,剩下的基因作为候选调控基因;
步骤3.2:获取给定靶基因j与候选调控基因之间的最大信息系数MIC(X;Y),选取阈值剔除冗余调控基因,得到给定靶基因的关键调控基因列表Rj;
步骤3.3:重复步骤3.1和步骤3.2,得到所有靶基因的关键调控基因集R。
4.如权利要求3所述的一种面向大规模基因调控网络的智能推断方法,其特征在于,步骤4.3中在每个子集中,分别运用XGBoost、LightGBM和CatBoost算法建立树模型学习非线性函数,计算得到关键调控基因对靶基因的重要性具体为:
步骤4.3.1,利用XGBoost算法获得第一重要性列表FXGB;
步骤4.3.2,利用LightGBM算法获得第二重要性列表FLG;
步骤4.3.3,利用CatBoost算法获得第三重要性列表FCB;
步骤4.3.4,由第一重要性列表FXGB、第二重要性列表FLG和第三重要性列表FCB构成关键调控基因对靶基因的重要性值。
5.如权利要求4所述的一种面向大规模基因调控网络的智能推断方法,其特征在于,步骤4.4将关键调控基因对靶基因的重要性值排序,得到一个有序的关键调控基因的重要性列表F1具体公式为:
F1=α1·FXGB+α2·FLG+α3·FCB
其中,α1、α2、α3为权重系数。
6.如权利要求5所述的一种面向大规模基因调控网络的智能推断方法,其特征在于,步骤1中获取联合概率分布函数p(x,y)的估计值o(x,y)的公式为:
其中,g为第(x,y)个网格中的数据点数,G为总的数据点数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110762918.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于检测兽药残留的自动检测设备
- 下一篇:靶向直向同源物的蛋白