[发明专利]基于RNN的基因调控网络构建与动态差异性分析方法有效
申请号: | 201710355357.5 | 申请日: | 2017-05-19 |
公开(公告)号: | CN107220525B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 陈晋音;郑海斌;熊晖;吴洋洋;李南;应时彦 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B5/00 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 rnn 基因 调控 网络 构建 动态 差异性 分析 方法 | ||
1.一种基于RNN的基因调控网络构建与动态差异性分析方法,其特征在于:包括以下步骤:
第一步、基于deepRNN的基因动态调控网络构建
基因表达数据表示为其中表示第j个样本的第i个基因在tk时刻的表达量,在t0时刻输入的样本基因表达数据矩阵表示为输入序列表示为X={Vi|i∈[1,n]};输出的调控权值矩阵包括了节点度值、连边权重及调控方向,输出矩阵W={ωij|i∈[1,n],j∈[1,n],s=sa,t=tk}实质是一个上三角矩阵,包含样本sa的信息基因在tk时刻的调控关系,在某一时刻的前后短时间段内,在基因A的表达作用于基因B时不受基因B的反作用;若|ωij|<threshold则表示该基因对之间无连边;否则当ωij>0表示基因i对基因j上调,当ωij<0表示下调;若i=j则表示基因的自调控;
第二步、基于亚型内动态调控网络的时序变化演化分析
定义C1亚型在t0时刻的有向加权图拓扑结构表示为即将信息基因抽象成节点集合V,将基因间的关系或作用描绘成边集合E,表示基因i以权重ωij对基因j的作用,为+上调或者-下调;使用真阳率、假阳率、阳性预测率、准确率对调控网络的性能进行定量评价;
第三步、基于亚型间动态调控网络的网络差异演化分析
不同亚型网络的演化分析包括动力学分析、差异性分析和扰动分析,
所述动力学分析使用差分方程对离散的网络动力学行为进行分析,对于不同亚型的动态调控网络,分析同一时间段关联基因对的节点度值、连边权重、表达变化量相对比率;通过提取不同亚型网络的关联特征,并以此为基础构建多网络协同演化模型;
所述差异性分析对相同时间窗口内不同亚型间的两个基因调控网络作基于节点局部结构特征的减法运算,检测网络结构间存在的差异边,根据差异网络鉴别关键枢纽基因,然后利用GO信息和KEGG通路功能富集性分析检验所发现基因集的显著性,得到癌症亚型相关控制基因作为进一步生物实验的检验标记;
所述扰动控制分析中,关键枢纽基因节点在细胞生化过程中具有以下特征:同功能中心,即该节点附近的基因属于某类功能的基因集;同驱动中心,即受到该节点表达调控的同距离区间内的基因具有类似的生化功能,对于关键枢纽节点的调控输入一个随机扰动ΥPer,对不同网络在同距离区间内的同功能基因集取交集,得到亚型网络间的动态调控差异节点;
所述第一步中,基于deepRNN的基因动态调控网络构建包括以下步骤:
1.1预处理,首先,提取亚型网络之间的信息基因,然后,将同一亚型内部的样本按照百分比随机分为训练集80%,验证集10%,测试集10%,进一步,将同一样本的基因表达按照时间序列展开作为输入向量:表示第cx类亚型中具有mcx个样本,提取其中的ninf个信息基因,按照不同时刻k的展开;
1.2激活函数与损失函数,采用ReLU非饱和激活函数,值域为[0,+∞),公式如下:
其中为激活函数;
deepRNN由一个输入层、一个或多个循环体隐藏层和一个输出层组成,所有隐藏的层都有相同数量的隐藏单元,将上一时刻的状态与当前时刻的输入拼接成一个大的向量作为循环体中神经网络的输入,得到第l层的第j个单元的信号输出为:
其中H是隐藏单元个数,分别表示与第j个隐藏单元uj相连接的需要被训练的权重和偏差;当误差从输出层反向传播回来时,使用LSTM的记忆元保存信息,在训练时,将每个输出单元的均方误差作为损失函数,即:
其中M'表示训练样本个数,N表示每个训练样本基因个数,ωm(i,j)表示在t时刻样本m中的基因gi对基因gj的作用效果,即连边权重,表示预测值;
1.3 dropout方法,在训练过程中,对于每个训练样本的隐藏单元及其边缘将会以概率为p被暂时丢弃;因此前向传播和后向传播将在一个特别“薄”的稀疏网络上进行;对于deepRNN,只在同一时刻的不同层循环体之间使用dropout,即仅在同一时刻t中,从h1到hlast的不同层循环体之间使用dropout;将在区间[0%,25%]之间比较不同程度的正则化效果,寻找最优dropout比率;
1.4加速梯度优化和权重初始化,拟采用动量法进行加速优化,即通过在迭代过程中累积损失函数的梯度方向来代替梯度进行参数更新,对于神经网络参数Θ的损失函数L(·),动量计算公式如下:
其中,μ∈[0,1]是动量系数,η是学习率;
隐藏层单位的权重使用均匀分布进行采样,定义如下:
其中ni,no分别表示隐藏单元的扇入扇出个数;
1.5输出,在循环体中的神经网络供给当前时刻的输出后,将会使用另外一个全连接神经网络实现将当前时刻的状态转化为最终的输出;
所述第二步中,网络的拓扑属性是描述网络本身及其内部节点或边结构特征的测度,包括:
聚类系数,体现部分节点间存在的密集连接性质,在有向网络中,标准化的聚类系数被定义为:
其中kout表示节点v的出度,n表示所有v所指向的节点彼此存在的边数,
介数表明一个节点在其他节点彼此连接中所起的作用,标准化至[0,1]区间的计算公式如下:
其中σij是节点i到节点j的最短路径条数,σivj表示σij中通过节点v的路径条数;
紧密度是描述一个节点到网络中其他所有节点平均距离的指标,定量衡量节点接近网络“中心”的程度,节点v的紧密度Cv计算公式如下:
其中dvj表示节点v到节点j的最短距离,即路径中所经过边的权重之和最小;紧密度越小,节点越接近中心;
基于网络结构的拓扑属性变化在时间序列上对时间窗口Δt进行微分展开,得到动态调控网络的时空演化测度Γ'(·)的计算公式如下:
其中Θ表示函数参数,ωCC、ωB、ωC分别为对应指标的影响权重;
通过分析动态网络在不同时刻的节点指标CCv、Bv、Cv,挖掘在不同时间窗口内的关键调控基因节点,解释其在生命活动过程中扮演的重要性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710355357.5/1.html,转载请声明来源钻瓜专利网。