[发明专利]基于共表达网络的癌症靶向标志物测绘方法有效
申请号: | 201711336559.1 | 申请日: | 2017-12-14 |
公开(公告)号: | CN107992720B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 陈晋音;郑海斌;王桢;宣琦;应时彦;李南 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G16B15/30 | 分类号: | G16B15/30;G16B40/00 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于共表达网络的癌症靶向标志物测绘方法,包括以下步骤:1)构建共表达基础网络,根据特征基因的基因表达数据计算邻接矩阵与拓扑矩阵;2)提取共表达基础网络的特征,即将拓扑网络的各个基因节点转换为特征向量作为网络的特征值;3)训练神经网络模型,根据游走序列,进行神经网络模型参数的训练;4)进行癌症靶向标志物测绘,根据基于密度峰的聚类中心自适应算法进行靶向基因社区的自动发现。本发明提供一种具有良好的普适性和精度,采用共表达基础网络构建和节点特征向量提取以及基因社区自动发现实现目标基因测绘的方法。 | ||
搜索关键词: | 基于 表达 网络 癌症 靶向 标志 测绘 方法 | ||
【主权项】:
一种基于共表达网络的癌症靶向标志物测绘方法,其特征在于:所述方法包括以下步骤:1)构建共表达基础网络,根据特征基因的基因表达数据计算邻接矩阵与拓扑矩阵,过程如下:1.1)将已经经过预处理与筛选的特征基因的基因表达数据作为构建共表达基础网络的源数据;1.2)计算邻接矩阵,使用基因间表达水平的相关系数的幂指数加权值作为共表达的邻接矩阵,表示为Amatrix=[aij],计算公式如下:aij|i,jMpool3=cor(genei,genej)|β---(1)]]>式(1)中,Mpool3表示候选基因个数,即特征基因的数量;cor(·,·)表示基因i与基因j之间的相关系数;β表示加权幂指数,β的值根据无标度网络原则确定:即出现连接度为k的节点个数与该节点出现的概率p(k)反比于k的τ次方,且此时的相关系数需大于某一阈值thre;1.3)计算拓扑矩阵,考虑基因与其它所有基因间的邻接关系,将邻接矩阵Amatrix转换为拓扑矩阵Ωmatrix=[ωij],计算公式如下:ωij=lij+aijmin{ki,kj}+1-aij---(2)]]>式(2)中,lij=∑uaiuauj表示与基因i、j都存在连边的基因u的邻接系数乘积和,ki=∑uaiu表示与基因i单独连接的基因u的邻接系数和,kj=∑uaju表示与基因j单独连接的基因u的邻接系数和;在与基因i和j之间无直接连接,且无任何其它的基因将这两个基因间接连接的情况下,取ωij=0;2)提取共表达基础网络的特征,即将拓扑网络的各个基因节点转换为特征向量作为网络的特征值,过程如下:2.1)根据步骤1.3)中得到的拓扑矩阵确定共表达网络的基本结构;2.2)针对网络中的每个节点进行二阶随机游走,节点总数表示为N,对于一个初始的头结点nu,定义游走长度为lrandomWalk,Ci表示游走中的第i个节点,并以C0=nu开始,Ci的生成满足以下分布:式(3)中,x为下一步可能游走的节点,ν为当前停留的节点,πvx表示节点v与x间未标准化的转移概率,Z表示标准化常数;对于Ci‑2=t,t表示已游走的上一个节点,定义πvx=αpq(t,x),其计算公式为:αpq(t,x)=1/pifdtx=01ifdtx=11/qifdtx=2---(4)]]>式(4)中,α表示带p、q参数的偏置量,dtx表示节点t与x间的最短路径,且dtx∈{0,1,2};为了避免相邻节点间的重复游走并确保游走的范围尽可能大,可将参数p设置为一个较大值,取p>1将q设置为一个较小值,取q<1;若πvx相等,则随机选择一个节点进行游走;2.3)根据步骤2.2)将网络中的每个节点作为头结点进行游走,得到N条长度为lrandomWalk的游走序列;3)训练神经网络模型,根据步骤2.3)中得到的游走序列,进行神经网络模型参数的训练,过程如下:3.1)将网络中的每一个基因节点表示成实数形式的分布式特征向量,同时使用游走序列中的节点的分布式特征向量来表示网络节点间的连接概率函数;3.2)学习分布式特征向量与概率函数的参数,其中的训练集为步骤2.3)得到的游走序列;以一条游走序列为例,对序列中重复游走的节点仅保留第一个,处理后得到新的节点序列表示为{W1,W2,...,WT},WT∈V,其中V是节点集合,即大小为N的有限集合;训练目标是找到一个好的模型,使得该模型满足唯一的约束条件为:Σi=1|V|f(i,Wt-1,...,Wt-n+1)=1,f>0---(5)]]>式(5)中,函数f(Wt‑1,…,Wt‑n+1)可以分解为两个部分:第一部分为映射H(·),其中H(i)表示节点集合中的每个节点的分布式特征向量,H实际上是一个由自由参数构成的|V|*m矩阵,其中m为自定义的向量维度;第二部分为函数g(·),该函数将输入的节点特征向量(H(Wt‑n+1),…,H(Wt‑1))映射为节点Wt前面n‑1个节点的条件概率分布,即:f(i,Wt‑1,…,Wt‑n+1)=g(i,H(Wt‑1),…,H(Wt‑n+1)) (6)当寻找得到满足带惩罚项的训练序列的对数似然率最大的θ,则训练结束,即:L=1TΣtlogf(Wt,Wt-1,...,Wt-n+1)+R(θ)---(7)]]>神经网络的组成包括一个隐藏层,一个映射层,以及一个可选的直连层;最底层是单一的节点,表示成one‑hot编码形式,即将节点表示成一个很长的向量,向量的分量只有一个1,其他全为0,1所对应的位置就是该节点在新的节点序列中的索引,向量长度为向量集的长度|V|;然后,每个one‑hot编码的向量分别与投影矩阵H相乘,则原来长度为|V|的one‑hot向量,经过线性变换以后,缩短为一个长度为m的向量,其中m是预先设置的特征个数,即向量的维度,向量维度一般为2个数量级;投影完成以后,将所有的特征向量按照顺序首尾相连,形成一个长度为m*(n‑1)的向量,以节点向量作为隐藏层的输入,隐藏层的激活函数取为双曲正切函数tanh(·);输出层接受隐藏层的输出作为输入,经过softmax(·)函数进行转换,得到最终的输出P为:P^(Wt|Wt-1,...,Wt-n+1)=eywtΣieyi---(8)]]>式(8)中,y=b+Wx+U tanh(d+Kx);双曲正切函数逐个应用于隐藏层的各个单元;当神经网络节点间没有直连的时候,W=0,x是首尾相连的特征向量,即:x=(H(Wt‑1),H(Wt‑2),…,H(Wt‑n+1)) (9)3.3)训练结束以后,矩阵H就是需要的节点特征向量,每一行代表该位置的节点的向量;4)进行癌症靶向标志物测绘,根据基于密度峰的聚类中心自适应算法进行靶向基因社区的自动发现,过程如下:4.1)将步骤3)得到的特征向量作为输入;4.2)定义待聚类的向量矩阵其中xi表示矩阵的每一行,即步骤3.3)中该位置的节点的向量,相应指标集定义为IH={1,2,...,N},任意两行向量xi和xj之间的欧式距离定义为:dij=dist(xi,xj)=Σi=1m(xi-xj)2---(10)]]>式(10)中,m表示向量的维度;对于H中的任一向量xi,定义其对应节点的局部密度ρi表示H中与xi之间的距离小于dc的向量个数,即:其中式(11)中,dc>0表示截断距离,此处指定dc为模长最大与模长最小的两个向量xmax与xmin之间欧式距离的2%,即:dc=0.02*dist(xmax,xmin) (12)设表示的一个降序排列下标序,即满足ρq1≥ρq2≥…≥ρqN,则可定义对应向量的距离δi为:δqi=minj≤i{dqiqj}i≥2minj≥2{dqj}i=1---(13)]]>4.3)对于H中的每一行向量,计算其对应的密度值和距离值(ρi,δi),i∈IS;根据得到的和绘制决策图(以ρ为横轴,δ为纵轴),自动确定密度值和距离值都较大的基因节点作为聚类中心,对剩余的基因节点按照距离最近原则进行归类得到不同的基因模块。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711336559.1/,转载请声明来源钻瓜专利网。