[发明专利]一种基于基因网络分析的疾病亚型预测系统有效
申请号: | 201810737793.3 | 申请日: | 2018-07-02 |
公开(公告)号: | CN109192316B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 刘闯;王朝;许帅帅;张子柯 | 申请(专利权)人: | 杭州师范大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
地址: | 311121 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 基因 网络分析 疾病 预测 系统 | ||
1.一种基于基因网络分析的疾病亚型预测系统,其特征在于,包括:
数据采集与预处理模块,用于基因网络关系和疾病患者的变异基因序列数据的采集以及预处理,并向病人分类和疾病亚型预测模块输出数据;
病人分类和疾病亚型预测模块,接收来自数据采集与预处理模块的基因网络关系数据以及疾病患者的变异基因序列数据,用于实现疾病亚型预测,取得预测类别结果数据;
结果展示模块,接收来自病人分类和疾病亚型预测模块的预测类别结果数据,用于展示疾病亚型预测子模块中的预测结果,测试疾病亚型预测算法在不同类型肿瘤之间的有效性,并使用准确率P、召回率R、P和R的调和平均数F1三个指标的条形图展示算法在不同类型肿瘤之间的有效性;
所述数据采集与预处理模块,具体包括如下内容:
基因网络关系数据:基于PINA,InnateDB数据库提取高质量的蛋白质相互作用关系,进而构建蛋白质所对应的编码基因之间的基因网络,即基因与基因之间的相互作用网络;网络中的节点代表单个基因,边代表两个基因所编码的蛋白之间具有相互作用关系;
疾病患者的变异基因序列:通过相应疾病患者的外显子组DNA测序数据,提取病人的体细胞突变基因;从ICGC,TCGA数据库获取恶性肿瘤类疾病患者的变异基因序列;
基因网络关系数据输入基因网络中基因节点向量化子模块;疾病患者的变异基因序列输入疾病患者向量化子模块;
所述病人分类和疾病亚型预测模块包括依次连接的下列三个子模块:
基因网络中基因节点向量化子模块,用于将基因网络中的基因节点实现向量化,并使用node2vec方法实现;向疾病患者向量化子模块输出基因节点的向量表示和疾病患者的变异基因序列;
疾病患者向量化子模块,用于将疾病患者实现向量化,并向疾病亚型预测子模块输出疾病患者的向量表示;
疾病亚型预测子模块,用于将病人在向量化的基础上分成不同的类别,每一类可表征为一种亚型,进而针对不同类别进行临床决策;该分类过程使用softmax回归来实现;
所述结果展示模块,具体包括如下内容:
设定d1、d2两种疾病类型,对疾病d1进行预测,定义TP为正确预测为d1类型的数量;FP为误把d2类型预测为d1类型的数量;FN为误把d1类型预测为d2类型的数量;则:
所述基因网络中基因节点向量化子模块,包括:
随机游走random walk孙模块,在基因网络上通过随机游走的方式,产生一系列基因节点序列,并向word2vec孙模块输出,具体是:
采用一种有偏的游走策略,即从一个节点向下一个节点的游走概率是不同的,这个概率由参数p,即return parameter,和参数q,即in-out parameter,来控制;定义随机游走选择下一个节点的公式为:
即若图E中存在边(v,x),则以的概率选择下一节点x,其中πvx是非归一化的v到x的转移概率,Z是归一化常数;其中:
πvx=αpq(t,x).wvx (5)
当下一个节点x与前一个节点t和当前节点v等距时,即dtx=1时,α=1;当下一个节点x是上一个节点时,即dtx=0时,在其它情况下,即dtx=2时,
通过上述随机游走的方式,最终产生一系列的节点序列;
word2vec孙模块,计算生成节点向量表征;
由上述randomwalk得到每个基因节点的游走序列,然后使用word2vec工具为每个基因节点生成一个特征向量,即实现基因节点向量化,并将向量化后的数据应用于疾病患者向量化子模块;
所述疾病患者向量化子模块,具体包括如下内容:
基于每个基因节点向量,对于每个疾病患者,由其突变基因组成一个多维向量来表征;由于每一个疾病患者突变的基因是不同的,数量也不尽相同;在对患者进行细分类的过程中,需要使每位患者的向量维度相同,因此在构造患者的向量之前,先为每一个基因分配一个权重值,基因A的权重的计算过程:
设定数据中共有N个基因,M个疾病患者,涉及到m种疾病类型,并且每个患者只患有一种疾病;其中基因A在所有患者中突变的次数为nA,基因A在第i类疾病中突变的次数为nAi;则定义基因A的权重值为:
设定患者P的突变基因为{A,B},基因A的向量为αA,基因B的向量为αB,则定义患者P的向量βP为:
βP=wAαA+wBαB (8)
向量化后的疾病患者数据应用于疾病亚型预测子模块;
所述疾病亚型预测子模块,具体包括依次连接的训练回归模型孙模块、计算类别概率孙模块、亚型预测孙模块;
回归模型孙模块,建立训练生成回归模型,并应用于亚型预测孙模块,具体是:
(1)假设函数
类标签y取k个不同的值;因此,对于训练集{(x(1),y(2)),...,(x(m),y(m))},有y(i)∈{1,2,...,k};
对于给定的输入x,用假设函数对每一个类别j估算出概率值p(y=j|x),即估计x的每一种分类结果出现的概率;因此,假设函数需要输出一个k维的向量来表示这k个估计的概率值,其中向量元素和为1;假设函数hθ(x)形式如下:
其中,对概率分布进行归一化,保证所有概率之和为1;
(2)代价函数
代价函数为:
其中,1{·}是示性函数,其取值规则为:1{值为真的表达式}=1;1{值为假的表达式}=0;
对于J(θ)的最小化问题,使用梯度下降法求解最优值,梯度公式如下:
计算类别概率孙模块,计算生成样本被分类为各个类别的概率,具体是:
将x分类为类别j的概率为:
亚型预测孙模块,生成样本被分类成的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州师范大学,未经杭州师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810737793.3/1.html,转载请声明来源钻瓜专利网。