[发明专利]一种采用改进的HITS算法识别关键蛋白质的方法有效
申请号: | 201811481161.1 | 申请日: | 2018-12-05 |
公开(公告)号: | CN109616153B | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 雷秀娟;王思果;赵杰 | 申请(专利权)人: | 陕西师范大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 徐文权 |
地址: | 710119 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 采用 改进 hits 算法 识别 关键 蛋白质 方法 | ||
1.一种采用改进的HITS算法识别关键蛋白质的方法,其特征在于,包括以下步骤:
1)将蛋白质相互作用网络转化为双向有向图
将蛋白质相互作用网络转化为一个双向有向图G=(V,E),其中,V={v1,v2,…,vi,…,vn}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用,n表示蛋白质结点的个数;
2)对蛋白质相互作用网络的边的预处理
边的预处理包括计算边的聚集系数、边的基因表达相似性、边的功能相似性、边的可靠性;
3)网络拓扑加权边
根据步骤2)得到的边聚集系数得到网络拓扑加权边的权值wvu;
4)网络生物特性加权边
根据步骤2)得到的边的基因表达相似性、边的功能相似性、边的可靠性对边进行加权,得到生物信息加权边的权值wuv;
5)利用HITS算法得到结点权威值和中心值
利用HITS算法得到每个结点的权威值a(v)和中心值h(v),每个结点的权威值a(v)和中心值h(v)由式(7)、(8)计算得到:
a(v)=∑q∈B(v)h(q) (7);
h(v)=∑q∈F(v)a(q) (8);
式中,B(v)代表指向蛋白质结点v的蛋白质集合,F(v)代表蛋白质结点v指向的蛋白质集合;
6)结点权威值和中心值归一化处理
对步骤5)得到的权威值a(v)和中心值h(v),进行归一化处理,得到标准权威值a’(v)和标准中心值h’(v);iter迭代加1;
每个结点的标准权威值a’(v)和标准中心值h’(v)由式(9)、(10)计算得到:
式中,a(v)代表每个蛋白质结点v的权威值,由公式(7)得到;式中,h(v)代表每个蛋白质结点v的中心值,由公式(8)得到;
7)得到每个结点的综合得分
若iter的值小于等于次数maxiter,则转向步骤6);此时,根据每个结点当前的标准权威值a’(v)和标准中心值h’(v)得到综合得分Fin(v);
8)产生关键蛋白质
根据步骤7)得到的每个结点的综合得分Fin(v),对蛋白质进行排序;随着k个不同参数的变化,每个结点的排序也会有所变化,将所有的蛋白质的排序合并为一个关键蛋白质候选集Xi,统计候选集Xi中蛋白质出现的个数作为集成得分EM(v),若某个蛋白质的集成得分EM(v)大于设定阈值则认为其为关键蛋白质。
2.根据权利要求1所述的采用改进的HITS算法识别关键蛋白质的方法,其特征在于,步骤2)中,边预处理具体包括:
按式(1)计算边的聚集系数:
式中,Z(v,u)表示包含边(v,u)的三角形个数,di,dj分别是结点v和u的度;
按式(2)计算边的基因表达相似性:
式中,g(u,i)和g(v,i)分别代表蛋白质结点u和v在时间i时的表达水平,和分别代表蛋白质结点u和v的平均表达水平;
按式(3)计算边的功能相似性:
式中,Sv(t)是与蛋白质结点v有关的GO术语k的S值,Su(t)是与蛋白质结点u有关的GO术语k的S值;
按式(4)计算边的可靠性:
式中,C代表边(u,v)在亚细胞位置中出现的次数,Cmax代表边(u,v)在亚细胞位置中出现的最大次数。
3.根据权利要求2所述的采用改进的HITS算法识别关键蛋白质的方法,其特征在于,步骤3)中,网络拓扑加权边的权值wvu由式(5)计算得到:
wvu=ECC(v,u) (5);
式中,ECC是蛋白质结点v和蛋白质结点u之间的边聚集系数,由公式(1)得到。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西师范大学,未经陕西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811481161.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:癌症特异的共调网络建立方法及装置
- 下一篇:测序深度的矫正方法及装置