[发明专利]一种采用改进的HITS算法识别关键蛋白质的方法有效

申请号：	201811481161.1	申请日：	2018-12-05
公开（公告）号：	CN109616153B	公开（公告）日：	2022-08-05
发明（设计）人：	雷秀娟;王思果;赵杰	申请（专利权）人：	陕西师范大学
主分类号：	G16B20/00	分类号：	G16B20/00
代理公司：	西安通大专利代理有限责任公司 61200	代理人：	徐文权
地址：	710119 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种采用改进 hits 算法识别关键蛋白质方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种采用改进的HITS算法识别关键蛋白质的方法，其特征在于,包括以下步骤：

1)将蛋白质相互作用网络转化为双向有向图

将蛋白质相互作用网络转化为一个双向有向图G＝(V,E)，其中，V＝{v₁,v₂,…,v_i,…,v_n}为结点v_i的集合，E为边e的集合，结点v_i表示蛋白质，边e表示蛋白质之间的相互作用，n表示蛋白质结点的个数；

2)对蛋白质相互作用网络的边的预处理

边的预处理包括计算边的聚集系数、边的基因表达相似性、边的功能相似性、边的可靠性；

3)网络拓扑加权边

根据步骤2)得到的边聚集系数得到网络拓扑加权边的权值w_vu；

4)网络生物特性加权边

根据步骤2)得到的边的基因表达相似性、边的功能相似性、边的可靠性对边进行加权，得到生物信息加权边的权值w_uv；

5)利用HITS算法得到结点权威值和中心值

利用HITS算法得到每个结点的权威值a(v)和中心值h(v)，每个结点的权威值a(v)和中心值h(v)由式(7)、(8)计算得到：

a(v)＝∑_q∈B(v)h(q) (7)；

h(v)＝∑_q∈F(v)a(q) (8)；

式中，B(v)代表指向蛋白质结点v的蛋白质集合，F(v)代表蛋白质结点v指向的蛋白质集合；

6)结点权威值和中心值归一化处理

对步骤5)得到的权威值a(v)和中心值h(v)，进行归一化处理，得到标准权威值a’(v)和标准中心值h’(v)；iter迭代加1；

每个结点的标准权威值a’(v)和标准中心值h’(v)由式(9)、(10)计算得到：

式中，a(v)代表每个蛋白质结点v的权威值，由公式(7)得到；式中，h(v)代表每个蛋白质结点v的中心值，由公式(8)得到；

7)得到每个结点的综合得分

若iter的值小于等于次数maxiter，则转向步骤6)；此时，根据每个结点当前的标准权威值a’(v)和标准中心值h’(v)得到综合得分Fin(v)；

8)产生关键蛋白质

根据步骤7)得到的每个结点的综合得分Fin(v)，对蛋白质进行排序；随着k个不同参数的变化，每个结点的排序也会有所变化，将所有的蛋白质的排序合并为一个关键蛋白质候选集X_i，统计候选集X_i中蛋白质出现的个数作为集成得分EM(v)，若某个蛋白质的集成得分EM(v)大于设定阈值则认为其为关键蛋白质。

2.根据权利要求1所述的采用改进的HITS算法识别关键蛋白质的方法，其特征在于，步骤2)中，边预处理具体包括：

按式(1)计算边的聚集系数：

式中，Z(v,u)表示包含边(v,u)的三角形个数，d_i,d_j分别是结点v和u的度；

按式(2)计算边的基因表达相似性：

式中，g(u,i)和g(v,i)分别代表蛋白质结点u和v在时间i时的表达水平，和分别代表蛋白质结点u和v的平均表达水平；

按式(3)计算边的功能相似性：

式中，S_v(t)是与蛋白质结点v有关的GO术语k的S值，S_u(t)是与蛋白质结点u有关的GO术语k的S值；

按式(4)计算边的可靠性：

式中，C代表边(u,v)在亚细胞位置中出现的次数，C_max代表边(u,v)在亚细胞位置中出现的最大次数。

3.根据权利要求2所述的采用改进的HITS算法识别关键蛋白质的方法，其特征在于，步骤3)中，网络拓扑加权边的权值w_vu由式(5)计算得到：

w_vu＝ECC(v,u) (5)；

式中，ECC是蛋白质结点v和蛋白质结点u之间的边聚集系数，由公式(1)得到。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于陕西师范大学，未经陕西师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811481161.1/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载