[发明专利]一种基于疾病本体的疾病相似度计算方法有效
申请号: | 201811255993.1 | 申请日: | 2018-10-26 |
公开(公告)号: | CN109558493B | 公开(公告)日: | 2023-02-10 |
发明(设计)人: | 周水庚;袁梓峰;孙志丹;关佶红 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G16B50/00 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 张磊 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 疾病 本体 相似 计算方法 | ||
1.一种基于疾病本体的疾病相似度计算方法,其特征在于:所述方法包括评估疾病对的疾病功能相似性方法和评估疾病对的疾病语义相似性方法两部分,具体如下:
(1)评估疾病对的疾病功能相似性方法如下:
(1.1)首先使用最短路径算法(the Shortest Path,SP)构建基因本体节点相似性矩阵,使用Resnik方法计算基因本体节点的信息量,基因本体节点相似性矩阵的每个元素是一个0~1之间的数值,表示在基因本体中的任意两个节点的相似性,这个相似性矩阵记为SimGO;
其中path1为t1节点到最大信息量公共祖先节点(MICA节点)的最短路径,path2为t2节点到最大信息量公共祖先节点(MICA节点)的最短路径;
(1.2)疾病本体关联了医学主题词数据库,设医学主题词数据库中的两个疾病术语分别为m1和m2,相应的,在医学主题词数据库中得到疾病术语相关的基因分子功能术语集合分别为T1={t11,t12,...,t1p}和T2={t21,t22,...,t2q};集合T1和T2看作是对医学主题词数据库中疾病术语特征的描述,使用公式(1)把基因本体节点相似性矩阵转化为医学主题词节点相似性:
其中p、q分别是与疾病术语m1、m2相关联的分子功能术语个数,max函数是取最大值,SimGO(t1,t2)是两基因本体节点t1和t2的相似性得分;
(1.3)疾病本体中的疾病节点通常都会与若干个医学主题词数据库中的疾病术语相对应,假设疾病对为d1和d2,一一对应了疾病本体中的两个疾病术语,从疾病本体中得到疾病对d1和d2关联的医学主题词数据库疾病术语分别为M1={m11,m12,...,m1p}和M2={m21,m22,...,m2q};
其中p、q分别是与疾病d1、d2相关联的医学主题词数据库疾病术语个数,max函数是取最大值,SimMeSH(m1,m2)是两基因本体节点m1和m2的相似性得分;
(2)评估疾病对的疾病语义相似性方法如下:
疾病功能相似性的计算考虑了基因本体分子层面疾病相互之间的关联关系,而疾病语义相似性的计算则利用了疾病本体在结构组织上的优势;在计算疾病语义相似性时,需要找出两个疾病节点的最大信息量公共祖先节点(most informative common ancestor,MICA),记两个疾病为d1、d2,记这个祖先节点为dMICA,令G1、G2和GMICA分别表示疾病d1、d2和dMICA所关联的基因本体中的节点集合;使用下列公式计算相似性:
其中|G1|、|G2|和|GMICA|分别表示疾病d1、d2和dMICA所关联的基因本体节点数目;
(3)评估疾病对的相似性得分:
根据步骤(1)和步骤(2)中算出的疾病功能相似性和疾病语义相似性的得分,取值都在0~1之间,将两者相乘得到疾病对的相似度得分:
SimDGS(d1,d2)=FSimDGS(d1,d2)·SSimDGS(d1,d2)
其中FSimDGS(d1,d2)是疾病对d1和d2的功能相似性得分,SSimDGS(d1,d2)是疾病对d1和d2的语义相似性得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811255993.1/1.html,转载请声明来源钻瓜专利网。