[发明专利]一种基于疾病本体的疾病相似度计算方法有效
申请号: | 201811255993.1 | 申请日: | 2018-10-26 |
公开(公告)号: | CN109558493B | 公开(公告)日: | 2023-02-10 |
发明(设计)人: | 周水庚;袁梓峰;孙志丹;关佶红 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G16B50/00 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 张磊 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 疾病 本体 相似 计算方法 | ||
本发明属于生物信息学领域,具体为一种基于疾病本体的疾病相似度计算方法。本发明方法分为两部分,第一部分是基于基因本体的疾病功能相似性计算,第二部分是基于疾病本体的疾病语义相似性计算。在算法评估方面,采用ROC曲线和PTC共享率两种评估方法,结果均优于现有的疾病对相似度评估算法。疾病的发病机制往往和体内复杂的代谢及生命活动关系密切,这给人类在疾病发病机制的理解及诊疗手段的研究上带来巨大挑战,本发明方法有助于疾病发病机制、诊疗手段及疾病预防等方面的研究。
技术领域
本发明属于生物信息学领域,用于评估疾病对的相似度,相似性结果分析有助于疾病发病机制、诊疗手段及疾病预防等方面的研究,具体涉及一种基于疾病本体的疾病相似度计算方法。
背景技术
近年来,生物医学领域里越来越多的研究者参与到相似性研究中来,包括蛋白质功能相似性、基因相似性,药物相似性以及疾病相似性等相似性方向。其中,疾病相似性的研究旨在通过分析两种疾病的内在关联,来揭示其可能的病理原理,并提供适当的医疗建议。基于有限的疾病的相关信息如基因信息等,可以对已知疾病和未知疾病进行相似性分析,当它们相似性很高时,表示两种疾病至少在某一方面拥有相同或相似的属性,所以也就可能有着相似的疾病形成机制及诊疗方法,为研究疾病的病因提供了较好的指引。
图1列出了基于现有主要的基于疾病本体的疾病对相似度计算方法,可以细分为基于疾病语义相似性的方法、基于疾病功能相似性的方法、以及两者相结合的方法。其中,基于疾病语义相似性的方法可以进一步细分为基于疾病本体节点信息量的方法和基于疾病本体结构信息的方法。
1995年Resnik提出了一种基于最大信息量共同祖先的算法,该算法根据疾病本体中的“is_a”关系,用最大信息量共同祖先节点来表示疾病对的相似性。Couto等人在2004年提出了不相容祖先节点的概念,并以此来计算两个疾病节点的相似性。Resnik和Couto的方法都是从疾病本体里两个疾病节点的祖先节点来计算疾病的相似度的。而Lin在1998年和Schlicker在2006年发表的方法里,认为只从一个或若干个祖先节点来计算疾病的相似度,而忽略了疾病节点本身在疾病本体中信息量是不全面的。Lin在Resnik的方法的基础上,提出一种综合了祖先节点和自身节点的疾病相似性计算方法,接着Schlicker在Lin的工作的基础上引入了修正系数进行了改进。
在基于疾病本体结构信息的计算方法中,Rada等人在1989年较早提出了基于节点距离的疾病相似性计算方法,但Rada的计算方法中距离的取值可能是0或无穷大,针对这一问题,Lee等人在1993年提出了改进算法,将Rada的算法结果进行了归一化处理,使相似度的取值为[0,1]。Wang等人在2007年发表的方法中,认为在计算疾病相似性时,不仅要利用疾病节点的信息量,而且还应该利用疾病本体的路径结构信息。对此,Wang将两疾病的共享信息由共同祖先节点扩充到所有的祖先节点,有效克服了局部节点路径信息引起的信息不全的问题,提高了准确率。此外,Wu在2006年和Jiang在1997年发表的方法里认为,疾病本体的层级结构也能很好地描述疾病之间的相似性。Wu提出了一种基于疾病本体路径信息的算法,该算法不仅考虑了两个疾病与祖先节点之间的路径信息,还考虑了疾病与叶子节点之间的路径信息,得到了较好的计算结果。Jiang的算法则考虑了本体中的局部网络复杂度、节点层级、边的类型以及边的强度,并对边赋予权值,将疾病节点之间最短路径所跨过的边的权重之和作为它们的相似性计算结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811255993.1/2.html,转载请声明来源钻瓜专利网。