[发明专利]一种人类表型本体术语识别方法及系统有效
申请号: | 202011338447.1 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112329479B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 徐卫志;李广震;范胜玉;于惠;曹洋;蔡晓雅;耿艳芳;赵晗;龙开放 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G06F40/35 | 分类号: | G06F40/35;G06F16/33;G16H50/70;G16H10/60 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 董雪 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 人类 表型 本体 术语 识别 方法 系统 | ||
本公开公开的一种人类表型本体术语识别方法及系统,包括,获取电子病历;对电子病历预处理,并切分出描述疾病症状的词组;对每个词组,计算该词组与HPO库中每个HPO的相似度得分,相似度得分最高的HPO为该词组对应的HPO。实现了根据自然语言描述的电子病历,自动识别出与该电子病历对应的标准的HPO。
技术领域
本发明涉及信息处理技术领域,尤其涉及一种人类表型本体术语识别方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
近些年来,基因测序技术水平的提高使人们可以更加便捷地获取基因组数据,同时也促进了科研工作者对人类疾病与基因组数据关系的研究。研究表明,越来越多的遗传性疾病患者需要用到基因测序。随着基因测序技术水平的不断提高,基因数据产生的速度将会越来越快,预计到5年内将有超过一亿的人类基因组被测序。对于每个病例,单基因遗传疾病的诊断可能需要对数百种遗传基因变异进行人工评估,在这个过程中存在一个瓶颈,即手动评估每一个患者的致病基因,这极为耗时耗力,进而出现了一系列加快评估致病基因的自动基因排序工具,如Phenomizer,Phenolyzer,hiPhive,Phive,PhiveIX,Phrank等,但这些工具往往需要以人类表型本体(Human Phenotype Ontology,HPO)作为输入。
人类表型本体现在已成为描述人类表型异常最常用的标准化用语之一,人类表型本体库中包含大量的描述人类表型异常的用语,HPO的最新版本包含了超过13000个概念和超过156000个关于人类遗传疾病的注释,HPO共包括4大类,包括表型异常、临床调节因素,死亡/衰老和遗传模式,其中数目最多、临床最常用的HPO是描述表型异常的标准用语,分为23大类,其中每个术语都描述了一种表型异常。
传统方法中,基于规则的方法依赖于现有的医学词汇,如正则表达式的运用,但基于自定义的规则和模板常常难以覆盖各种语言现象,且泛化能力较差,研究者们很难设计出完整的规则来覆盖各种情况。基于字典的方法因简单性被广泛使用,通过计算语义相似度,可以通过字典中已有的词组来对目标概念进行标注;但是,该方法过分依赖外部数据的规模和质量,且搜集语料的过程耗费大量人力资源。
发明内容
本公开为了解决上述问题,提出了一种人类表型本体术语识别方法及系统,通过计算描述疾病症状的词组与HPO库中每个HPO的相似度得分,识别出该词组对应的HPO,实现了根据自然语言描述的电子病历,自动识别出与该电子病历对应的标准的人类表型本体术语(HPO)。
为实现上述目的,本公开采用如下技术方案:
第一方面,提出了一种人类表型本体术语识别方法,包括,
获取电子病历;
对电子病历预处理,并切分出描述疾病症状的词组;
对每个词组,计算该词组与HPO库中每个HPO的相似度得分,相似度得分最高的HPO为该词组对应的HPO。
进一步的,计算词组相似度得分的具体过程为:
基于n-gram匹配算法计算词组与HPO库中每个HPO的相似度;
基于WMD算法计算词组与HPO库中每个HPO的相似度;
将两个相似度进行加权求和,获得该词组与HPO库中每个HPO的相似度得分。
第二方面,提出了一种人类表型本体术语识别系统,包括,
采集模块,用于获取电子病历;
预处理及词组切分模块,用于对电子病历预处理,并切分出描述疾病症状的词组;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011338447.1/2.html,转载请声明来源钻瓜专利网。