[发明专利]一种医学疾病诊断记录中实体消歧的方法有效
申请号: | 201710112316.3 | 申请日: | 2017-02-28 |
公开(公告)号: | CN106951684B | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 宋国杰;刘徽;李鹏宇 | 申请(专利权)人: | 北京大学 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G16H50/70;G06F16/28 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 医学 疾病诊断 记录 实体 方法 | ||
本发明公布了一种疾病诊断记录中实体名称消歧的方法,基于异构伴病网络和图模型,对医学疾病诊断记录中多个待消歧的实体名称进行消歧。利用待消歧实体名称和候选实体名称之间的相似度作为局部信息,并将同一条记录中其它待消歧实体对当前待消歧实体的贡献作为全局信息,能提升医学实体名称消歧的准确率;根据疾病诊断记录和标注数据建立异构伴病网络,更直观可信的反映疾病与疾病、疾病与手术之间关系,准确、高效的将实体名称进行标准名称映射,解决诊断信息下医学疾病实体名称存在的歧义问题,满足实际应用需求。
技术领域
本发明涉及自然语言文本信息处理及医疗大数据挖掘领域,尤其涉及一种基于医学疾病诊断记录的疾病实体和手术实体消歧的方法。
背景技术
医学疾病诊断记录包含病人诊断的主要疾病名称、次要诊断疾病名称(即伴随疾病名称)以及诊断疾病的手术等信息。对同一种疾病名称,由于疾病种类的繁多、医生经验差异等,同一疾病名称往往存在多种不同的表达形式,给医学电子病历数据的规范化带来很大挑战。
命名实体消歧的任务是对于文本中给定的实体指称(指称指实体在某一文章或领域内的名称),将其和知识库中对应的实体建立映射关系。命名实体消歧旨在解决文本中广泛存在的名称歧义问题,在自然语言处理应用中发挥着重要的作用,可以用于有效解决语义网络、信息检索、信息抽取、自动问答等自然处理任务。实体消歧主要分为两个步骤:(1)候选实体生成;(2)候选实体排序。候选实体生成是利用实体的上下文信息对给定的知识库进行检索,得到候选实体集合,常用方法为利用维基百科生成命名词典进行匹配、对实体进行扩展的匹配和基于搜索引擎(如Google等)的匹配方法;候选实体排序指对生成的候选实体进行排序,常用的方法为监督和非监督方法。监督方法包括二分类方法、基于概率模型和基于图模型等方法。监督学习方法能够利用标注信息,利用训练数据的特征对实体和候选实体之间的规律进行挖掘,缺点是需要人工标注数据,成本较高;非监督的学习方法包括信息检索和向量空间模型,不需要标注数据,能够利用实体上下文的语义信息,但特征提取较为困难。
目前关于命名实体消歧的研究日趋成熟,但针对医学领域疾病实体的消歧任务,由于疾病名称的多样化以及诊断信息不完整,无法直接利用一般命名实体消歧的方法,因此,目前还没有有效的医学领域疾病实体的消歧模型及方法。
发明内容
为克服现有技术不足,本发明提出一种基于医学疾病诊断记录的实体(疾病和手术)名称的消歧方法,能够准确、高效的将病人诊断记录中疾病实体映射到标准的疾病实体,同时也能利用疾病和手术的关系将手术实体也映射到标准的手术实体,解决部分诊断信息下医学疾病实体存在的歧义问题,满足实际应用需求。
本发明的核心是:根据医学疾病诊断记录的特点以及对疾病实体的特点的分析,提出一种基于异构伴病网络和图模型的医学疾病实体及相应手术实体的消歧方法。通过建立异构伴病网络获取疾病实体之间的伴随关系以及疾病实体和手术实体之间的关联关系,对待消歧的疾病实体和手术实体运用多层过滤机制生成候选疾病实体和手术实体,对候选疾病实体及候选手术实体建立图模型,并使用异构网络上的个性化网页排名(Personalized Page Rank)算法对候选疾病实体和候选手术实体进行排序,分别选取对应TopK的候选实体作为待消歧疾病名称对应的疾病实体和待消歧手术实体对应的手术实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710112316.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于玻璃门窗的简易玻璃胶枪
- 下一篇:一种防腐钢管的自动生产线