[发明专利]一种病理知识图谱的构建方法及装置在审
申请号: | 202111021649.8 | 申请日: | 2021-09-01 |
公开(公告)号: | CN113742493A | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 骆佳俊;马可;许永超;李力行;凌少平;马振华;贾红丽 | 申请(专利权)人: | 志诺维思(北京)基因科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/247;G16H50/70 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 刘凤 |
地址: | 102200 北京市昌平区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 病理 知识 图谱 构建 方法 装置 | ||
1.一种病理知识图谱的构建方法,其特征在于,包括:
根据不同语料来源的医疗文本数据,创建病理数据知识库,所述病理数据知识库包括疾病类实体对和用于表征疾病类实体对中的两个疾病实体之间关联的第一实体关系;
基于医学数据,根据预设医学规则,创建医学规则知识库,所述医学规则知识库包括解读类实体对和用于表征解读类实体对中的两个解读实体之间关联的第二实体关系;
确定疾病类实体对与解读类实体对中的等价类实体;
基于所述等价类实体,将所述病理数据知识库和所述医学规则知识库融合为目标知识库;
基于所述目标知识库形成目标病理知识图谱以进行存储。
2.根据权利要求1所述的方法,其特征在于,所述根据不同语料来源的医疗文本数据,创建病理数据知识库的步骤,具体包括:
将所述医疗文本数据输入实体识别模型,获得多个疾病类实体,并将所述多个疾病类实体随机组合,获得多个预测实体对;
针对每个预测实体对,将该预测实体对输入关系识别模型,获得该预测实体对中的两个疾病类实体之间的预测实体关系;
基于所述预测实体关系,从所述多个预测实体对中筛选出符合实体关系条件的预测实体对;
将筛选出的预测实体对确定为疾病类实体对,将筛选出的预测实体对之间的预测实体关系确定为第一实体关系,以生成病理数据知识库。
3.根据权利要求2所述的方法,其特征在于,通过以下方式确定每个预测实体对中的两个疾病实体之间的预测实体关系:
确定预测实体对的词向量;
确定预测实体对所在语句的句子向量;
将所确定的词向量和句子向量输入关系识别模型,获得预测实体对中的两个疾病实体之间的预测实体关系。
4.根据权利要求1所述的方法,其特征在于,所述预设医学规则包括疾病变异解读关系,通过以下方式创建医学规则知识库:
从医学数据中提取第一疾病实体;
根据疾病变异解读关系,确定与所提取的第一疾病实体存在疾病解读关系的变异解读实体;
确定与所述变异解读实体存在一度解读关系或者多度解读关系的解读实体;
确定与所述变异解读实体存在基因变异解读关系的基因变异序列;
确定与所述基因变异序列存在一度解读关系或者多度解读关系的变异实体;
将存在一度解读关系的实体确定为解读类实体对,将解读类实体对之间的一度解读关系确定为第二实体关系,以生成与第一疾病实体对应的医学规则知识库。
5.根据权利要求1所述的方法,其特征在于,所述确定疾病类实体对与解读类实体对中的等价类实体的步骤,具体包括:
从所述医学规则知识库的解读类实体对中提取多个第一疾病实体;
针对每个第一疾病实体,确定该第一疾病实体的同义词、上位词和下位词,形成该第一疾病实体的第一实体集;
从所述病理数据知识库的疾病类实体对中提取多个第二疾病实体;
针对每个第二疾病实体,确定该第二疾病实体的同义词、上位词和下位词,形成该第二疾病实体的第二实体集;
针对每个第一实体集,计算该第一实体集与每个第二实体集的相似度;
将相似度最大的第一实体集和第二实体集中的第一疾病实体和第二疾病实体确定为等价类实体。
6.根据权利要求1所述的方法,其特征在于,所述基于所述目标知识库形成目标病理知识图谱以进行存储的步骤,具体包括:
将所述目标病理知识图谱以关系型数据库的形式进行存储;
和/或,将所述目标病理知识图谱以图数据库的形式进行存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于志诺维思(北京)基因科技有限公司,未经志诺维思(北京)基因科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111021649.8/1.html,转载请声明来源钻瓜专利网。