[发明专利]一种医疗知识图谱搭建方法及装置在审
申请号: | 202110672372.9 | 申请日: | 2021-06-16 |
公开(公告)号: | CN113590817A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 袁孟全;岑汉;刘海兵;杨健;潘英剑;刘敬世 | 申请(专利权)人: | 贵阳叁玖互联网医疗有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/295 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 550022 贵州省贵阳市贵阳国家高新技*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 医疗 知识 图谱 搭建 方法 装置 | ||
本申请公开了一种医疗知识图谱搭建方法及装置,通过通过获取初始数据,对所述初始数据进行识别获取第一文本数据;对所述第一文本数据进行处理获取第一实体对集合;对所述第一实体对集合进行过滤处理获取第二实体对集合;对所述第二实体对集合进行处理获取目标实体对集合;确定旧知识图谱中是否包含所述目标实体对集合;如果包含,则将所述目标实体对集合进行验证后加入旧知识图谱。本申请提升了实体关系抽取的效率,减少了需要判断的实体对。使用深度网络模型获取各个关系类别的概率,通过实体对的先验信息获取对应的关系类别,设置相关的阈值,可提高抽取到专家知识三元组数据的准确率。
技术领域
本申请涉及计算机技术领域,尤其涉及一种医疗知识图谱搭建方法及装置。
背景技术
医疗平台上都会有大量的医学教学、诊疗会议等音视频数据,而这些数据中蕴含着大量的各个科室专家对各科疾病的诊断思路、治疗方案、疗效预测等,也就是医疗领域的专家知识,是由疾病的症状、疾病的名称、治疗方案、推荐治疗药物等数据知识融合而来。这些数据需要从大量的长文本数据中,有效地提取,并将这些专家知识数据进行相应的融合及保存。目前就长文本数据抽取结构化数据都是基于pipeline式的关系抽取方法,其计算冗余、准确率低。
发明内容
本申请提供了一种医疗知识图谱搭建方法及装置,以解决现有就长文本数据抽取结构化数据都是基于pipeline式的关系抽取方法,其计算冗余、准确率低的问题。
第一方面,为实现上述目的,本申请提供了一种医疗知识图谱搭建方法,所述方法包括:
获取初始数据,对所述初始数据进行识别获取第一文本数据;
对所述第一文本数据进行处理获取第一实体对集合;
对所述第一实体对集合进行过滤处理获取第二实体对集合;
对所述第二实体对集合进行处理获取目标实体对集合。
进一步地,所述对所述第一文本数据进行处理获取第一实体对集合,包括:
对所述第一文本数据进行处理获取预处理获取第二文本数据;
对所述第二文本数据进行实体识别,获取实体集合;
根据预设关系,对所述实体集合进行处理获取第一实体对集合。
进一步地,所述对所述第二实体对集合进行处理获取目标实体对集合,包括:
对所述第二实体对集合进行关系分类获取第三实体对集合;
确定所述第三实体对集合中的关系是否成立,如果成立获取第四实体对集合;
对所述第四实体对集合进行融合获取目标实体对集合。
进一步地,所述对所述第二实体对集合进行处理获取目标知识图谱之后,还包括:
确定旧知识图谱中是否包含所述目标实体对集合;
如果包含,则将所述目标实体对集合进行验证后加入旧知识图谱。
进一步地,所述确定旧知识图谱中是否包含所述目标实体对集合之后,还包括:
如果不包含,则在旧知识图谱中创建实体。
第二方面,为实现上述目的,本申请提供了一种医疗知识图谱搭建装置,所述装置包括:
文本数据获取单元,用于获取初始数据,对所述初始数据进行识别获取第一文本数据;
第一实体对集合获取单元,用于对所述第一文本数据进行处理获取第一实体对集合;
第二实体对集合获取单元,用于对所述第一实体对集合进行过滤处理获取第二实体对集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵阳叁玖互联网医疗有限公司,未经贵阳叁玖互联网医疗有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110672372.9/2.html,转载请声明来源钻瓜专利网。