[发明专利]药品知识图谱构建方法及系统有效
申请号: | 201911421839.1 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111221979B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 刘大海 | 申请(专利权)人: | 北京左医健康技术有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 肖冰滨;王晓晓 |
地址: | 101200 北京市平谷区中关村科*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 药品 知识 图谱 构建 方法 系统 | ||
本发明公开了一种药品知识图谱构建方法,包括:确定关于药品知识的若干类别的实体,所述实体包含若干知识要素;确定用于反映所述实体的知识要素间关系的关系/属性标记;获取药品说明书数据;建立并使用匹配模板来匹配所述药品说明书数据,得到三元组;和/或,通过人工处理所述药品说明书数据,得到三元组;融合并保存所述三元组,得到药品知识图谱。本发明通过匹配模板和人工标注两种方式单独或组合来对药品说明书数据进行处理得到三元组,在人工标注之前对药品说明书数据进行简化融合,大大减少了文本的信息量,降低了人工标注的工作量;在匹配/标注完成后通过对齐处理、冲突处理等消除了文本中表述的不一致和内容的冲突,保证了文本的准确性。
技术领域
本发明涉及知识图谱技术领域,特别涉及一种药品知识图谱构建方法、系统以及一种计算机可读存储介质。
背景技术
知识图谱本质上是语义网络(Semantic Network)的知识库,也可以把知识图谱简单理解为多关系图。知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。
在知识图谱里,我们通常用“实体”来表达图里的节点、用“关系/属性”来表达图里的“边”。实体指的是现实世界中的事物比如地名、概念、药物、成分、公司等,关系用来表达不同实体之间的某种联系,属性用于描述实体的内在特征,属性与关系有时可以互换。
现有技术中,缺少较为优质的药品知识图谱,原因在于很多药品知识图谱构建方案中使用字符串匹配或者实体识别模型从药品说明书里抽取知识的方案,效果其实并不理想,不管是匹配还是实体识别,都会存在大量的错误数据和遗漏数据。实体识别技术首先需要人工标注样本,然后训练实体识别模型。药品标注的场景,十分复杂,需要几千至几万的样本标注量,实际效果也没有字符串匹配抽取的效果准确。
医药行业是一个特殊的行业,数据错误和缺失都会造成很大的健康隐患,据统计数据显示,我国每年有250万人因为错误用药而损害健康,其中死亡的有20万人,是全国交通事故死亡人数的两倍,可见药品知识的准确性特别重要。
发明内容
有鉴于此,本发明旨在提出一种药品知识图谱构建方法和系统,能够便捷高效的构建药品知识图谱,构建过程中通过对药品说明书数据的融合/合并,减少了需要处理的信息量,并且通过对模板匹配和人工标注结果进行融合处理,避免了药品知识图谱中的表述不一致和错误。
为达到上述目的,本发明的技术方案是这样实现的:
一种药品知识图谱构建方法,包括:
确定关于药品知识的若干类别的实体,所述实体包含若干知识要素;
确定用于反映所述实体的知识要素间关系的关系/属性标记;
获取药品说明书数据;
建立并使用匹配模板来匹配所述药品说明书数据,得到三元组;和/或,通过人工处理所述药品说明书数据,得到三元组;其中,所述三元组用于反映两个所述知识要素和所述关系/属性标记三者之间的关系;
融合并保存所述三元组,得到所述药品知识图谱。
进一步地,所述确定关于药品知识的若干类别的实体,包括:
罗列出药品相关的所述知识要素;
通过对所述知识要素进行归类以确定所述实体。
进一步地,所述实体包括以下至少一个或几个类型:通用名实体、商品名实体、化学名实体、批准文号实体、剂型实体、规格实体、给药方式实体、给药时间实体、注意事项实体、症状实体、疾病实体、人群实体、药品类别实体、成分实体、性别实体、相互作用实体、药品配伍实体。
进一步地,所述确定用于反映所述实体的知识要素间关系的关系/属性标记,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京左医健康技术有限公司,未经北京左医健康技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911421839.1/2.html,转载请声明来源钻瓜专利网。