[发明专利]基于神经网络和远程监督的医学知识图谱构建方法和系统有效

专利信息
申请号: 201810005385.9 申请日: 2018-01-03
公开(公告)号: CN110019839B 公开(公告)日: 2021-11-05
发明(设计)人: 胡满满;陈旭;商显震;孙毓忠 申请(专利权)人: 中国科学院计算技术研究所
主分类号: G06F16/36 分类号: G06F16/36;G06F16/35;G06F40/295
代理公司: 北京律诚同业知识产权代理有限公司 11006 代理人: 祁建国;梁挥
地址: 100080 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 神经网络 远程 监督 医学知识 图谱 构建 方法 系统
【说明书】:

发明涉及一种基于神经网络和远程监督的医学知识图谱构建方法和系统,包括:获取医学文本集和医学实体集,根据医学实体集,采用远程监督法对医学文本集中各词语进行实体信息标注,生成包含实体信息的数据集,以训练神经网络,得到用于实体识别的实体识别模型;获取医学实体集中实体间的关系类别,以使用数据集中用于关系分类的特征,训练神经网络,得到用于关系分类的关系分类模型;通过对待构建知识图谱的语料文本进行分句处理,获得待提取句子集合,使用实体识别模型,提取待提取句子集合中的所有候选实体,并使用关系分类模型确定候选实体间关系,以从大规模非结构化数据中自动构建包含候选实体和候选实体间关系的医学知识图谱。

技术领域

本发明涉及知识图谱构建领域,特别涉及一种基于神经网络和远程监督的医学知识图谱构建方法和系统。

背景技术

知识图谱本质上是一种结点代表实体或者概念,边代表实体或概念之间的各种语义关系的语义网络。需要注意的是“实体”属于本领域惯用技术语言,表示领域知识内的对象,包含若干个属性。知识图谱通常使用三元组的形式化方法进行表达,三元组的形式是头实体、谓词、尾实体。知识图谱的构建一般通过实体识别和实体间的关系抽取从而构建三元组的方式来实现。

远程监督,将已有的知识库对应到丰富的非结构化数据中,从而生成大量的训练数据,训练出一个效果不错的模型。

LSTM(Long Short Term Memory,长短期记忆)网络模型能够对整个文本句子的信息进行建模表达,也能够避免循环神经网络的梯度消失和梯度爆炸问题,具有非常强的建模能力。LSTM网络,不仅能够很好地对非结构化文本进行特征提取和语义表达,从而进行命名实体识别,还能够对句子中两个候选实体进行关系分类,从而实现实体的识别和关系的抽取,进而提取三元组,最终构建知识图谱。

命名实体识别是从文本中识别具有特定类别的实体,例如人名、地名、机构名等。命名实体识别在深度学习领域通常使用序列标注的方法实现。序列标注是指对序列中每个符号赋予一个特定的标签。实体识别的序列标注则对每个词给出一个特定的标签来表明该词是某个实体的开始词,结束词或中间词,或者表明该词单独是一个实体,或者表明该词不是任何实体中的词。。

实体关系抽取,就是让计算机自动的抽取实体之间的关系。例如句子“记者滞留在机场”包含两个实体,分别是“记者”和“机场”,通过句子可以知道,“记者”和“机场”是位于关系,即“记者”位于“机场”。

实体识别和关系抽取包括从结构化、半结构化和非结构化文本中获取。

基于结构化数据的方法高度依赖于结构化的数据本身和数据模式的丰富程度,而结构化关系数据模式简单,数据量有限,学习内容的宽度非常受限,大多数情况下还需要与其它方法结合使用来构建更加全面的知识图谱。

基于半结构化数据的方法,除了能够利用网页中Meta及表格形式的列表数据外,大部分方法都退化成基于非结构化数据的方式。大部分基于半结构化数据的知识图谱构建是基于在线百科知识的,知识规模大,但是仍然高度依赖于在线百科的内容丰富程度,在某些特定的领域中,百科的知识的覆盖面以及准确度受限,内容在结构、知识丰富程度、可信度等方面均受限。

基于无结构化数据的方法,高度依赖于自然语言处理技术以及结构化的知识,例如词典和规则模板,且大部分情况下需要大量的人工干预。实现方式主要包括通过规则模板、词典、传统机器学习和深度学习的方式等等。基于规则模板的方式和基于词典的方式,高度依赖专家等人工的总结整理,同时受限于规则模板和词典的规模,需要耗费大量的人力和时间成本,而基于传统机器学习的方法依赖于专家等人工手动提取的特征。

基于人工构建的方法在互联网大规模非结构化数据时代已经不能满足大知识量的要求,数据量和知识度非常巨大而专家资源相对稀缺,所构建的知识图谱在覆盖面、更新速度等方面受到比较严重的限制。而基于深度学习的方式能够从无结构化的大规模文本中自动抽取实体和关系,数据量和知识量能够得到保证,同时避免了专家的大量介入,能够自动地构建知识图谱。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810005385.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top