[发明专利]一种基于特征融合的医疗实体关系抽取方法在审
申请号: | 201811575826.5 | 申请日: | 2018-12-22 |
公开(公告)号: | CN109710932A | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 李月;李娟;李建强;王全增 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62;G06N3/04 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体关系 句子 整体特征 抽取 医疗 句法特征 特征融合 融合 知识库 卷积神经网络 循环神经网络 关系抽取 句法结构 句子集合 实体类型 位置特征 向量编码 向量表示 语义关系 远程监督 噪音数据 对齐 构建 语料 拼接 引入 学习 | ||
本发明公开一种基于特征融合的医疗实体关系抽取方法,包括:通过远程监督结合规则的方法将知识库中实体对齐到医疗语料,构建实体对句子集合;基于卷积神经网络模型对句子进行词级别的向量编码,得到句子的整体特征向量表示;使用循环神经网络分别提取句子最短依存路径上的左右两个子树方向的特征,并进行拼接操作;将两部分分别提取的句子整体特征和依存句法特征进行融合,对得到的融合特征进行最终的关系抽取。本发明的方法在利用依存句法结构的前提下,引入实体间能够表达实体关系类型的实体类型特征、位置特征以及句子的整体特征,并与依存句法特征进行融合,更好的学习句子之间的语义关系,有助于减少噪音数据对医疗实体关系抽取的干扰,能够在一定程度上提升医疗实体关系抽取的准确性。
技术领域
本发明属于自然语言处理领域,尤其涉及一种基于特征融合的医疗实体关系抽取算法。
背景技术
随着医疗大数据时代的来临,电子病历的知识挖掘和利用受到越来越多的关注。电子病历本身是一种半结构化的数据,其结构化的内容为计算机自动抽取和分析提供了便利,同时,非结构化数据的规模远大于结构化数据,并且蕴藏着丰富的医疗知识和患者的健康信息,充分识别电子病历中的这些知识将大大推动医疗事业的发展。
关系抽取是信息抽取的重要子任务,其主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据,关系抽取主要负责从文本中识别出实体,抽取实体间的语义关系。电子病历中概念实体之间的关系是医疗知识的重要组成部分,对于获取医疗领域中疾病、治疗、检查之间的关系有着重要的意义。
基于传统方法的关系抽取方法分为三种:基于监督学习的关系抽取,基于半监督关系抽取和基于Bootstrap学习的关系抽取。其中,基于监督的关系抽取很大程度上依赖于特征表示,如词法、句法、语义特征等。
随着深度学习的发展,循环神经网络(RNN,Recurrent Neural Network),和卷积神经网络(CNN,Convolutional Neural Networks)被广泛应用于自然语言处理领域,并在多个研究方向上取得显著高于传统方法的成绩。许多研究工作倾向于使用神经网络模型去解决关系抽取问题。神经网络模型能够自动学习句子特征,无需依赖复杂的特征工程,使用神经网络模型来学习句子的语义特征已经成为主流。
句法分析是自然语言处理中的关键技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。在关系抽取时,将句子中关系实体之间的依存句法关系应用于实体关系抽取中,可以帮我们明确两实体之间的关系结构,同时摒弃冗余的噪声信息的干扰。现有的基于最短依存路径的关系抽取方法直接将最短依存路径提取的句法作为输入而忽略了句子的整体特征,可能造成实体关系所需的重要信息的缺失。
发明内容
本发明针对现有技术中存在的不足之处,提出一种基于融合的医疗实体关系抽取算法。具体而言,将句子的整体特征与最短依存路径上的特征进行融合,并加入其他对关系识别有益的特征,如实体类型特征、位置特征等。能够在实体关系识别过程中充分利用最短依存路径对句子良好的表示性,结合句子的整体特征,更好的学习包括两个实体所在句子的语义特征,有助于减少噪音数据对实体关系抽取的干扰,能够在一定程度上提高医疗实体关系抽取的准确性。
本发明采用如下技术方案,一种基于特征融合的医疗实体关系抽取方法,该方法的实现过程如下:步骤一:获取初始已标注医疗关系抽取数据集构建实体关系知识库,将关系实体及其关系以三元组的形式存入关系知识库中。
步骤二:利用预处理后的未标注关系抽取数据集及知识库中的实体对,通过远程监督结合规则的方法将知识库中的实体对齐到未标注医疗关系抽取数据集,构建实体对句子组合。
步骤三:借助于自然语言处理工具LTP对关系数据集中的每个句子进行依存句法分析,并从依存路径上提取句子的最短依存路径。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811575826.5/2.html,转载请声明来源钻瓜专利网。