[发明专利]一种基于特征融合的医疗实体关系抽取方法在审
申请号: | 201811575826.5 | 申请日: | 2018-12-22 |
公开(公告)号: | CN109710932A | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 李月;李娟;李建强;王全增 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62;G06N3/04 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于特征融合的医疗实体关系抽取方法,包括:通过远程监督结合规则的方法将知识库中实体对齐到医疗语料,构建实体对句子集合;基于卷积神经网络模型对句子进行词级别的向量编码,得到句子的整体特征向量表示;使用循环神经网络分别提取句子最短依存路径上的左右两个子树方向的特征,并进行拼接操作;将两部分分别提取的句子整体特征和依存句法特征进行融合,对得到的融合特征进行最终的关系抽取。本发明的方法在利用依存句法结构的前提下,引入实体间能够表达实体关系类型的实体类型特征、位置特征以及句子的整体特征,并与依存句法特征进行融合,更好的学习句子之间的语义关系,有助于减少噪音数据对医疗实体关系抽取的干扰,能够在一定程度上提升医疗实体关系抽取的准确性。 | ||
搜索关键词: | 实体关系 句子 整体特征 抽取 医疗 句法特征 特征融合 融合 知识库 卷积神经网络 循环神经网络 关系抽取 句法结构 句子集合 实体类型 位置特征 向量编码 向量表示 语义关系 远程监督 噪音数据 对齐 构建 语料 拼接 引入 学习 | ||
【主权项】:
1.一种基于特征融合的医疗实体关系抽取方法,其特征在于,包括:步骤一:获取初始已标注医疗关系抽取数据集构建实体关系知识库,将关系实体及其关系以三元组的形式存入关系知识库中;步骤二:利用预处理后的未标注关系抽取数据集及知识库中的实体对,通过远程监督结合规则的方法将知识库中的实体对齐到未标注医疗关系抽取数据集,构建实体对句子组合;步骤三:借助于自然语言处理工具LTP对关系数据集中的每个句子进行依存句法分析,并从依存路径上提取句子的最短依存路径;步骤四:通过同义词林等来构建词语的同义词库、上位词库,针对最短依存路径上的词获取其上位词,同时基于同义词库对医疗实体进行消歧;步骤五:对分词后的句子获取其词语本身特征、词性特征、实体类别和位置特征;步骤六:将句子中每个词映射为实值向量,并通过向量拼接的方式获得词语本身的词向量、位置向量、实体类别向量的融合向量;步骤七:网络模型分为基于卷积神经网络的句子整体特征提取部分和基于循环神经网络的句子依存特征提取部分;分别使用卷积神经网络和循环神经网络提取句子的整体特征和最短依存路径特征,并将两个特征进行融合;步骤八:将融合后的特征输入到分类器中对关系进行分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811575826.5/,转载请声明来源钻瓜专利网。